Platform for Drug Discovery


Tips



バイオ関連お役立ちTips


バイオに関係しないけど、役立つかもしれないTips


共同研究や学会運営などの調整に役立ちそうな事項を記載します。

学会・研究会 会計系ノウハウ

役立たない過去のTips


ソフトウェアや、Web文章のライセンスについて

  • Creative Commons
  • GPL

Tips的コンテンツへの外部リンク


Linuxやシェルスクリプト等

R関連

中上級者向け

教科書的な入門公開文章メモ

  • 竹中明夫のページ(R でプログラミング:データの一括処理とグラフ描き)(external link)
    • プログラミング初学者向けにRでの作図の自動化に関して懇切丁寧に解説されています。
    • プログラミング言語に慣れてしまった人が気に留めなくなってしまったプログラミング初級者が躓きそうなポイントを解説くださっているので、Rを触って挫折したという人にお勧めなコンテンツです。
    • ただし画面キャプチャは少なめなので、Rが実際に動かせる環境で手を動かしながら読まないと理解はできないでしょう。
    • また、テストデータも多くのページで使いまわしているので、まとまった時間をとって一気に学習するスタイル向きかもしれません。
    • Rのコンソール上で以下のように説明用に配置してあるファイルをダウンロードして読み込むと、途中からでも説明を追いやすそうです。
      • d <- read.table('http://takenaka-akio.org/doc/r_auto/len_width.txt', header = T)
  • R言語の基礎と実習(external link)
    • 山形大ドメインの公開された実習用の資料です。
    • 少ないスライド数で、Rの教科書レベルの基本操作に関する実例を含む解説が密に記載されています。
    • 言語の基本操作のクイックリファレンスとしても利用できそうです。
    • 記載のある項目の列挙
      • 代入,vectorの添字操作,vector関連基本関数,パッケージ関連関数,関数自作方法,
      • 遅延評価,スコープ,制御文,文字列操作,正規表現,型変換の注意点,非値,ハッシュがないこと,
      • 行列操作,データフレーム操作,配列について,リストについて,applyファミリー,
      • 確率分布と乱数,S3/S4/R5クラス,ファイル入出力,デバッグ,例外処理,他言語利用
      • コード最適化(速度向上),RWebUI,RStudio
  • 統計処理ソフト R 入門 講習会資料(external link)
    • (ライフサイエンスには限らない一般的な)教科書レベルの必要事項を記載されています。
    • Rの初級から中級にかけて必要な概念について理解のための検証例を交えて解説されています。
    • 検証例に対する出力は記載されていないため、Rを動かしながら実際に検証する必要があります。
    • 特に多言語は熟練しており、Rの特徴だけ要点を知りたい場合に大変重宝します。
  • 中四国心理学会第69回大会特別企画 Rチュートリアルセミナー 資料(external link)
    • フリーソフトとの付き合い方から、データ型やRの基本的な解説から記載があります。
    • 後半はt検定、回帰分析、因子分析、構造方程式モデリングにも触れられています。

RDBMS

SQLite

その他

  • 統合TV videocast(external link)
    • 統合TVのコンテンツタイトルを検索せずに眺められます。

プログラム言語の一般的なTips


シェルスクリプト

良く使うコマンド

シェルスクリプトのサンプル

シェルスクリプトとは関係ないけどUNIX系使う人が知っておいた方が良いコマンド

知らないと基本的なことが出来ないコマンド

  • UNIX:ls ディレクトリの中身の確認など
  • UNIX:cd ディレクトリの移動
  • UNIX:mv ファイルの移動
  • UNIX:cp ファイルのコピー
  • UNIX:mkdir ディレクトリの作成
  • UNIX:rm ファイルの削除、ファイルも含めたディレクトリの削除
  • UNIX:rmdir ディレクトリの削除
  • UNIX:pwd 現在の作業ディレクトリを表示する
  • UNIX:ln リンク(ショートカットのようなもの)の作成

開発系のコマンド

  • スクリプト・プログラム書く人のだいたいはviかemacsが使えます。
  • UNIX:vi 使用される頻度の高いエディタ。
  • UNIX:emacs 使用される頻度の高いエディタ。
  • UNIX:gcc C言語のソースコードを実行形式にするコンパイラ。

管理系のコマンド

  • UNIX:su 管理者権限になったり、別のユーザーになったり。
  • ファイル権限管理系のコマンド
  • UNIX:chmod 実行権限の管理
  • UNIX:chown ファイルのownerの管理
  • UNIX:chgrp ファイルの使用者グループの管理
  • ファイル/ディスクサイズ管理系のコマンド
  • UNIX:df ディスクの使用量の管理
  • UNIX:du ディレクトリやファイルの使用量の管理
  • ジョブ/プロセス管理系のコマンド
  • UNIX:top 実行中のプロセスのメモリやCPU利用率、ディスクI/Oなどリアルタイムな状況の確認。
  • UNIX:ps プロセスの監視。
  • UNIX:kill プロセスの強制終了やサスペンド、再開。
  • UNIX:bg コマンドを実行中にCtrl-Zをおして、"bg"すれば、裏でコマンドを進行させられる。
  • UNIX:fg 裏にまわったコマンドを表に戻す。
  • UNIX:jobs 複数のバックグラウンドジョブがある場合にリストするなど。

ネットワーク関連

  • UNIX:ping サーバやホストに接続可能か調べる時など。
  • UNIX:traceroute 自分の環境のグローバルIPを調べたり、接続先への道順を調べるなど。
  • UNIX:wget ウェブページをダウンロードしたり、RESTサービスに問い合わせたり。 curlとの違い(external link)
  • UNIX:curl ウェブページをダウンロードしたり、RESTサービスに問い合わせたり。wgetとの違い(external link)
  • UNIX:nkf URLエンコード/デコードに使用する。

使用頻度は高くないけど覚えておこうと思うコマンド(メモ)

Perl

Ruby

Python

R

windows版関連

シェル、Perlに慣れた人がRを始めるときに役立つ対応機能比較、メモ

Excelのグラフ化に慣れた人がRで作図するときに役立つ対応機能、メモ

C

SQLite

  • プログラミング言語ではありませんが...。
    • データ定義型の目安メモ
      INTEGERの最大値9,223,372,036,854,775,807
      ヒト1番染色体(ヒトで最大)        249,250,621
      最大級のゲノムポリカオス・ドゥビウム     約670,000,000,000
      • INTEGERの最大が、9,223ペタ(テラの約1000倍、ギガの約100万倍)近くあるので、ゲノム座標やリード数の情報を格納しても支障はない。

Excel

    • バイオ系Excel使いが知っておいた方が良いと思う項目を列挙。
  • 関数
    • VLOOKUP:複数の表のマージに使えるので、プログラムが書けない人にとっては数万行に注釈付けしたり対応付けするなどできるようになる。
    • 文字列操作系
    • &:文字の連結に使用する演算子。数が多い場合はCONCATENATE関数を使っても良い。
    • LEFT:文字列の左側一定数切り出す。
    • RIGHT:文字列の右側一定数を切り出す。
    • MID:文字列の中ほど一定数を切りだす。
    • SUBSTITUTE:特定パターンの文字列を全て置換する。
    • 制御系
    • IF:条件式にしたがって、TRUEの場合と、FALSEの場合とで返す値を変える。
    • ISERR:引数内が#VALUEや#N/Aの場合にTRUEを返す。
    • AND:複数の条件式の全てを満たす場合にTRUEを返す。
    • OR:複数の条件式のどれかを満たす場合にTRUEを返す。
  • Excel機能
    • 遺伝子名などが入ったファイルをExcelで読み込む際のお作法
    • 文字列として読み込む:GeneSymbolなどが入った列を含むタブ区切りファイルを開く際に、"カンマやタブなどの区切り文字によってフィールドごとに区切られたデータ"を選択後、区切り文字を指定して"次へ"で、遺伝子名の格納された列を"G/標準"から"文字列"にして読み込むと、"Oct4"や"Sept5"が日付に変換されずに済む。
    • 相対参照:複数のデータに関数で同じ処理を実行したい場合この概念が必須。
    • 絶対参照:数式を作ったあと、セルを指定している箇所で"F4"ボタンを押すと切り替え。共通の値を複数個所で使う場合便利。
    • ピボットテーブル:プログラムがかけない人がクロス集計表を作る最も簡便な手段の一つ。
    • セル選択してセルの右下の"■"を下か右に引っ張ると連番になる。"Ctrl"を押すと、選択範囲の繰り返しになる。
    • フィルター(旧オートフィルタ):一定条件を満たす列だけ表示させるのに便利。相当複雑な条件付けもできる。
    • ウインドウ枠の固定:巨大なテーブルを参照する際に、常に列ラベルを表示させておくと便利。
    • 並べ替え:ソートする。複雑な条件付けも可能。
    • 条件付き書式:数千を超えるデータをざっとみるには視覚的に脚色して見た方が全体の傾向を把握しやすい。p-value一定数以下を色付けする、somatic/germlineを別の色で目立たせるなど応用範囲は広い。
    • 重複の削除:連続する重複行を削除したい場合便利。
  • Google spread sheet
    • 提供元は違うものの、上記の機能の殆どはフリーで使えるgoogle spread sheetでほぼ同じ操作で使える。
      • 現時点で使えないのはフィルタでの複雑な条件の設定、重複行の削除(UNIQUE関数で代替化)。
      • 機能はあるが操作方法や挙動が多少異なるのはピボットテーブル、連番を付番する機能、条件付書式。

環境構築系


Xming

  • Xming環境構築
    • WindwosPC+Linuxサーバの組み合わせで、グラフ描画等LinuxのGUI環境を利用する方法です。

Cygwin

  • Cygwin環境構築
    • WindowsPCでUNIX/linux系環境を使う最も簡単な選択肢の一つです。

VMware

  • VMware環境構築
    • WindowsPCでlinux系環境を共存させる効果的選択肢の一つです。

用語のメモ


バイオ

統計・数学用語説明

グラフ(数学用語)/ネットワーク関連

参考


カテゴリーを追加して下さい。



プログラム言語の一般的でない込み入ったTips


Perl

Cygwin関連


Contact us
Copyright © 2009-2017 National Institute of Genetics  [Site Policy] [Privacy Policy]