データ解析方法について(遺伝子発現)

RNA-Seq解析やマイクロアレイ解析などの受託解析完了後に、お客様は大量の遺伝子発現データとの「にらめっこ」をすることになります。受託解析を依頼したものの、結果の見方や解釈に困り日の目を見ることなくデータがお蔵入りしてしまうことも珍しくありません。このページでは効率的かつ効果的なデータ解析をするうえでのポイントをご案内します。

不要なデータの処理

正規化後の遺伝子発現データは比較サンプル同士を直接比較することができますが、全てのデータが利用可能なわけではありません。検出限界を下回っているノイズデータに関しては数値の信頼性が低く、サンプル間の遺伝子発現比を算出したとしても、遺伝子発現比自体が意味のない数字になってしまいます。したがってノイズデータの除外が必要です。

ノイズデータの扱い
ノイズデータの扱い

ノイズデータの判別については、検出フラグを利用することができます。マイクロアレイデータにはスポットシグナルとバックグラウンドシグナルに差があるかを検証したデータを元に検出フラグデータが含まれています。
一部のマイクロアレイデータやRNA-Seqデータについては検出フラグが存在しない場合があります。そのような際には遺伝子発現シグナル、リードカウント、FPKM値などに一定の閾値を設けてフィルタリングをかけることが必要です。

解析サンプル全てがノイズレベルであった遺伝子データは除去が必須ですが、遺伝子によってはノイズデータと発現検出データが混在することがあります。そのような場合にはノイズデータを持ったサンプル割合が高ければデータ除去をお奨めします。

遺伝子発現データプロファイルの俯瞰

ノイズデータを除去したと言っても、まだ数万個の遺伝子発現データが残っています。そのようなデータを1つ1つ見ていった場合、時間がいくらあっても足りません。
そのためにはフィルタリング機能を用いて発現変動遺伝子をリストアップすることが必要ですが、このステップの前に一度データ全体を見渡すことをお奨めします。
そのツールとしては「散布図(スキャッタープロット)」や「ヒートマップ」などのツールが効果的です。

散布図は二次元グラフのX軸・Y軸に2項目の量や大きさ等を対応させ、データをプロットしたものです。サンプル間の遺伝子発現レベルに変化が無い場合には、グラフの左下端から右上端を結ぶ線上にデータが現れます。データポイントがグラフの左上端、右下端方向に現れる場合、遺伝子発現変動が起こっていることを示します。

解析データのグラフ化
解析データのグラフ化

散布図は2サンプル間のデータ関係を知ることができますが、多サンプルのデータを俯瞰することはできません。
それを補完するデータ表示が「ヒートマップ」になります。ヒートマップは遺伝子発現レベルに応じて色付けをしてサンプルごとの遺伝子発現レベルの変化を見ることができます。このヒートマップにクラスタリング解析を組み合わせることで、よりグラフを見やすくすることができます。クラスタリング解析により、遺伝子発現パターンが類似しているサンプル、遺伝子を見分けることができます。
このデータ俯瞰のステップにより今回の解析サンプル間で遺伝子発現変化の度合いを把握することができ、発現変動遺伝子抽出時のフィルタリング条件設定をする際の目安とすることができます。

発現変動遺伝子のリストアップ

遺伝子発現変化が起こっているかを判断する指標としては、遺伝子発現比(Fold Change, Ratio)を利用します。変動している遺伝子発現比は2倍以上あるいは1/2以下が目安になりますが、絶対的な閾値として用いるのではなく解析に使用するマイクロアレイ種や実験系によって変化させることができます。群間で比較解析をする場合にはT-testやANOVAといった統計解析の危険率(p-value)も重要な指標です。一般的にはp-valueが0.05未満となる遺伝子データを採用します。遺伝子発現比・統計解析いずれのデータを用いるかではなく、両方の指標を組み合わせたフィルタリングをすることが必要です。

※統計解析を実施するにはBiological Replicateが少なくとも3以上必要になります。

発現変動遺伝子リストアップ後の機能解析について

発現変動が起こっている遺伝子リストに、どのような意味があるかを考えるのは重要です。各遺伝子には詳細な情報(アノテーション)が付与されていますが、その中でもGene Ontology(GO)は貴重な情報を入手することができます。GOは「cytokine signaling」「apoptosis」「cell differentiation」など、遺伝子が持つ機能を体系的にまとめたデータベースです。各遺伝子には複数のGOが紐づけられており、聞きなじみのない遺伝子がリストアップされたとしても、これらの情報から遺伝子の機能を類推することができます。

組同様にパスウェイ情報を調べることも効果的です。いずれの情報もGeneSymbolをIDとして以下のデータベースから最新の情報を取得することができます。

遺伝子機能データベース
Gene Ontpology KEGG WikiPathway
機能解析ツール
DAVID Panther

クラボウの受託解析サービスでは、RNA-Seqやマイクロアレイなどの結果を弊社開発の専用データビューワー「Transcriptome Viewer」を無償で提供しております。上記に挙げていたデータ解析方法をエクセルファイルで1から実施することは非常に多くの作業を要します。「Transcriptome Viewer」ではこれら手間のかかる作業を「アイコンのワンクリック」からスタートできます。また多くの解析ソフトがWindows PCにしか対応していないのに対して、「Transcriptome Viewer」はMac PCでも使用することができます。

またデータマイニングサービスをオプションサービスとして用意しております。弊社は15年以上の受託解析実績があり、これまでに多くの解析データを見てきました。日々の実験・研究で見慣れない膨大なデータを取り扱うことに不安の多いお客様にも、安心して解析をご依頼いただける体制を整えております。