100万人のゲノム解析データで進む最先端がん治療

DNA解析を取り巻く世界は、この数十年の間に劇的な変化を遂げました。その背景には、シークエンシング(※1)技術の発展とともに、それを背後で支えるスーパーコンピューターの存在があります。

(※1):DNAを構成するヌクレオチドの結合順序(塩基配列)を決定する、遺伝情報解析のための基本手段。

ヒトゲノム解析センターの取り組み

東京大学医科学研究所(以下、東大医科研)のヒトゲノム解析センターは、がんやさまざまな感染症、その他の難治疾患を対象とした最先端の研究に取り組み、その成果を医療に直結させることを目指しています。中でも特に注力しているのが、がん細胞のゲノム解析および臨床シークエンスで、前者はがん細胞において遺伝子の機能異常を引き起こしているDNA異変を調べる研究、後者はシークエンスの解析結果を患者にフィードバックする試みです。

通常、解析のためにすべてのゲノムシークエンスを実施すると、膨大なデータが発生します。例えば、ヒトゲノム解析センターで利用している次世代シークエンサーを一回走らせると、10人分の全ゲノムを読み取り、1テラバイトのデータが出力されます。さらに、このデータに対してさまざまな解析結果が付加されるため、データ量は目もくらむようなボリュームに膨れ上がっていくのです。

とりわけ、シークエンサーの精度が著しく向上し、利用コストも減少した2011年頃からデータ量は急増し始め、現在では患者1人当たりのゲノム解析に必要なストレージ容量は、最低でも200ギガバイト(GB)、高精度になると500GBに及ぶといいます。

研究を支える階層型アーカイブストレージ

このような状況を背景に、ヒトゲノム解析センターでは2015年4月1日より、スーパーコンピューター「Shirokane3」の運用を開始しました。

Shirokane3に採用された階層型のアーカイブストレージには、1ぺタバイト(PB)(※2)の大容量分散ストレージと21PBのテープライブラリーを単一のファイルシステムとして扱えるよう、IBM Spectrum Storage製品群が採用されています。また、今後のデータ増加に対応できるよう、テープ・カートリッジを追加するだけで最大100PBまでテープ・アーカイブの容量を拡張することが可能となっています。これにより、従来比で約33倍に当たる100万人分のゲノム解析データが保存できるようになりました。

(※2):1PBは約1000テラバイト(TB)

Shirokane3は今後、クラウド基盤で稼働する「IBM Watson Genomic Analytics」と連携し、研究を進めていくためのビッグデータ解析基盤となる見込みです。さらに、将来的にはIBM Watsonに変異情報を入力するだけでデータベース上において多様な情報を捜査し、今後、どのような病気に発展する可能性があるかを予測できるような仕組みへと成長することが期待されています。

photo:Thinkstock / Getty Images