Genomon Blogスタート

Genomon Blog

Genomon Blogを開設することにした。 構想は1年以上前からあったのだが、なかなか忙しく、ついつい先延ばしになっていた。 もう少し自分たちが取り組んでいること、問題点などをダイレクトに主張するチャンネルを作りたかったことが一つ。 また、一応自分も含めた開発者は日々、ゲノム解析の様々な評価をしているが (reference genomeをupdateしたら変異コールの結果はどう変わるか?、 bwaのバージョンによって、変異コールの結果はどう変わるか?など)、 その中には、同様の仕事に取り組んでいる方々にも、有益な知見もあるはずで、 公的な機関で税金で雇われている身としては、そういった知見をもっと広くシェアするべきであろうと思っていることが一つである。 今回はGenomon2で達成できたと思うことと、十分に達成できていないと思うところを、少し歴史的な背景も含めて記載したい。

Genomon2でできたと思うこと

新学術領域の「システムがん」で特任研究員として採用され、 小川誠司先生(当時は東京大学付属病院)と、がんゲノム解析の共同研究が本格的に始まったのが2011年の1月。 そこから、小川研究室に週4日ほど滞在して、医学系の研究者と一緒にがんゲノムシークエンスデータ解析のプログラムを作り上げた。 当時、幸運なことに、MDSという血液のがんの一種で、 splicing factorの新規がん遺伝子の発見 に従事することができた。 その後、2012年にGenomon-exomeとして解析プログラムを公開した。

自分が、あまりプログラミングに精通していなかったこともあり、Genomon-exomeは少し設定が難しいことなど、 実際利用する上で様々な課題があったと思う。また全ゲノムシークエンス解析に対応していないということも重大な問題であった。 そこで、2015年に「Genomon2」の開発に着手し、2016年5月に正式リリースした。 一応構造異常を検出するプログラム、Genomon-SVなどが備わっており、 これがすぐ利用できて、一応デフォルトの設定でそれなりに感度と正当率が高いリストが得られると思う。 (データに合わせて、パラメータを変えるともっと向上するが、それはまた以下で述べる課題と関係してくる)。

ただ、全ゲノム解析においても、即座に最低限の解析(SNV, indel, SV検出)ができるはずで、助かるユーザーはまあ多いのではないかと思う。 また、結果をインタラクティブなレポートによって可視化するpaplotも備わっており、 これも、解析結果が一目でわかるので、かなり便利になっていると思う。

最低限HGCのスパコンのユーザーに対しては、できるだけ利用しやすいようにしたので、 これまでアクティブに使っていただいていた京都大学の小川先生のグループの他にも、 長年がんゲノム解析に従事していたグループを中心に、おそらく少しずつユーザーを増やしていっていると思う。

Genomon2で十分にできていないこと

暗黙知の周知

課題としては、これはGenomon-exomeのときから感じていた問題点であるが、 解析の際に本当に必要な暗黙知の言語化、システム化が未だに十分になされていないとは感じる。

実際にゲノム解析に従事する際に必要な暗黙知としては、

  • そもそもシークエンスのストラテジー(腫瘍割合に対して、sequence depthをどのくらいとれば十分か?)
  • 実際に解析の正統性の検証(ポジコンをどのように設定するか?ポジコンの変異が検出できないときに、どういった手続きをとればよいのか?)
  • 様々なトラブルシューティング(C>AのoxoGのアーチファクト、全ゲノム増幅をした際に変異が大量に増える問題)
  • データの質に合わせた変異コールのフィルタリングの基準の変更

など様々なことがある。 小川研との共同で開発してきたが、吉田健一先生を初めとするメンバーとの間で、 様々な暗黙知が形成されていき、それに対して明確な言語化がなされずに、Genomonが出来上がっていったと思う。 小川研を始め、これらのゲノム解析における問題にそれなりに長く取り組んできた方は、あまり問題なく利用できるようにはなったと思うが、 がんゲノム解析を全くやったことのないユーザーがGenomon2の解析結果を見て、 即座に学術的、臨床的な判断を下すことができるようになってはいないと思う。

もちろん、他の海外のトップの研究機関で解析プラットフォームが、 そういった暗黙知がなくとも即座に利用できるということではないとは思う(ソフトのパラメータの説明とかは詳しかったりすると思う)。 しかし、今後ゲノム解析がますます一般化していく上で、 そういった必要な暗黙知の獲得をどこが引き受けるか?(ユーザーに理解してもらう?ソフトウェアに自動で組み込む?)ということは大きなポイントであると思う。

Genomonも幾つかの主要なクリニカルシークエンスのプロジェクトでの利用が進んでいて、 うまく、そういったクリニカルシークエンスのプロジェクトを進める企業と、役割分担を図っていくことができれば良いと思う。 どなたか、Genomon(Genomonでなくてもよいが、自分たちの知見の集合体)を本当に実用的な「形」にまとめつつ、 運用して、ビジネスにするということに興味がある方はいないであろうか?

また、そういった暗黙知をクラウドソーシング的に集積するプラットフォームを構築することはできないか?といったことも少し考えている。 まだあまり具体的ではないが。

解析パイプラインの移植性

Genomon2は東大医科研のヒトゲノム解析センターのスパコン上であればすぐできるように作り、 それ以外でのスパコンでも、できるだけ移植が簡単なように努力した。 まだ少数であるものの、実際にヒトゲノム解析センターのスパコン上以外で移植して使っていただいている実績もある。 しかしながら、ヒューマンリソースの問題など、まだ全くもって不十分な作りになっていると感じる。 また、現在ゲノム解析をクラウドで実行する試みが、アメリカ、カナダを中心に盛んに進んでいるが、 現在のプログラムはUGEなどのDistributed Resource Management Systemを念頭に開発されているため、 Amazon AWSやMicrosoft Azureなどのクラウド上で動かすためには、敷居が非常に高い。

しかし、やはりUGEなどのオンプレミスのクラスターマシンと、クラウドの両方でシームレスに実行できる、 ゲノム解析プラットフォームのあり方についての議論が進んでいる。 そろそろ、こうしたことに真剣に取り組む時期にきている(むしろもう遅い感じもあるが)。 これはできるだけ早い段階で取り組むつもり。またこの構想、結果については別の記事で詳しく述べたい。

Genomonのこれからについて

日本における、ゲノム情報解析の現状はあまりにも厳しい。 米国のBroad Instituteや英国のSanger Instituteなど、世界トップレベルの研究所が、 独自の解析プログラムを開発していて、彼らは数十人の研究者、プログラマーで開発に従事しており、 数多くの非常に優れたソフトウェアが開発され続けている。 日本は、ただでさえ数がいないのに、少ないゲノム情報解析に携わる研究者の連携がほとんどとれていない。 自分たちが少数で(2017年2月現在、開発者は3人)で、Genomonを開発・維持する意味はあるのだろうか?と日々自問自答することもある。

それでも、ゲノム情報解析は面白くてなかなかやめられない。 6年ほどずっと毎日のようにゲノムシークエンスデータをいじっているが、今でもいつも新しい発見に出くわす。 世界中で大量の生成されているゲノムシークエンスデータを、人間たちがまだ全く解釈できていないと思う。 全ゲノムシークエンスであれば、1検体で100GB(がん検体とコントロールのペアで200GB)ほどのデータ量になるが、 これを例えば後天的変異コールのテーブルに落とすと、10MBくらい。 ほとんどの人が見ているのは10MBのテーブルであろう。。 でも、100GBあるデータは、それだけの情報が詰まっている。 まだ世界中のほとんどの人が見ていない(または自分しか見ていない)観点で、 ゲノムデータを見るツールをデザインし、実装して、検証する作業は非常に楽しい。

今後の抱負だが、まだまだ新しいツールを作りたい。アイディアはたくさんある。 そして、それらの現在開発中・検証中のツールを少しずつGenomonに実装して、 医学系研究者にもしっかり貢献しようと思う。