ナノポア解析ワークフロー

鶴岡の学会で発表した内容が早口でメモできなかったというお声を聴きまして、内容を掲載します。諸般の事情により、スライドをそのままアップすることが出来ないため、ワークフローの部分のみの掲載となる点、ご了承ください。

 

以下、ナノポアのDe novo アセンブリの解析ワークフローと構造変異のワークフローとなります。ご注意いただきたい点は、実際の解析での評価ではなく、いろいろ見聞きした情報を元に集めている点、特にDe novo アセンブリは、扱うデータの難しさ(配列の複雑さや倍数性、得られるデータとリード数)によりプロセスは大きく変わります。そのため、以下のフローはあくまでも、シンプルな方法と理解いただき、個々のデータに合わせて修正が必要となる点もご理解ください。

 

では、まずde novo アセンブリから!スライドのスクショのコピーという点はご勘弁を・・

 

       f:id:marimiya_analysis:20180925001748p:plain

 

まずはQCやフィルタリングですね~ なんと、ONTのデータにはアダプターが残ったりしているので、それはporechopで取り除いてくださいね。ここに記載のあるツールは特別な記載がない限りオープンソースです。nanostatは数値での統計値情報が得られるのが個人的には好きですが、nanoplotを使っている人が多いなと思ったりします。フィルタリングはnaonfilt で。

 

                            f:id:marimiya_analysis:20180925002032p:plain

そしてロングリードのアセンブリツールとしておそらく一番有名どころなのは、canu。時間がかかる、というような声も聞きますが、そのあたりはエラー補正のツール選択にもよるらしいですが、精度では非常に高いものがでるようです。

        f:id:marimiya_analysis:20180925002203p:plain

エラー補正単独、特にDe novo アセンブリの前に使える補正(ナノポア自身のデータで補正する)では、nanopolishがあげられるかと思います。naonpolishは、補正以外にも1塩基の変異検出や、最近はRNAのPolyAの長さの検出など、様々なオプションというかツールが備わっています。いつか詳細を記載できればと思います。作成しているのは、Jared Simpson というABySSを作った人ですね。これで「おー!」と思う人ってどれぐらい居るんだろうなと思ったりしますが、とりあえず次にいきます。

 

 

 f:id:marimiya_analysis:20180925002558p:plain

次は、De novo アセンブリ、ポリッシング、それぞれのパートを行うツール群です。原理などがもちろん違うわけですが、とりあえずこのポストでは、ツール名の列記で失礼します。あとでリンクの調べ先を記載しますね。

このブログを書かなくてはと思っている間に新しくアップデートされたのが、MaSuRCAアセンブリ!なんとヒトゲノムのデータで、論文では6.4MbのNG50だったものを8.4Mbまでに伸長させるなど、Contiguinityが改良されているようです。スライドに入れられず、残念!
masurca.blogspot.com

ポリッシングのステップは、主にHybrid(イルミナリード)を組み合わせることが多いかと思います。ナノポアのデータだけで、高いコンセンサス精度を得ようとすると、解析が大変になったり、カバレッジをあげないといけないため、コスト面からすでに手持ちのイルミナと組み合わせたり、ちょっとだけイルミナを足したりすることが多いようです。

f:id:marimiya_analysis:20180925002750p:plain

そして、De novo アセンブリとポリッシングを一体にしたツールも存在します。UnicyclerとPomoxisですね。Unicyclerは環状化(環状ゲノムを環状に出来る場合、環状にする操作)もできるそうで(名前からすぐにピンとくればよかったのですが)、それを気に入っている方もいるようです。

canuは環状化のオプションがあります(が、つないではくれないそうです(荒川さん、ご指摘ありがとうございます!))。miniasm はありません 訂正:デフォルトで環状化できる場合してくれるようです。オプションになかったのでないのかと思っていました(鈴木さん、ご指摘ありがとうございます)。

PomoxisはONT社が作成したパイプラインでONT社のGithubで公開されています。ONT社のツールはほとんどお魚の名前なんですよね。ほとんどが・・・

そして、以下が構造変異(SV)検出ツールです。QCなどは前述と同じです。

      f:id:marimiya_analysis:20180925003237p:plain

マッピングツールは本当にいろいろありますが、その後の解析ツールとの相性やスピード、パラメータの選択が自分の解析データにあっているか(BAMファイルで必要な項目がちゃんと記載されているかetc)、などが選ぶところでしょうか。マップ率の高い、低いはパラメータでどうとでも変わってしまうので、マップされるべきものがちゃんとマップあされているかなど、見れるといいですね。

     f:id:marimiya_analysis:20180925003439p:plain

そして、SV検出。発表の時は、NanoSVを書き忘れていました、ごめんなさい、、とりあえず追記しています。

 

そしてマッピングとSV検出をまとめているツールがPickyです。

   f:id:marimiya_analysis:20180925003532p:plain

これらのツールは、おそらくググるとすぐに出てくると思いますが、これ以外にもいろいろと新しく出てきているものなど、オーストラリア国立大学のベンジャミンさんが以下にまとめてくださっているので、是非定期的にのぞいてみてください。

ナノポアツールまとめ

この記事を書かなくては…と思っている間にも、またporeTally というツールがリリースされ、以下のパイプラインが実装されているようです・・・明日の新幹線で論文を読んでみます。。これだけやれるといいですね。。Flyeはde Bruijnグラフではなく、アライメントベースのA Bruijnグラフを使ったアセンブリですね。あまり使ってる人を聞いた事がないのですが、以下に含まれているようですね。

f:id:marimiya_analysis:20180925004527p:plain

 

www.biorxiv.org

 

と、ナノポアのツールは次から次へと出てくるので、大変ですが、こちらが何かの参考になれば幸いです。