EdgeRと一般化線形モデルまわり
ちょっと仕事も含めて、EdgeRの一般化線形モデルをじっくり見る必要があったので、そのあたりのメモ。
EdgeRは以前見たときは、1因子はExact Test をしていて、多因子の時が一般化線形モデルという話だと思ったけれど、最近は1因子でも一般化線形モデルという事らしい。DESeqもそうなっているので、まぁそういうことなのだろう。
一般化線形モデルはリンク関数を使って、応答変数を変換し、線形予測子でモデルを作るようにしたもので、応答変数が正規分布をしてなくてもいいというところで応用の幅が広い(ただし指数分布族である必要はある)。
で、いきなりEdgeRでのモデルを見てみる。マニュアル18ページに出てる。ちなみに2015年10月8日にReviseされたバージョン。
ここでは番目の遺伝子、番目のサンプルの観測値の期待値、はデザイン行列、は係数。そしてはサンプル番目のライブラリサイズ、つまり総リード数。ここで、ふと思ったわけです、このってなんでそこに居るの、と。普通教科書に出てくる一般化線形モデルは、以下
みたいな感じ。で、とりあえず分かりやすくするために左辺をもとの値に戻してみるかと、式変形してみると
で、マニュアルの14ページあたりに、以下の記載があるわけです。
ここで、が実際の観測されたリード数、その期待値が、総リード数に割合をかけたものであらわされていて()なんだ、そういうことだったんですか、Robinsonさんと著者の人を思っていました。まぁ自明だから説明省くよ、って事なのかもしれませんが、なるほど、総リード数の割合のところを推定するようなモデルなのだなーとなるほどなるほどと思っていました。
バイオインフォのアルゴリズムは、当たり前といえば当たり前なのでしょうが、教科書どおりとはならないので、有る意味解読的に読まないといけませんが、おや?と思ったところが分かると、パズルが解けたような面白さですね。と、教科書には載ってないと書いて、よくよくいろいろな本を見てみると、一般化線形モデルの教科書的な久保先生のみどり本には、47ページ脚注に説明があり、138ページで同様な形のGLMが紹介されていました。あはは。。。GLM奥深し。。大学院で習った記憶はあるものの、あまり専門ではないのですが、これを機に勉強しなおそうかなとか思ったり。
まぁSlow and Steady でいきませう。