アレイ解析

がん組織のアレイデータを大量に蓄積しているデータベースから根こそぎダウンロードしたのはいいけど、それをどうやって正規化するかを思案中。
まずGEOからreferenceになるような正常組織のデータを取ってくる。
GEOのマイクロアレイサンプルデータはGSM~というアクセッション番号で管理されているのだけど、全く同じデータで違うGSMのIDがつけられているものもあるので、気をつけないといけない。
重複してデータセットに加えてしまっていたものがあって、そこでまずつまずいた orz


肝心の正規化手法については、今勉強中だけど,問題なのはデータセットが大きすぎること。
後々、データを追加していくことを考えるとMAS5とかPLIERがいいのかもしれないけど、、うーん。
アレイ解析でよく見るのはRMAだけれど、一度にRMAにかけるのは100サンプルくらいが限界(少なくとも自分のMacでは)なので、どうするか。
justRMAを試してみて、駄目ならRMA++がいいのかな?
うーん、わからん。。ということでとりあえず色んな手法で試してみて良さそうなのにする。