ミンチー・ウー、モニーク・ラインケルス、ファミング・リャン
ChIP-seqは、その高解像度マッピングと強力なChIPエンリッチメントシグナルにより、ゲノムワイドなタンパク質-DNA相互作用の研究においてChIPチップ技術に取って代わる傾向がありますが、一方で膨大なデジタルChIP-seqデータは統計学者に新たな課題を提示しています。現在までに、文献で提案されているChIP-seqデータ分析のほとんどの方法はモデルベースですが、生物システムの複雑さとシーケンスプロセスで生成される変動を考えると、すべてのデータセットで機能する単一のモデルを見つけることは不可能です。本稿では、ChIP-seqデータ分析のためのモデルフリーアプローチ、いわゆるMICS(ChIP-Seqのモデルフリー推論)を紹介します。MICSには、既存の方法に比べていくつかの利点があります。まず、MICSはデータ分布の仮定を回避するため、データのモデル仮定に違反した場合でも高い検出力を維持します。次に、MICSは、偽発見率の推定にシミュレーションベースの方法を採用しています。シミュレーションベースの方法はChIPサンプルとは独立して機能するため、MICSはさまざまなChIPサンプルに対して堅牢に機能し、エンリッチメントが弱い場合でもピーク領域を正確に特定できます。さらに、MICSは計算効率が非常に高く、かなり大きなデータセットでもパーソナルコンピュータで数秒しかかかりません。この論文では、ChIP-seqデータをシミュレートする単純な半経験的方法も紹介します。これにより、ChIP-seqデータ分析のさまざまなアプローチのパフォーマンスをより適切に評価できます。MICSは、実際のデータセットとシミュレートされたデータセットに基づいて、MACS、CCAT、PICS、BayesPeak、QuESTなどの既存のいくつかの方法と比較されます。数値結果は、MICSが他の方法よりも優れていることを示しています。入手先: MICSと呼ばれるRパッケージは、http://www.stat.tamu.edu/~mqwuで入手できます。