シヴァ クマール、ヴィジャイクマール ガダジ、インドゥプリヤ スブラマニアン、アールティ デサイ、ヴィヴェク K シン、アバイ ジェレ
背景: 生命科学研究の主な目的は、複雑な細胞メカニズムと、複数の細胞プロセスにおけるさまざまな遺伝子/タンパク質の相互作用を理解することです。このため、UniProt、Protein Data Bank (PDB)、Reactome などの他のデータベースが複数存在するにもかかわらず、PubMed は依然として生物医学情報の主な情報源となっています。
目的: ハイスループット技術と複数のデータベースから大量のデータが利用できるようになったため、遺伝子-プロセス-表現型に関する関連情報を見つけることは、現在、極めて困難で面倒な作業となっています。現在、PubMed と複数の他のデータベースを同時に検索して総合的な情報を取得できるツールはありません。さらに、一般的な PubMed 検索では多数の記事が返されるため、関連する文献を特定するには手動で選別する必要があります。そこで、PubMed と他の関連データベースで遺伝子、細胞型、細胞プロセスの組み合わせ検索を簡素化する文献マイニング ツールである BioGyan を開発しました。
方法: BioGyan は、堅牢なスコアリング方法を使用して、ユーザーの検索用語に関連する記事をランク付けします。スコアリング方法は、要約内の遺伝子、プロセス、相互作用の用語の共起の加重合計に基づいています。
結果: BioGyan は、検索された遺伝子とプロセス、パスウェイ データベースからの関連パスウェイ、および PDB からの 3 次元構造の関連性をサポートする PubMed 記事を取得します。簡単に表示できるように、すべての情報が 1 つのウィンドウでユーザーに表示されます。BioGyan は、遺伝子とプロセスの関連性に関する記事の予測において 85.46% の精度を示し、PESCADOR よりも優れたパフォーマンスを示しました。
結論: BioGyan には、遺伝子とプロセスのバッチ クエリ、記事のオフライン読み取り、記事リストを参考文献としてエクスポート、ユーザーが記事の関連性を修正できる柔軟性など、いくつかの重要な機能があり、文献検索に不可欠なツールとなっています。このように、BioGyan は、複数のデータベースにわたる総合的な検索を提供しながら、プロセス全体を大幅に自動化するユニークなツールです。