ミロスワフ・J・ギルスキー、ロフシャン・G・サディゴフ
HUPO (Human Proteome Organization) のプロテオミクス標準イニシアチブは、生データ (mzML) とプロテオミクス実験からのスペクトル処理 (タンパク質の同定と定量) の結果 (mzIndentML) を保存するためのファイル形式を開発する任務を負っています。複雑な実験を完全に特徴付けるために、特別なデータ型が設計されています。標準化されたファイル形式は、ベンダー固有のバイナリ データ ストレージ ファイルに依存しないデータの視覚化、検証、配布を促進します。標準化されたファイル形式への堅牢で効率的なデータ アクセスのための革新的なプログラム ソリューションは、プロテオミクス コミュニティによるこれらのファイル形式のより迅速な広範な受け入れに貢献します。この研究では、mzML ファイル形式のスペクトル データにアクセスするためのアルゴリズムを比較します。XML ファイルである mzML ファイルは、XML 固有のクラス タイプを使用するときにデータ構造を効率的に解析できます。これらのクラスは、ファイルへのシーケンシャル アクセスのみを提供します。ただし、プロテオミクス データセットを処理するための多くのアルゴリズム アプリケーションでは、スペクトル データへのランダム アクセスが必要です。ここでは、シーケンシャル アクセスをランダム アクセスに変換するメモリ ストリームの実装を示します。このアプリケーションは、優れた XML 解析機能を保持しています。シーケンシャル アクセス モードとランダム アクセス モードでのファイル アクセス時間のベンチマークでは、スペクトルの数が少ない場合はランダム アクセスの方が時間効率が良いのに対し、大量のスペクトルを取得する場合はシーケンシャル アクセスの方が効率的であることがわかります。また、学術界や業界の他のファイル アクセス方法との比較も提供します。