本研究では代謝物の3次元分子構造情報から代謝物ネットワークを構築し、そのクラスタリングを行うことで分子構造と生物活性間の関係性に基づいて生物活性が未知の代謝物の活性予測を行った。 KNApSAcK Metabolite Activityデータベースに収録されている50,037件の代謝物の分子構造情報と、3,210件の代謝物と155種類の生物活性との関連付け情報からなるデータセットに本研究の手法を適用し、データセットに含まれる生物活性が未知の代謝物の活性予測を行った。 まずデータセットの代謝物間の分子構造の類似度を計算し、類似度が95%以上の代謝物間を関連付けることで、分子構造に基づく代謝物ネットワークを構築した。 次に構築したネットワークに対してネットワーククラスタリングアルゴリズムを適用することにより、高い密度の部分をクラスタとして抽出した。 得られたクラスタと、ネットワーク内の代謝物が持つ全ての生物活性の間に有意な関係性があるかどうかを、hypergeometric p-valueを求めることにより検定した。 有意な関係性を持つクラスタと生物活性のペアの各々に対して、クラスタ内の活性情報が未知の代謝物と、湯ラスタと有意に関連する生物活性を結び付けることにより活性予測を行った。
上記の手法による活性予測の結果、6,480件の生物活性が未知の代謝物が持つと思われる生物活性が予測された。