ネットワークに基づく三次元分子構造類似性のクラスタリングによる二次代謝物の機能推定

若松 信孝 (1551120)


 二次代謝物は主に植物や微生物などにより合成される低分子であり、昆虫の忌避物質や紫外線対策などの形で生産者の生存戦略に用いられている。 また、その生物活性の多様さから、人間により医薬品や香料、嗜好品などさまざまな目的のために利用されている。 近年、解析手法の進歩のために数多くの代謝物の分子構造が決定され、その情報がデータベースに蓄積されている。 しかし、分子構造が決定された代謝物の数と比べると代謝物の持つ生物活性が決定されているものは少ない。

 本研究では代謝物の3次元分子構造情報から代謝物ネットワークを構築し、そのクラスタリングを行うことで分子構造と生物活性間の関係性に基づいて生物活性が未知の代謝物の活性予測を行った。 KNApSAcK Metabolite Activityデータベースに収録されている50,037件の代謝物の分子構造情報と、3,210件の代謝物と155種類の生物活性との関連付け情報からなるデータセットに本研究の手法を適用し、データセットに含まれる生物活性が未知の代謝物の活性予測を行った。 まずデータセットの代謝物間の分子構造の類似度を計算し、類似度が95%以上の代謝物間を関連付けることで、分子構造に基づく代謝物ネットワークを構築した。 次に構築したネットワークに対してネットワーククラスタリングアルゴリズムを適用することにより、高い密度の部分をクラスタとして抽出した。 得られたクラスタと、ネットワーク内の代謝物が持つ全ての生物活性の間に有意な関係性があるかどうかを、hypergeometric p-valueを求めることにより検定した。 有意な関係性を持つクラスタと生物活性のペアの各々に対して、クラスタ内の活性情報が未知の代謝物と、湯ラスタと有意に関連する生物活性を結び付けることにより活性予測を行った。

 上記の手法による活性予測の結果、6,480件の生物活性が未知の代謝物が持つと思われる生物活性が予測された。