-
計算システムズ生物学研究室
高下 大貴
Daiki Koge
距離学習を用いたマルチターゲットな回帰モデルによる物性回帰モデルの構築
マテリアルズインフォマティクス 深層学習 転移学習 -
物性が持つ潜在的な関連表現をモデル化し、転移学習の幅を広げる
マテリアルズインフォマティクスやケモインフォマティクスの研究が盛んになった近年では、新たな材料や医薬品を設計する際にも、深層学習や機械学習モデルを用いた物性評価が行われます。特に、深層学習モデルは表現力が非常に高く、学習に必要な教師データ(入力と目的変数が対になったサンプル)が多く取得できる場合は有効な手段となり得ます。しかし、そうしたサンプルが少ない場合は適当なモデルを作ることが非常に難しくなります。材料設計や薬剤設計の現場では、非常に少ないサンプルしか入手することができないため、一般的には比較的シンプルな機械学習モデルが使用されます。
私の研究では転移学習やマルチターゲット学習と呼ばれる手法を用いて、教師データが非常に少ない状況下での、適当な深層学習モデルの学習手法の考案に取り組んでいます。各物性間で共通の潜在空間(Chemical Space)が存在することを仮説とし、このChemical Spaceが予測対象となる物性以外の大量のビッグデータと深層学習を用いて推論するモデルを構築することで、目標となるタスク(材料分子の物性やタンパク質とリガンド間の結合親和性等)における予測モデルの汎化性能を向上させるような学習モデルを作成しています(下図)。
情報科学と関連領域、双方の知見を高めてモデルを進化させる
現在は、特に一つの分子において複数の物性が取得できないようなケース(不完全データ)におけるマルチターゲット学習手法の考案とシミュレーションをメインに行なっており、仮想的なChemical Spaceを人工的に作ることで、モデルの有効性を検証しています。実際の化学データでも良い結果が出せるようになれば、実験による測定が困難な物性であっても転移学習によって評価が可能となり、データ収集のために高コストの実験を行う必要がなくなるため、新材料や新薬の開発にかかる時間やエネルギー等の軽減に繋がると期待できます。
転移学習やマルチターゲット学習によって、モデルの汎化性能を上げる一方で、化学や生物学・物理学が関連するケモインフォマティクスの研究分野に、新たな知見を残すことも重要と考えています。適当な仮設によってモデルの精度が上がるということは、物理学や化学の関連する分子や物性のデータにおいて何かしらの知見を獲得できる可能性があります。それが、「全く新しい知見」か「既に化学や物理学の分野で明らかになっている知見」かは分かりませんが、データサイエンスを行っていく上では、ただモデルの性能を上げるだけでなく、実験を通して得られたことを十分に考察し、物理や化学の分野の知識にまで落とし込むことが重要であると考えています。
自分の時間を思う存分、研究と学びに費やせる喜び
この分野では情報科学のほかに物理学、化学、生物学などの知識が必須であり、知識が枯渇すれば新たな研究のアイデアが浮かばなくなってしまうため、関連分野の勉強にも一定の時間を費やす必要があります。卒業後、企業に就職するかアカデミックに進むかは決めていませんが、どちらも幅広い知識と広い視野が求められることは間違いありません。
そのため、研究専念支援金のおかげでアルバイトが不要になったことは、本当に助かりました。すべての時間を研究と勉強に使えるようになり、日々、前向きな気持ちで打ち込むことができています。
研究に専念したいと思いながらも、それができない状況にある多くの博士課程学生のために、この支援制度が広く知られるようになることを願っています。
(取材・撮影:ライティング株式会社 酒井若菜)