Science/Research 詳細

マシンラーニング、スマートになって創薬スピードアップ

May, 31, 2022, Portland--カーネギーメロン大学(Carnegie Mellon University)の研究者は、他のモデルではできない、大量の分類されてない(ラベルなし)データを利用する自己監督学習フレームワークを開発した。

分子特性を迅速かつ正確に予測することは、材料科学から薬学までの領域では科学的発見とアプリケーションの進歩には重要である。潜在的なオプションを探求する実験やシミュレーションは時間もコストもかかるので、研究者は計算化学研究を支援するためにマシンラーニング(ML)法を使って研究してきた。しかし、ほとんどのMLモデルは、既知の、つまりラベルのあるデータを利用できるだけである。これは、新しい化合物の特性を正確に予測することをほぼ不可能にする。

創薬のような産業では、潜在的な薬剤候補で利用するために選択する分子は数100万である。1%の予測誤差は、10000分子の誤認につながる。限られたデータでMLモデルの正確さを改善することは、新たな病気の治療では決定的な役割を担う。

既知の分子データ量は限られているが、可能性はあるがラベルがないデータ量は急速に増加している。CMU工学部の研究者は、この膨大なラベルなしの分子を使って、他のモデルよりも特性予測が優れているMLモデルを構築することを考えた。

研究は、MolCLR(Molecular Contrastive Learning of Representations via Graph Neural Networks)と言う自己監督学習フレームワークの開発で完結した。

「MolCLRは、約1000万のラベルなしデータを活用することでMLモデルのパフォーマンスを大幅に強化する」と機械工学准教授、Amir Barati Farimaniは言う。

ラベルありのデータとラベルなしのデータとの簡単な説明は、Ph.D学生、Yuyang Wangが、イヌとネコの2つの画像セットを考えることを提案した。一方のセットでは、各動物は、その種の名前でラベル付けされている。他方のセットでは、画像にラベルはない。人間には、2つのタイプの動物間の違いは明らかである。しかし、MLモデルには、違いは明確ではない。ラベルなしのデータは、したがって確実に役に立たない。このアナロジーを数100万のラベルなしの分子に適用する、これは人間では、手動で判断するには数10年かかるが、よりスマートなMLツールにとっての喫緊の必要性は明らかである。

研究チームは、拡張分子グラフ表現のポジティブペアとネガティブペアを対比させることで、そのMolCLRフレームワークにラベルなしのデータの利用の仕方を教えようとした。同じ分子から変換されたグラフはポジティブペアと考えられ、それに対して異なる分子からのものはネガティブペアとなる。この方法により同じ分子の表現が相互に近接しており、一方、異なる分子の表現は、遠くに押しやられる。

研究チームは、未知の分子から少量の情報を除去するために3つのグラフ増強を適用した。原子マスキング、結合削除、サブグラフ除去である。原子マスキングでは、分子に関する情報を削除。結合削除では、原子間の化学結合を消去。両方の増強の組合せは、サブグラフ除去となる。これら3タイプの変化によりMolCLRは、強制的に固有の情報を学習し、相関関係を作ることになった。

チームがMolCLRを薬剤の毒性を予測するために使用されるデータベースClinToxに適用するとMolCLRは、他のMLベースラインモデルを遙かに凌駕した。他のデータベース、Tox21では、MolCLRは他のMLモデルよりも優れていた。どの環境化学物質が人の健康に最も深刻な脅威となるかを区別することができる。

「われわれは、MolCLRが効率的な分子設計に有望であることを証明した。それは、幅広い範囲のアプリケーション、創薬、エネルギー蓄積や環境保護などに適用できる」とBarati Farimaniはコメントしている。
(詳細は、https://www.cmu.edu/)