マテリアルズインフォマティクス

データ科学の先進技術を駆使し,革新的な物質・材料の発見・開発を加速させる.薬剤分子,色素,ポリマー,ナノ構造材料等,対象は多岐に渡ります.物質探索やプロセス設計の超ハイスループット化を目標に,機械学習,ベイズ推論,スパース学習,位相データ解析,最適化等,データ科学の解析手法を結集し,データ駆動型物質・材料研究(マテリアルズインフォマティクス)の基盤技術を創出する.これが本研究のミッションです.

情報統合型物質・材料開発イニシアティブ

マテリアルズインフォマティクスは,データ科学と物質科学の融合領域です.2011年6月,オバマ政権主導のもと米国にてマテリアルズ・ゲノム・イニシアチブ(Materials Genome Initiative: MGI)という国家プロジェクトが始動しました.材料の開発では,新素材の発見から製品化までにおよそ10~20年という年月を要します.MGIのミッション定義は,この開発期間を半分に短縮することです.MGIのホワイトペーパーでは,研究開発の短期化・低コスト化の実現においてビックデータの利活用ならびにデータ科学の解析手法の導入が鍵になると述べられています.これを機にマテリアルズインフォマティクスという学際領域が一躍脚光を浴びることとなりました.我が国では,2015年7月にJSTイノベーションハブ構築支援事業「情報統合型物質・材料開発イニシアティブ」(拠点:国立研究開発法人 物質・材料研究機構)が始動し,統計数理研究所はプロジェクトの再委託事業拠点に指定され,データ科学の国内有数の研究拠点として,プロジェクト推進における重要な機能を担っています.

物質・材料研究におけるデータ科学の役割

材料設計のパラメータ空間は極めて広大です.例えば,有機化合物のケミカルスペースには,約10の60乗個の候補分子が存在すると言われています.材料設計は,このような広大な空間から所望の物性・機能を有する埋蔵物質を発掘する作業です.これまでの材料開発では,第一原理計算や分子動力学法などの計算科学の解析技術がナビゲータの機能を果たしてきました.研究者の経験則に基づき材料の構造を設計し,理論計算と実験による物性評価を参考に設計指針を見直すという方法です.このような方法によって,これまで多くの革新的材料が発見されてきたことは紛れもない事実です.しかしながら,経験則に基づく試行錯誤的な材料設計,計算,実験というループだけでは,決して超えられない壁があります.ここにデータ科学を組み込むことで,材料探索及び開発プロセスが飛躍的に加速する可能性があります.

データ科学による新物質の発見

本研究は,ベイズ推論と第一原理計算を組み合わせた物質探索技術を開発しています.実験や理論計算から得られた構造・物性データを用いて,機械学習で構造から性質のフォーワード予測モデルを構築します.これをベイズ則に従い反転させ,性質から構造のバックワード予測を導きます.そして,バックワード予測のモデルから構造を発生させることで,所望物性を有する埋蔵物質を発掘するというアプローチです.現在,薬剤分子,樹脂,色素,ポリマー,ナノ構造材料をターゲットに産学連携で開発手法の実用化を目指しています.

参考文献

Ikebata, H., Hongo, K., Isomura, T., Maezono, R., Yoshida, R. (2017) Bayesian molecular design with a chemical language model, Journal of Computer-Aided Molecular Design, 31(4):379-391.

R package iqspr version 2.4

XenonPy, Python Library on Representation & Learning for Materials Data