2019.7.4
, EurekAlert より:
材料科学の専門知識で訓練されていない機械学習アルゴリズムが、数百万の論文要約をスキャンして新しい科学知識を発見することができる、という米国エネルギー省のローレンスバークレー国立研究所からの報告が『ネイチャー』誌に発表された。
「材料科学について何かを教えることなく、それは周期律表や金属結晶構造のような概念を学習した。もっとも重要なことは、それを用いて材料科学のギャップを埋められるということだ」と筆頭研究者のアヌブハブ・ジェインは語っている。
研究チームは、1922年から2018年にかけて学術雑誌1,000誌に掲載された330万件の材料科学の論文の要約を集めた。およそ50万語からなるテキストをWord2vec(機械学習アルゴリズムのひとつ)に入力して、200次元のベクトルに変換したという。
「重要なのはそれぞれの数ではなく、数を用いて各単語が別の単語にどのようにつながるかを見たということだ」とジェインは語っている。「例えば、あなたは標準的なベクトル計算によってベクトルの引き算ができる。別の研究者らは、あなたが非学術テキストでこのアルゴリズムを鍛えれば、『王マイナス女王』の結果のベクトルは、『男性マイナス女性』と同じ結果になることを示している。それはあなたが何かを言わないでもその関係を見つけ出すのだ。」
同様に、材料科学のテキストで鍛えれば、アルゴリズムは、要約中に単語の置かれた位置から、例えば金属の結晶構造のような科学用語あるいは概念の意味を学習することができるようになる。例えば、『王−女王+男性=?』という等式を解くように、『強磁性−NiFe+IrMn』から『反強磁性』という答えが導かれるようになる。
研究チームは、Word2vecを用いて、新しい熱電材料を探した。予測された上位10件は、計算された力率が既知の熱電材料の平均値よりわずかに高かったという。また上位3つの候補は、既知の熱電材料の95パーセンタイル以上の力率があった。
驚くべきことに、2000年までの論文を用いて、その後に発見された材料を発見することが可能であったという。
「この研究は、このアルゴリズムが以前に導入されていれば、もっと前に発見された可能性のある材料がいくつかあることを示している」とジェインはコメントしている。
出典は『ネイチャー』。 (論文要旨)
|