Machine learning of molecular electronic properties in chemical compound space, New J. Phys. 2013, 15, 095003.

原文
和文紹介記事

Abstract

現代の科学計算と電子構造理論の組み合わせにより、構造と物性の関係の解明をデータ分析的に対応できる、これまでにない量のデータがもたらされる可能性があります。仮想化合物の構造が与えられれば、指数関数的に増加するプール内の「プロパティ」をもとにしたハイスループットスクリーニングが"合成的"に可能になります。

ここでは、数千の有機分子のab initio計算結果のデータベースでトレーニングされた機械学習モデルを提示し、複数の電子基底状態と励起状態の特性を同時に予測します。「プロパティ」に含まれるものは、原子化エネルギー、分極率、フロンティア軌道固有値、イオン化ポテンシャル、電子親和力、励起エネルギーです。機械学習モデルは、深いマルチタスク人工ニューラルネットワークに基づいており、さまざまな分子特性間の基礎となる相関関係を利用しています。入力は、ab initioメソッドと同じ、核電荷とすべての原子のデカルト座標とします。小さな有機分子の場合、そのような「量子機械学習」は、ごくわずかな計算コストで済み、精度は現代の量子化学的方法に近いものが得られ、時には優れています。

Memo

「有機合成化学者のための計算化学・ケモインフォマティクス入門, 化学の新しいカタチ「クーロン行列は分子の回転・並進操作に不変な化合物の表現法」」における「QM7bの元文献は以下の論文です.“Machine learning of molecular electronic properties in chemical compound space” New J. Phys. 2013, 15, 095003.」こちらの記事のほうが正確に書けているのでこちらを参照する。

quantitative structure property relationships (定量的構造~量子化学的物性相関;QSPR)

  • 計算対象;一般的な分子データベース(GDB)-13データベースのサブセット(水素で飽和されたC、N、O、S、またはClで構成される最大7つの2番目と3番目の行の原子を持つ7211個の安定した有機分子、[13、14])
  • 計算されたプロパティ;105のエントリを含む量子化学データベースを生成(霧化エネルギー、静的分極率、フロンティア軌道固有値、励起エネルギーおよび強度は、ハイブリッド密度汎関数などの最先端の第一原理法など、広く使用されているさまざまな電子構造法によって計算, 表1)
  • 既報内の分子記述子(今回は使用しない);バイオインフォマティクスのアプリケーションで使用されるさまざまな記述子がありますが[23–27]
  • クーロン行列記述子(今回使用);クーロン行列は、原子距離の逆行列表現であり、一意であり(つまり、2つの分子が同一またはエナンチオマーでない限り、同じクーロン行列を持たない)、構造による分子の並進と回転に関して不変性を保持する[9、10]。原子の索引付けに対する不変性は、高い予測精度でモデルを取得するために重要であることが判明しています。データ拡張を通じて既知の不変性をエンコードする(アライメントする)アイディアは画像分類と手書き数字認識データセットの予測精度を向上させるために使用されている[61]。
  • 結果は、MLモデルが体系的に、第一原理原子シミュレーションまたは実験を介して生成された高品質データベースから高度に予測された構造とプロパティの関係を推論できることを確認できたとしている。

ランダムクーロンマトリックスの詳細 → stacks.iop.org/NJP/15/095003/mmedia。ランダムクーロンマトリックスは、クーロンマトリックスのセットに対する確率分布を定義し、同じ分子の異なる原子のインデックス付けを考慮します。次の4ステップの手順は、分布p(M)からクーロン行列をランダム化します。

  1. 分子の任意の有効なクーロン行列Mを取得します。
  2. このクーロン行列の各行のノルムを計算します:n =(∥ M1∥、...、∥M23∥)
  3. nと同じサイズのゼロ平均単位分散ノイズベクトルεを描画
  4. nをソートする同じ順列でMの行と列を並べ替えます+ε。

ランダムクーロン行列の重要な特徴は、2つの異なる分子のクーロン行列にわたる確率分布が完全にばらばらであることです。※数式的な表記を纏めておきたい