SMILES to Smell: Decoding the Structure–Odor Relationship of Chemical Compounds Using the Deep Neural Network Approach, A Sharma, R Kumar, S Ranjta, PK Varadwaj – Journal of Chemical Information and Modeling


Abstract

匂い分子の構造とその匂いの質との関係を見つけることは、常に非常に困難な作業だった。分子構造と匂いの関係を確立する困難は、特に匂い分子(に関する情報の)の供給源が異なる場合、(匂いの質についての)記述子ラベルのあいまいで曖昧な性質に起因します。ディープラーニングの出現により、データ駆動型のアプローチが現実的になり、化学構造とその匂いの間のより正確なリンクが実現されました。この研究では、物理化学的特性と分子フィンガープリント(PPMF)を備えたディープニューラルネットワーク(DNN)と、化学構造イメージ(IMG)を備えた畳み込みニューラルネットワーク(CNN)を開発し、SMILES表記を使用して化学物質の匂いを予測します。マルチラベル予測モデルを開発するために、104の嗅覚を持つ5185の化合物のデータセットが使用されました。 DNN + PPMFおよびCNN + IMG(Xceptionベース)からの匂い予測の精度は、化学物質の独立したテストセットに適用した場合、それぞれ97.3および98.3%であることがわかりました。 提案されたDNN + PPMFとCNN + IMGの両方の予測モデルを組み合わせた深層学習アーキテクチャは、匂い分類、化学構造と匂いの知覚の関係の根底にある一般的なメカニズムを理解を促進します。

定量的匂い-構造活性相関(QSOR)の歴史

QSORの予測は、数十年前のアプローチである(8,15)  

QSOR予測の最近の研究は、

  • MLのブレークスルー。(6,57-66)
  • 分子の3次元(3D)表現を使用した畳み込みニューラルネットワーク(CNN)の実装に基づいていました(67)
  • 単語の埋め込みを使用した化学情報表現、(68)
  • 分子の質量スペクトルを使用した自然言語処理(NLP)(69)
  • 分子グラフ構造を使用したグラフニューラルネットワーク(GNN)(70)

機械学習ベースの「匂いの質」予測の主な欠点には、さまざまな情報源における匂いの記述のあいまいさが大きく悪影響を及ぼしています。

嗅覚のためのデータベース(よくレビューされている)

  • The National Geographic Smell Survey(largest database housing ∼1.4 million individuals’ responses for 6 odorants) (71)
  • Arctander data (3102 odorant percepts estimated by one perfumer)(23)
  • Dravnieks' Atlas of Odor Character Profiles (138 mono-molecules and 16 mixtures/oils rated by ∼150 participants for 146 verbal smell percepts)(22)
  • Keller and Voshall data (476 odorants rated by 49 participants for 19 descriptors)(12,72)
  • Boelens Atlas(73)
  • The odorant databases with one or more smell descriptors
  • The Goods Scents Company webpage (TGSC) (http://www.thegoodscentscompany.com/)
  • the Flavor-Base (FLB)–10th Edition database (http://www.leffingwell.com/flavbase.htm.)
  • the Falvornet website (http://www.flavornet.org),(74)
  • the Sigma-Aldrich Flavors and Fragrances catalog,(75)
  • the SuperScent database,(76)
  • the OdorRactor database (http://mdl.shsmu.edu.cn/ODORactor/),(77)
  • AromaDB,(78)
  • OlfactionDB,(79)
  • SmellSpace,(80)

Some sources contain a large number of molecules (e.g., Flavornet, TGSC, Arctander),
while others contain a small number of odorants (e.g., Boelens and Dravnieks).
There is significant homogeneity between various sources about smell percepts, smell characteristics, evaluators’ expertise, etc.

引き合いに出している既存研究

The DREAM olfaction challenge(19) held in 2017, data was collected by recording untrained panelists’ responses to 476 molecules
graph neural network (GNN) -prediction smells from the chemical structure, using ∼5 k compounds(70)

筆者らの使用したDBと重複排除

  • PubChem database (https://pubchem.ncbi.nlm.nih.gov/),
  • TGSC website,
  • Sigma-Aldrich,(21) FlavorBase (FLB)–10th Edition, Falvornet,(74)
  • SuperScent database,(76)
  • OdorRactor database,(77)
  • AromaDB.(78)

収集されたデータセットから重複する冗長な化学物質を排除すると、4682の化学物質/匂い物質と542の匂い知覚。表記のブレを排除、匂い描述には欠損ある。データベーススキーマを図2に図示、最終的なデータセットは、「無臭」を含む104の匂い知覚の記述を持つ5185(3956 + 1229)の化学物質で構成

MLの目標;predict smells from the SMILES  3種類のMLモデルの構成:

  1. PPMF + RF,
  2. PPMF + DNN,
  3. IMG + CNN.

PPMFはPaDel(87)使用。以下が計算可能

  1. 1875 features (1444 one-dimensional (1D), 2D features, and 431 3D features)
  2. 12 types of molecular fingerprints (total 16092 bits)

IMGは構造式を使用。SMILESからRDKitを使用して300×300ピクセルのサイズの画像(RGB)を出力。

  • RF=決定木ランダムフォレスト
  • DNN=ディープニューラルネットワーク
  • CNN=コンボリューションニューラルネットワーク

結論

accuracies of smell prediction

物理化学的特性と分子フィンガープリント(PPMF)によるディープニューラルネットワーク(DNN)97.3 %
化学構造イメージ(IMG)による畳み込みニューラルネットワーク(CNN)98.3%

感想

QSORこんな言葉あったんだ。
FingerPrintの詳細はもう少し深堀するべきなのかも
化学構造イメージ(IMG)による畳み込みニューラルネットワーク(CNN)のほうが良い予測精度だったというのは個人的には残念な結果。

(ここまで)