Li H, Panwar B, Omenn GS, Guan Y. 2018, Accurate prediction of personalized olfactory perception from large-scale chemoinformatic features. Gigascience 7, gix127. (doi:10.1093/gigascience/gix127)

Abstract

研究背景

匂い物質がどんな匂いの性質であるのかは1世紀以上にわたって研究されてきましたが、匂い物質分子の分子構造から得られる大規模な記述子の情報空間を考えると、匂いを正確に予測することはまだ困難です。主な課題は、遺伝的および文化的背景が異なるため、知覚される匂いの性質が個人間で大きく異なることにあります。さらに、複数の匂い受容体と多様な分子の間が組み合わ背によって生じる相互作用は、嗅覚の予測を著しく複雑にします。分子構造と匂いの関係、強度と心地よさとの相関、を確立するために多くの試みが行われましたが、分子それぞれの多次元の匂いの属性を予測するためのモデルはありません。'DREAM Olfaction Prediction Challenge'で良好な結果を出したさまざまな匂い物質に対する個人集団の知覚反応を予測するためのアルゴリズムについて説明します。

研究背景―２

多様な匂い物質のシグナル伝達は研究が重ねられてきましたが、嗅覚の分子メカニズムはまだ完全には理解されていません。
1つの匂い物質は広範な嗅覚受容体と相互作用し、各嗅覚受容体は複数の嗅覚物質を認識し、嗅覚の複雑な調整につながります[39、40]。
ニューロンの発火は本質的に非線形であり、膜電位を閾値を超えて上げる必要があります。
この問題はサンプルサイズが比較的小さく、特徴空間(記述子による情報空間)がはるかに大きい問題です

結果

大きな記述子による情報空間と個人間の知覚評価の変動が高いことを考えると、複数の決定木で構成されるランダムフォレストモデルが、この予測問題に適していることがわかります。母集団と個人の両方の知覚をモデルに統合すると、ノイズと外れ値の影響を効果的に減らすことができます。各分子構造の記述子の重要性を分析することにより、正確な予測には、低～非変性な小さな記述子セットで十分であることがわかります。

結論

私たちのランダムフォレストモデルは、多様な分子構造的をもつ分子の、個人化された匂い属性を正常に予測します。このモデルは、主要な識別機能とともに、嗅覚のメカニズムの理解を広げ、合理的な匂いのデザインの代替案を提供する可能性があります。

Methods

'DREAM Olfaction Prediction Challenge'は、49被験者の476種類の化学物質のデータセット

Dialogue on Reverse Engineering Assessment and Methods (DREAM)

DREAM Olfaction Prediction Challenge

DREAMの主催者は、ロックフェラー大学の匂い研究の一環として、2013年2月から2014年7月の間に当初収集された心理物理学的データを提供しました[33]。18歳から50歳までの61人の志願した嗅覚トレーニングも受けていない民族的に多様な健康な男女からなる被験者による匂い嗅ぎ実験が行われた[33]。(49被験者が'DREAM Olfaction Prediction Challenge'への提供に同意)
これら49人の被験者によって、476の異なる分子の知覚評価は、2つの異なる濃度（高低）でテストされ、加えて20分子は同じ濃度で再テストされ、2回目ずつ割り当てられました。各被験者は、992個の刺激の知覚を評価した。 21の知覚属性（強度、快適さ、19の匂い描述(ベーカリー、甘い、果物、魚、ニンニク、スパイス、冷たい、酸っぱい、焦げた、酸、暖かい、蒸し暑い、汗、アンモニア/尿、腐った、木、草、花、および化学物質的)）を使用して、分子の匂いプロファイルを記述した。強度評価は0は「非常に弱い」、100は「非常に強い」です。快適さ評価は0は「非常に不快」、100は「非常に快適」です。匂い描述の場合、0は「まったくない」、100は「非常に多い(当てはまる)」です。
匂いの言語学的説明は、特に経験や訓練が不足している場合、個人によって異なります[41]。この発見は、専門の香水業者によって評価された匂いの低バリアントデータセットを使用すると、予測モデルのパフォーマンスがさらに向上する可能性があることを示唆しています。
さらに、意味記述子を使用すること自体にバイアスが生じ、匂い物質の知覚的類似性評価などの代替アプローチを検討する必要があります[26]。

Dragon分子記述子

Dragonソフトウェア[34]ベースの、各分子の4884の化学的特徴を表す大規模な分子記述子を用いました

Molecular descriptors, QSAR, chemometrics and chemoinformatics - Talete srl

ランダムフォレスト(決定木)モデル

ランダムフォレストの概要を大雑把に解説

この476種類の化学物質のデータセットは、主催者によって3つのサブセットに分けられました。トレーニングセットは338、リーダーボードは69、テストセットは69です。最終的なトレーニングセットとして、338のトレーニングと69のリーダーボード分子（合計407分子）を組み合わせました。
407個の分子のサブセット（338個のトレーニングと69個のリーダーボード分子）がランダムフォレストモデルの最終的なトレーニングセットとして使用され、他の69個の保持された分子がテストセットを形成しました。
非線形ランダムフォレストモデルは嗅覚予測に適し、オーバーフィッティングを回避します。さらに、ランダムフォレストは、個人間の匂い評価の大きな変動性を考慮して、ノイズと外れ値をラベル付けするのに比較的ロバストです[32]。

機械学習と変数選択

知覚の実測～予測間は、ピアソンの相関に基づいて評価
さまざまな機械学習アルゴリズム（線形、リッジ回帰、サポートベクトル回帰、ランダムフォレスト）を比較し、ランダムフォレストが他の基本学習者よりも「強度」、「快楽度」、および19のセマンティックの個々の応答の予測で優れていることを発見しました。
上位5、10、15、20の主要な記述子セットでランダムフォレストモデルを再構築すると、正確な予測には化学的特徴の小さなセットで十分であることがわかります。ランダムフォレストによって選択されたこれらの上位機能は、知覚される品質とのピアソンの線形相関が非常に低い可能性がありますが、異なる匂い物質の識別には強力です。

Memo

Characterizing human odorant signals: insights from insect semiochemistry and in silico modellingPhil., Ashish Radadiya, John A. Pickett, 2020, Trans. R. Soc. B37520190263http://doi.org/10.1098/rstb.2019.0263　
での「DREAM Olfaction Prediction Consortium ；ヒトのセミオケミカルの物理化学的パラメーターを嗅覚と相関させるために、DREAM Olfaction Prediction Consortium(クラウドソーシング非営利コミュニティ)の設立、476の構造的に多様な匂い分子を区別できる機械学習アルゴリズム開発[46]が行われた。21のセマンティック匂い記述子からなる生理学的パラメーターは、49人のボランティアのパネルの個々の認識から決定されました。追加の19のセマンティック匂い記述子は、同じく49人のボランティアから、認識を平均化することによって導き出されました。人工知能アプローチにより、QSARで通常利用できるよりも多くの物理化学的特性を、匂い分子の嗅覚特性と相関させることができました[47]。476の分子構造からのデータセットのうち、338は国際レベルで19の参加チームに与えられましたが、省略された69は認定テストで使用されました。参加している19チームで、知覚の予測に特化したインシリコモデルの機械学習の開発[47、48]」における[48]

分子記述子の変数選択の有用性；low- and nondegenerative features　(今回は決定木の寄与順)
「personalized odor 個人化された匂い属性」と言ってもよいのか？