Debnath T, Nakamoto T (2020) Predicting human odor perception represented by continuous values from mass spectra of essential oils resembling chemical mixtures. PLOS ONE 15(6): e0234688.

original

Citation

Debnath T, Nakamoto T (2020) Predicting human odor perception represented by continuous values from mass spectra of essential oils resembling chemical mixtures. PLOS ONE 15(6): e0234688. https://doi.org/10.1371/journal.pone.0234688

Abstract

化学物質の分子構造パラメータを使用して香調を予測することには、最近の進歩があります。分子構造パラメータは化学物質ごとに利用できますが、化学混合物には使用できません。この研究は、エッセンシャルオイルなどの化学物質混合物のマススペクトル(MS)から人間の匂いの知覚を予測する計算方法を解明します。さらに、データセットにはバイナリ値のみが含まれていますが、匂い記述子間の類似性を取得する方法が提案されています。データベースが1つのサンプルの匂い記述子のセットを示している場合、バイナリデータのみが使用可能で、類似した記述子間の相関関係はなくなります。したがって、匂い記述子間の類似性を考慮しないと、予測パフォーマンスが低下します。マススペクトルデータセットは高次元であるため、オートエンコーダを使用して、ボトルネックの隠れ層にあるエッセンシャルオイルのマススペクトルから圧縮表現を学習し、階層的クラスタリングを実行して、連続したマトリックスを使用して、連続値の相関係数と自然言語処理により類似の匂いの印象を持つ匂い記述子グループを作成します。この作業は、バイナリ値の問題を克服するプロセスを詳細に説明し、機械学習を使用して自然言語の単語の意味表現で匂い記述子間の類似性を見つけるのに役立ちます。連続値ベースの相関係数と単語類似性ベースのモデルの両方について、正と負のクラスの不均衡な比率の問題を克服するために、マイノリティオーバーサンプリングテクニック(SMOTE)を使用します。このモデルでは、匂い記述子グループを形成することにより、コンピューターシミュレーションを通じて人間の匂いの知覚を予測できます。したがって、この研究は、エッセンシャルオイルのMSから匂い記述子グループを予測するための自然言語処理とSMOTEアプローチを使用した機械学習の実現可能性を示しています。

Memo

  • 匂いの印象を予測の困難性はデータの量が少ないこと、大規模な感覚データを収集することは非常に困難。
  • 官能評価用語の自己相関性の評価(前報でも検討している);連続値ベースの相関係数モデル vs 単語の類似性に基づくモデル
  • 機械学習を行う教師データの不均一性の改善