SMOTE: Synthetic Minority Over-sampling Technique, N. V. Chawla, et al., jair 2002

https://www.jair.org/index.php/jair/article/view/10302
DOI: https://doi.org/10.1613/jair.953

Abstract

不均衡なデータセットから分類子を構築する方法について説明します。分類カテゴリがほぼ等しく表現されていない場合、データセットは不均衡です。多くの場合、実際のデータセットは、「異常な」または「興味深い」例のごく一部のみを含む「正常な」例で主に構成されています。また、異常な(興味深い)例を通常の例として誤って分類するコストは、多くの場合、リバースエラーのコストよりもはるかに高くなります。多数派(通常)クラスのアンダーサンプリングは、少数派クラスに対する分類子の感度を向上させる優れた手段として提案されています。今回、少数派(異常)クラスをオーバーサンプリングする方法と、多数派(正常)クラスをアンダーサンプリングする方法を組み合わせると、多数派クラスだけをアンダーサンプリングするよりも(ROC空間で)分類器のパフォーマンスが向上することを示しています。今回、同時に、マイノリティクラスをオーバーサンプリングする方法とマジョリティクラスをアンダーサンプリングする方法を組み合わせると、Ripperの損失率や単純ベイズ法のクラスの事前分布を変更するよりも(ROC空間で)分類器のパフォーマンスが向上することを示しています。マイノリティクラスをオーバーサンプリングする方法には、合成マイノリティクラスの例を作成することが含まれます。分類機アルゴリズムは、C4.5、Ripper、および単純ベイズ法を使用し、AUCの下部面積とROC凸包法により評価されます。

Methods
  • アンダーサンプリング
  • オーバーサンプリング
  • C4.5
  • Ripper
  • 単純ベイズ法(分類器、Naive Bayes classifier)
  • AUC
  • ROC凸包法 (ROC convex hull method)

Memo

ある意味答え合わせのような論文

Predicting human odor perception represented by continuous values from mass spectra of essential oils resembling chemical mixtures, T Debnath, T Nakamoto - PLOS ONE, 2020 の参照論文