化合物命名法、構造表記式についてのメモを作ってみた。
化合物命名法
IUPAC命名法など。コンピューターでの読み込みには適さない。
※IUPAC命名法も線形表記の一種ではある。
線形表記法法
SMILES記法(スマイルスきほう、英語: simplified molecular input line entry system);「分子の化学構造をASCII符号の英数字で文字列化した、構造の曖昧性の無い表記方法である。SMILES文字列は多くの種類の分子エディタにおいてインポート可能で、二次元の図表あるいは三次元のモデルとして表示することができる。 」
InChI, InChiKey;InChI(International Chemical Identifier)は、標準的かつ人間が読める方法で分子情報を提供し、またウェブ上でのデータベースからの情報の検索機能を提供する。InChiKeyはそれを25文字に短縮した識別コードです。 InChI
分子のグラフ表現
molfile;化学構造の原子を節、結合を枝とするグラフ構造で表現され、入力デバイスに書かれた節点の座標と原子の種別を表すアトムリストと、結合をアトムリストの2つの要素を指定して結合の種別と供に表す結合リストから構成される。
- molファイルにはいくつかのバージョンが存在する。
- 3D構造を表すモデル型のmolファイルの場合は入力デバイスの2D座標ではなく、3次元座標が使用される。電荷、ラジカルなどは原子属性データとして原子リストとは別に保持される。
- molファイルは1構造式あたり1ファイルで構成されるので、データのExport/Import用には次の項のsdfileなどが利用される場合も多い。
sdfile;mol fileフォーマットを内含する構造になっており、それに続いてTextの化合物属性の見出しとその値が続くようになっている。
Chemical-fingerprint(分子フィンガープリント)
構造の類似性を評価するために使用する一種の数値化。有償ソフトウェアもある。(ここでは簡単に触れる)
- RDKitフィンガープリント
- MACCSフィンガープリント
- Morganフィンガープリント
- Avalonフィンガープリント
- ECFP
- FCFP
など
記述子
フィンガープリントとも重複する技術はあるが、ここでは区別をする。有償ソフトウェアもある。(ここでは簡単に触れる)
- RD kit 記述子
- Talete Dragon
など
タンパク質の表記
データフォーマットには mmCIF, PDBなどがある。
参考
- IUPAC命名法
- SMILES記法
- SMILES記法は化学構造の線形表記法 |化学の新しいカタチ 2018.10.04
- MOLファイル・SDFとはどんな化学情報ファイルなのか? |化学の新しいカタチ 2018.09.29
- MACCS
- 蛋白質構造データバンク
- 分子記述子 化学とAI 2020年05月12日
- 分子記述子計算ソフトウェアmordredの開発
- 分子設計・化学構造設計の概要と研究の方向性 (化合物データベース利用)
- フィンガープリントの識別能における影響因子の検討
- RDKitでフィンガープリントを使った分子類似性の判定
- 「InChIって何?」という人なら見逃せない、IUPACの「InChI入門」動画はサービス精神たっぷりの力作!
- The IUPAC International Chemical Identifier (InChI)
(ここまで)