ケモインフォマティックスに関するメモ

化合物命名法、構造表記式についてのメモを作ってみた。

化合物命名法

IUPAC命名法など。コンピューターでの読み込みには適さない。
※IUPAC命名法も線形表記の一種ではある。

線形表記法法

SMILES記法(スマイルスきほう、英語: simplified molecular input line entry system);「分子の化学構造をASCII符号の英数字で文字列化した、構造の曖昧性の無い表記方法である。SMILES文字列は多くの種類の分子エディタにおいてインポート可能で、二次元の図表あるいは三次元のモデルとして表示することができる。 」

InChI, InChiKey;InChI(International Chemical Identifier)は、標準的かつ人間が読める方法で分子情報を提供し、またウェブ上でのデータベースからの情報の検索機能を提供する。InChiKeyはそれを25文字に短縮した識別コードです。 InChI

分子のグラフ表現

molfile;化学構造の原子を節、結合を枝とするグラフ構造で表現され、入力デバイスに書かれた節点の座標と原子の種別を表すアトムリストと、結合をアトムリストの2つの要素を指定して結合の種別と供に表す結合リストから構成される。

  • molファイルにはいくつかのバージョンが存在する。
  • 3D構造を表すモデル型のmolファイルの場合は入力デバイスの2D座標ではなく、3次元座標が使用される。電荷、ラジカルなどは原子属性データとして原子リストとは別に保持される。
  • molファイルは1構造式あたり1ファイルで構成されるので、データのExport/Import用には次の項のsdfileなどが利用される場合も多い。

sdfile;mol fileフォーマットを内含する構造になっており、それに続いてTextの化合物属性の見出しとその値が続くようになっている。

Chemical-fingerprint(分子フィンガープリント)

構造の類似性を評価するために使用する一種の数値化。有償ソフトウェアもある。(ここでは簡単に触れる)

  • RDKitフィンガープリント
  • MACCSフィンガープリント
  • Morganフィンガープリント
  • Avalonフィンガープリント
  • ECFP
  • FCFP

など

記述子

フィンガープリントとも重複する技術はあるが、ここでは区別をする。有償ソフトウェアもある。(ここでは簡単に触れる)

  • RD kit 記述子
  • Talete Dragon

など

タンパク質の表記

データフォーマットには mmCIF, PDBなどがある。

参考

(ここまで)