・先日、化合物をKNIMEで扱ってみた。 ・化合物の構造ファイルとして、いろいろな記述法があり、中でもSMILESとSDFはよく見かける。 ・SMILESの特徴は、1次元の文字列の配列であり、記述自体がシンプルであること。SDFの特徴は、化合物の構造以外の情報も盛り込めることだと思う。 ・今回は、SDFから化合物名などを抽出する方法をメモしておく。 ・SDFファイルの構成は以下の通り。 ・思うに、"M END"までが構造情報で、"><chembl_id>"など"><>"で囲まれたところが項目名、そのあとの行がその内容で、分子同士の区切りが"$$$$"になっているのだろう(あっているかは知らない…