koff dataset SMD

680个复合物体系

探索过程

PDBbind koff 数据集下载下来有两个文件夹 after_md  initial_structure
initial_structure 是从晶体结构收集的,如果配体没有复合物结构,用对接获得坐标
after_md 是跑了 2ns 限制性MD后的结果
initial_structure 里的配体结构都有挺多问题的
如 5j86_ligand_30_529_dock 体系的配体 出现了芳香环中的C 在mol2文件中被记载为sp2/sp3 C
  • 24 /home/databank/zzy/project/MD/koff/pdbbind_dataset/check-raw-data
  • for i in `cat index2`; do echo "#################### $i ##########################" >>test;     diff <(awk '{print $1,$2,$6,$7,$8,$9,$10}' after_md/$i/${i}.mol2)          <(awk '{print $1,$2,$6,$7,$8,$9,$10}' initial_structure/$i/${i}.mol2) >> test; done
检查发现,对于 有晶体结构的 配体 ,若 initial_structure 里 小分子结构类型为 small,和after_md 里文件的除了坐标几乎没差别(只有最后的 @<TRIPOS>SUBSTRUCTURE 子结构定义有点不同)
但是 如果是 BIOPOLYMER ,区别就很大了, after_md 里的小分子结构类型会被转换为 small ,文本上除了坐标还会有大批大批的不同
至于 无晶体结构的 配体,那区别就很大,after_md 里粗略看了下,基本原子电荷都是0?

待讨论

  • 目前暂且用 initial_structure 中的mol2结构直接去做高斯优化,这个结构的质子化 pH 条件没找到依据,电荷信息不知道是怎么来的,有的有 ,有的没
  • after_md 里的配体信息 和 initial_structure 差的有点多,准备体系是怎么准备的?
  • 计划 先用 initial_structure 里的作为初始构象跑一下,后面 after_md 的也要做一下