2.26-3.17 HSP90 33sys

体系准备

根据师姐发给我的文件表1“70个体系”(实际为37行),其中2VCI,5NYI koff无具体实验数据,不纳入后续测试体系。6EFU不是HSP90,6EY8,5J86都出现了两次,经检查,原文献中也出现了两次,都是koff数据两个不同的配体写了同一个PDB ID,根据PDB结构进行比对,将配体匹配的那个数据保留,另一个删去。处理后剩余32个体系。
2.26 向git上传了33个体系是因为2VCI也上传了
PDB 中根据 ID 批量下载结构(ent文件,本质上和pdb无区别)
pymol里将结构全部叠合,发现蛋白结构基本全部重叠,各种各样的配体都在同一个口袋
pymol 叠合后还可以大致看到有哪些除配体外的有机小分子/溶剂/离子,在提取配体的时候要删去
  • # 23 /home/databank_70t/zzy/project/koff/smd/hsp90/33sys/pdb
  • # 提取配体
  • for i in `cat index`;do grep HETATM ../${i}.ent|grep -v HOH|grep -v SO4 |grep -v MG|grep -v DMS >${i}-lig.pdb;done
  • # 提取蛋白
  • for i in `cat index`;do grep ATOM ../${i}.ent >${i}-pro.pdb;done
  • # 配体2017薛定谔ligprep
上述三个操作得到的文件共33*3=99个,已打包上传git

PDB 库中的配体批量下载

由于pdb结构没有键连信息,所以羰基这样的双键薛定谔无法识别,ligprep会将羰基氧多加一个质子(错当成了sp3杂化),所以想办法去pdb中直接下载质子化后的3d配体结构
  • # 23 /home/databank_70t/zzy/project/koff/smd/hsp90/33sys/pdb/ligand/pdb-3d-awk
  • # Ligand Expo 主页 中给出了pdb中全部配体的3D sdf文件下载链接
  • https://files.wwpdb.org/pub/pdb/data/monomers/components-pub.sdf.gz
  • # 同时也可以单个下载,初步判断两个文件是一致的
  • PDB Archive over AWS

  • # 可以根据配体在晶体结构中的名字(例如:PDB ID:6ei5中的B5Q)在components-pub.sdf中将结构信息提取

  • ################################ "do.sh" 14L, 538C ############################################
  • for i in `cat index`; do
  • #   echo "$i"
  •     b=$(sed '1d' grep-error/pdb${i}-lig.pdb | awk '{print $4}' | sort | uniq)

  •     # 检查 b 是否只有一个唯一值
  •     if [[ $(echo "$b" | wc -l) -ne 1 ]]; then
  •         b=$(sed '1d' grep-error/pdb${i}-lig.pdb | awk '{print $4}' | sort | uniq | tr '\n' ' ')
  •         echo "警告:$i 的配体 ID 不唯一,需要检查: $b"
  •         continue
  •     fi

  •     awk -v id="$b" '$0 ~ id {x1=NR; found=1} found && /\$\$\$\$/{x2=NR; found=0; exit} found {print}' components-pub.sdf > ${i}-lig_${b}.sdf
  • done
  • ###############################################################################################

  • # 需要检查的是,部分配体在晶体结构解析时,有多个坐标信息,这种是需要额外处理的
  • # 脚本的初代版本暂时不考虑这种情况,故去除33个测试体系中4个处于这种情况的体系,还剩29个
  • (base) [dddc@localhost ligand]$ sh do.sh 
  • 警告:2ykj 的配体 ID 不唯一,需要检查: A1224 AYKJ BYKJ 
  • 警告:5j2x 的配体 ID 不唯一,需要检查: A A6DL B6DL 
  • 警告:5lnz 的配体 ID 不唯一,需要检查: A A70Z B70Z 
  • 警告:6eya 的配体 ID 不唯一,需要检查: A AC4K BC4K 
基本完成,但是存在的问题是 下载得到的sdf坐标不是晶体结构中的坐标了

3.6 update

尝试将下载得到的正确质子化的3Dsdf 叠合到pdb晶体结构中,但是由于pdb中原子键连信息缺失,sp2都是sp3杂化,导致无法正确识别原子对应关系
尝试模拟鼠标点击,selenium已安装,但是23服务器无图形化页面,搁浅 
  • /home/databank_70t/zzy/project/koff/smd/hsp90/33sys/pdb/ligand/auto-mouse
  • /home/databank_70t/zzy/project/koff/smd/hsp90/33sys/pdb/ligand/auto-mouse
几个处理方法:
  1. 手动点击,体系数量较少的情况下,可以接受
  2. 从pdbbind上获取配体结构信息,可考虑购买最新(2024)版本的pdbbind
  3. 模拟鼠标点击(需要配置对应的环境,软件包),预计需要1-2天
  4. 基于图的原子映射,不熟悉,无法估计预计时长
18:30 经师姐提醒,pdb中是有conect信息的,这样提取出来,配体就有合理的杂化信息了

3.7 update

配体信息重新提取

  • # 23 /home/databank_70t/zzy/project/koff/smd/hsp90/33sys/pdb/ligand/grep
  • # 提取配体
  • for i in `cat index`;do grep HETATM ../../${i}.ent|grep -v HOH|grep -v SO4 |grep -v MG|grep -v DMS >${i}-lig-coordinate.pdb;done
  • for i in `cat index`;do grep CONECT ../../${i}.ent>${i}-lig-conect.pdb;done
  • for i in `cat index`;do cat ${i}-lig-coordinate.pdb ${i}-lig-conect.pdb > ${i}-lig.pdb;rm ${i}-lig-coordinate.pdb ${i}-lig-conect.pdb;done
  • for i in `cat index`;do obabel -ipdb ${i}-lig.pdb -osdf -O ${i}-lig.sdf;done
经检查,有了CONECT信息也不行,识别不了正确的结构(还是杂化信息不对)
这个文件夹已被删除

wget-ligand-expo

直接在网上搜索6ey8_C_C4T download,Ligand Depot Graph Search Summary 
发现这个网站有较全面的配体信息,且可以通过wget下载到有氢原子信息且晶体结构坐标的配体sdf!
  • 23 /home/databank_70t/zzy/project/koff/smd/hsp90/33sys/pdb/ligand/wget-ligand-expo
  • # 下载的链接是有规律的,下载脚本如下:
  • ############################ "do.sh" 18L, 561C ######################################
  • for i in $(cat index); do
  •   # 提取 ligand 编号
  •   a=$(ls ../pdb-3d-awk/${i}* | sed "s/${i}-lig_//g" | sed 's/.sdf//g' | sed 's#../pdb-3d-awk/##g')

  •   # 取 a 的第一个字符作为 letter
  •   letter=${a:0:1}
  •   url="http://ligand-expo.rcsb.org/reports/${letter}/${a}/${a}_model.sdf"
  •   echo "尝试下载:${url}"

  •   wget -q "${url}" -O "${a}_model.sdf"
  •   if [ $? -eq 0 ]; then
  •     echo "成功从 ${letter} 下载 ${a}_model.sdf"
  •   else
  •     echo "从 ${letter} 下载失败,请检查或手动处理。"
  •     rm -f "${a}_model.sdf"
  •   fi
  • done
  • #####################################################################################
师姐的指点:坐标可以,但是质子化情况得自己预测,所以还是需要将预测质子化后的结构align到这个上面。

3.10 update

叠合

本地薛定谔2017,ph=7.4,预测质子化状态
  • 23 /home/databank_70t/zzy/project/koff/smd/hsp90/33sys/pdb/ligand/align
rdkit 只能刚性叠合,薛定谔的flexible alignment可以完美叠合
先图形化界面交个任务,看他调用的什么代码

3.17 update

叠合 phase_align_core

  • 23 /home/databank_70t/zzy/project/koff/smd/hsp90/33sys/pdb/ligand/align
  • # 经测试,能较好的叠合,但不能保证坐标完全一致

质子化

寻找 保持坐标不变 质子化的方法,发现Schrödinger LigPrep Epik 可以只做质子化(-R e 只做epik质子化),其他的都不做,符合我们的要求
  • 23 ligand/epik-schrodinger2021
电荷的问题,与睿童核实,sdf里对于非中性配体会有记录
CHG 的 第一个数字是带电原子数 第二个数字是带点原子序号 第三个数字是具体的带电数值

检查29个体系

检查配体是否与晶体结构完全一致,质子化情况是否合理
2yki 体系 配体名称记录错了(应该为YKI,错写为YKJ,配体结构有差异)已修改
5j9x体系 配体的坐标文件与蛋白不对应,推测是因为该配体已有其他蛋白的复合物结构早一步报道,下载下来的坐标对应的是另一个蛋白的(5J6L) Ligand Depot Graph Search Summary 该体系在PDB上手动下载配体后处理
5odx体系 配体的坐标文件与蛋白不对应,坐标文件是 5oda的 Ligand Depot Graph Search Summary 该体系在PDB上手动下载配体后处理
6el5体系 配体的坐标文件与蛋白不对应,坐标文件是 5oda的 Ligand Depot Graph Search Summary 该体系在PDB上手动下载配体后处理
6ELN体系 配体的坐标文件与蛋白不对应,坐标文件是 2zdx的 Ligand Depot Graph Search Summary

上传 git