2.26-3.17 HSP90 33sys
体系准备
根据师姐发给我的文件表1“70个体系”(实际为37行),其中2VCI,5NYI koff无具体实验数据,不纳入后续测试体系。6EFU不是HSP90,6EY8,5J86都出现了两次,经检查,原文献中也出现了两次,都是koff数据两个不同的配体写了同一个PDB ID,根据PDB结构进行比对,将配体匹配的那个数据保留,另一个删去。处理后剩余32个体系。
2.26 向git上传了33个体系是因为2VCI也上传了
PDB 中根据 ID 批量下载结构(ent文件,本质上和pdb无区别)
pymol里将结构全部叠合,发现蛋白结构基本全部重叠,各种各样的配体都在同一个口袋
pymol 叠合后还可以大致看到有哪些除配体外的有机小分子/溶剂/离子,在提取配体的时候要删去
- # 23 /home/databank_70t/zzy/project/koff/smd/hsp90/33sys/pdb
- # 提取配体
- for i in
`cat index`
;do grep HETATM ../${i}.ent|grep -v HOH|grep -v SO4 |grep -v MG|grep -v DMS >${i}-lig.pdb;done - # 提取蛋白
- for i in
`cat index`
;do grep ATOM ../${i}.ent >${i}-pro.pdb;done - # 配体2017薛定谔ligprep
上述三个操作得到的文件共33*3=99个,已打包上传git
PDB 库中的配体批量下载
由于pdb结构没有键连信息,所以羰基这样的双键薛定谔无法识别,ligprep会将羰基氧多加一个质子(错当成了sp3杂化),所以想办法去pdb中直接下载质子化后的3d配体结构
- # 23 /home/databank_70t/zzy/project/koff/smd/hsp90/33sys/pdb/ligand/pdb-3d-awk
- # Ligand Expo 主页 中给出了pdb中全部配体的3D sdf文件下载链接
- https://files.wwpdb.org/pub/pdb/data/monomers/components-pub.sdf.gz
- # 同时也可以单个下载,初步判断两个文件是一致的
- PDB Archive over AWS
- # 可以根据配体在晶体结构中的名字(例如:PDB ID:6ei5中的B5Q)在components-pub.sdf中将结构信息提取
- ################################ "do.sh" 14L, 538C ############################################
- for i in
`cat index`
; do - # echo "$i"
- b=$(sed '1d' grep-error/pdb${i}-lig.pdb | awk '{print $4}' | sort | uniq)
- # 检查 b 是否只有一个唯一值
- if [[ $(echo "$b" | wc -l) -ne 1 ]]; then
- b=$(sed '1d' grep-error/pdb${i}-lig.pdb | awk '{print $4}' | sort | uniq | tr '\n' ' ')
- echo "警告:$i 的配体 ID 不唯一,需要检查: $b"
- continue
- fi
- awk -v id="$b" '$0 ~ id {x1=NR; found=1} found && /\$\$\$\$/{x2=NR; found=0; exit} found {print}' components-pub.sdf > ${i}-lig_${b}.sdf
- done
- ###############################################################################################
- # 需要检查的是,部分配体在晶体结构解析时,有多个坐标信息,这种是需要额外处理的
- # 脚本的初代版本暂时不考虑这种情况,故去除33个测试体系中4个处于这种情况的体系,还剩29个
- (base) [dddc@localhost ligand]$ sh do.sh
- 警告:2ykj 的配体 ID 不唯一,需要检查: A1224 AYKJ BYKJ
- 警告:5j2x 的配体 ID 不唯一,需要检查: A A6DL B6DL
- 警告:5lnz 的配体 ID 不唯一,需要检查: A A70Z B70Z
- 警告:6eya 的配体 ID 不唯一,需要检查: A AC4K BC4K
基本完成,但是存在的问题是 下载得到的sdf坐标不是晶体结构中的坐标了
3.6 update
尝试将下载得到的正确质子化的3Dsdf 叠合到pdb晶体结构中,但是由于pdb中原子键连信息缺失,sp2都是sp3杂化,导致无法正确识别原子对应关系
尝试模拟鼠标点击,selenium已安装,但是23服务器无图形化页面,搁浅
- /home/databank_70t/zzy/project/koff/smd/hsp90/33sys/pdb/ligand/auto-mouse
- /home/databank_70t/zzy/project/koff/smd/hsp90/33sys/pdb/ligand/auto-mouse
几个处理方法:
- 手动点击,体系数量较少的情况下,可以接受
- 从pdbbind上获取配体结构信息,可考虑购买最新(2024)版本的pdbbind
- 模拟鼠标点击(需要配置对应的环境,软件包),预计需要1-2天
- 基于图的原子映射,不熟悉,无法估计预计时长
18:30 经师姐提醒,pdb中是有conect信息的,这样提取出来,配体就有合理的杂化信息了
3.7 update
配体信息重新提取
- # 23 /home/databank_70t/zzy/project/koff/smd/hsp90/33sys/pdb/ligand/grep
- # 提取配体
- for i in
`cat index`
;do grep HETATM ../../${i}.ent|grep -v HOH|grep -v SO4 |grep -v MG|grep -v DMS >${i}-lig-coordinate.pdb;done - for i in
`cat index`
;do grep CONECT ../../${i}.ent>${i}-lig-conect.pdb;done - for i in
`cat index`
;do cat ${i}-lig-coordinate.pdb ${i}-lig-conect.pdb > ${i}-lig.pdb;rm ${i}-lig-coordinate.pdb ${i}-lig-conect.pdb;done - for i in
`cat index`
;do obabel -ipdb ${i}-lig.pdb -osdf -O ${i}-lig.sdf;done
经检查,有了CONECT信息也不行,识别不了正确的结构(还是杂化信息不对)
这个文件夹已被删除
wget-ligand-expo
直接在网上搜索6ey8_C_C4T download,Ligand Depot Graph Search Summary
发现这个网站有较全面的配体信息,且可以通过wget下载到有氢原子信息且晶体结构坐标的配体sdf!
- 23 /home/databank_70t/zzy/project/koff/smd/hsp90/33sys/pdb/ligand/wget-ligand-expo
- # 下载的链接是有规律的,下载脚本如下:
- ############################ "do.sh" 18L, 561C ######################################
- for i in $(cat index); do
- # 提取 ligand 编号
- a=$(ls ../pdb-3d-awk/${i}* | sed "s/${i}-lig_//g" | sed 's/.sdf//g' | sed 's#../pdb-3d-awk/##g')
- # 取 a 的第一个字符作为 letter
- letter=${a:0:1}
- url="http://ligand-expo.rcsb.org/reports/${letter}/${a}/${a}_model.sdf"
- echo "尝试下载:${url}"
- wget -q "${url}" -O "${a}_model.sdf"
- if [ $? -eq 0 ]; then
- echo "成功从 ${letter} 下载 ${a}_model.sdf"
- else
- echo "从 ${letter} 下载失败,请检查或手动处理。"
- rm -f "${a}_model.sdf"
- fi
- done
- #####################################################################################
师姐的指点:坐标可以,但是质子化情况得自己预测,所以还是需要将预测质子化后的结构align到这个上面。
3.10 update
叠合
本地薛定谔2017,ph=7.4,预测质子化状态
- 23 /home/databank_70t/zzy/project/koff/smd/hsp90/33sys/pdb/ligand/align
rdkit 只能刚性叠合,薛定谔的flexible alignment可以完美叠合
先图形化界面交个任务,看他调用的什么代码
3.17 update
叠合 phase_align_core
- 23 /home/databank_70t/zzy/project/koff/smd/hsp90/33sys/pdb/ligand/align
- # 经测试,能较好的叠合,但不能保证坐标完全一致
质子化
寻找 保持坐标不变 质子化的方法,发现Schrödinger LigPrep Epik 可以只做质子化(-R e 只做epik质子化),其他的都不做,符合我们的要求
- 23 ligand/epik-schrodinger2021
电荷的问题,与睿童核实,sdf里对于非中性配体会有记录
CHG 的 第一个数字是带电原子数 第二个数字是带点原子序号 第三个数字是具体的带电数值
检查29个体系
检查配体是否与晶体结构完全一致,质子化情况是否合理
2yki 体系 配体名称记录错了(应该为YKI,错写为YKJ,配体结构有差异)已修改
5j9x体系 配体的坐标文件与蛋白不对应,推测是因为该配体已有其他蛋白的复合物结构早一步报道,下载下来的坐标对应的是另一个蛋白的(5J6L) Ligand Depot Graph Search Summary 该体系在PDB上手动下载配体后处理
5odx体系 配体的坐标文件与蛋白不对应,坐标文件是 5oda的 Ligand Depot Graph Search Summary 该体系在PDB上手动下载配体后处理
6ELN体系 配体的坐标文件与蛋白不对应,坐标文件是 2zdx的 Ligand Depot Graph Search Summary