0702 D3Docking
结果
数据量还是很大的
库中的蛋白都和99个老药进行过对接,那自然就有99个打分,我们新对接的化合物的打分纳入这99个,排个序
- # 打分排名第一名的挑出来
- for a in
`cat protein.txt`
- do
- for i in
`cat index`
- do
- #awk '$9<6{print}' ../results/${i}/${a}/${a}-${i}.txt|sed "s/^/${a}; ${i}; /g" >>result.txt
- awk '$9<2{print}' ../results/${i}/${a}/${a}-${i}.txt|sed "s/^/${a}; ${i}; /g" >>result.txt
- done
- done
- # 这其中,28个分子在至少一个靶点的某一个口袋打分能排到第一
- (base) [zjxu@R820 analysis]$ awk -F ';' '{print $2}' result.txt |sort|uniq|wc -l
- 28
- # 仅从打分来看,信息比较集中
- # 先排序(打分在第5列)
- # 很集中,前10个打分结果 实际都是两个化合物在不同靶标/口袋上的打分
- (base) [zjxu@R820 analysis]$ sort -t ";" -k 5,5n result.txt |head|awk -F ';' '{print $2}' |sort|uniq
- TCMID-19532
- TCMID-28188
- # 让我瞅瞅他们的结构,相似性以及D3AI结果
- # 结构
- 感觉羟基过多,打分会被高估,
- 下图左边这个分子排在所有分子的第5位;右图这个第
- # 相似性结果
- grep TCMID-28188 d3S-result.txt
- 部分化合物 如 TCMID-19532 对应的阳性化合物 ICV737 D3Target 库里没有(网站上没有记录)
- TCMID-27473 不错, 结构较简单, 且和目前报道的阳性化合物结构并非完全一致
- target2 TCMID-27473 ICV283 0.913043 0.64787
- target2 TCMID-27473 ICV713 0.962963 0.60831
- # AI 结果
- # 172.21.85.3 /home/yqyang/zzy/hsbd/d3ai-cov
- grep TCMID-27473 workdir/*/* >TCMID-27473
- awk -F '|' '{print $2,$4,$5}' TCMID-27473|sort -k 3
- 并不好,但是可见,再SARS_Pap上的结果还说得过去
- # 再看回打分 172.21.85.12 /home/zjxu/zzy/hsbd/dock/d3S-36mol/0702-2pro/analysis
- (base) [zjxu@R820 analysis]$ sort -t ";" -k 5,5n result.txt|grep -n TCMID-27473
- 69:ORF1ab_819-2763_Papain-like_proteinase+Dimer; TCMID-27473; Pocket2; score; -10.53
- 71:ORF1ab_819-2763_Papain-like_proteinase+Dimer; TCMID-27473; Pocket3; score; -10.52
- # 我删了后面三个数据(原子效率,原子量效率,排名(都是1))
- # 对比下最高打分,差的不算远,-10 也够高了
- (base) [zjxu@R820 analysis]$ sort -t ";" -k 5,5n result.txt|head
- ORF1ab_3264-3569_3C-like_proteinase+Dimer; TCMID-19532; Pocket1; score; -14.00
- ORF1ab_3264-3569_3C-like_proteinase+Dimer; TCMID-19532; Pocket2; score; -13.97
- # 看结合模式
- cp /home/zjxu/xbzhang/2019-nCov-final/preparation/protein-v1/ORF1ab_819-2763_Papain-like_proteinase+Dimer.pdbqt ./
- cp ../../dock-conf/TCMID-27473/ORF1ab_819-2763_Papain-like_proteinase+Dimer-TCMID-27473-pkt2-0.sdf ./
- cp ../../dock-conf/TCMID-27473/ORF1ab_819-2763_Papain-like_proteinase+Dimer-TCMID-27473-pkt3-0.sdf ./
- 大致看了下,相当好的结合,回家仔细把相互作用分析下
- 还有个问题是pkt2,pkt3实际上对接到了相同的位置,检查后发现 pkt3 包在 pkt2 外面
- 对我这个影响不大,如果跑MD,大概率是用 这个 体系了‘
- 还有个小问题,这玩意的受体,是swiss-model建出来的。。。,不是晶体结构
- 写文章,是可以说用的是D3Docking 库中的结构,其本质是基于SARS-CoV的单体结构(PDB ID: 5Y3E) 同源建模得到的二聚体
记录
- /home/zjxu/zzy/hsbd/dock/d3S-36mol/0702-2pro
- # 把D3Similarity得到的36个分子重新命名后的一个个mol2文件cp过来
- for i in
`cat 36index`
;do c=`grep $i pro-mol.txt`
;sed -i "2s/.*/$c/" 36/$i.mol2;done - # pre-dock.sh 的脚本改一下即可(路径以及要支持mol2输入)
- # 其余脚本照搬即可,index(化合物)和protein.txt是重点
- # D3Similarity预测中有5个靶标,实际只能找到2个
- (3C-like protease 和 Papain-like protease)
- # 这两个靶标对应12个蛋白构象,90个口袋,估计明天早上能有个初步结果
- # 其余靶标还得找
- (base) [zjxu@R820 0702-2pro]$ nohup sh do.sh &
- [1] 28142
- 一个晚上完成了(少于12小时)