0702 D3Docking

结果

数据量还是很大的

库中的蛋白都和99个老药进行过对接，那自然就有99个打分，我们新对接的化合物的打分纳入这99个，排个序

# 打分排名第一名的挑出来
for a in `cat protein.txt`
do
for i in `cat index`
do
#awk '$9<6{print}' ../results/${i}/${a}/${a}-${i}.txt|sed "s/^/${a}; ${i}; /g" >>result.txt
awk '$9<2{print}' ../results/${i}/${a}/${a}-${i}.txt|sed "s/^/${a}; ${i}; /g" >>result.txt
done
done


# 这其中，28个分子在至少一个靶点的某一个口袋打分能排到第一
(base) [zjxu@R820 analysis]$ awk -F ';' '{print $2}' result.txt |sort|uniq|wc -l
28


# 仅从打分来看，信息比较集中
# 先排序（打分在第5列）
# 很集中，前10个打分结果 实际都是两个化合物在不同靶标/口袋上的打分
(base) [zjxu@R820 analysis]$ sort -t ";" -k 5,5n result.txt |head|awk -F ';' '{print $2}' |sort|uniq
 TCMID-19532
 TCMID-28188
 
# 让我瞅瞅他们的结构，相似性以及D3AI结果
# 结构

感觉羟基过多，打分会被高估,
下图左边这个分子排在所有分子的第5位；右图这个第

# 相似性结果
grep TCMID-28188 d3S-result.txt
部分化合物 如 TCMID-19532 对应的阳性化合物 ICV737 D3Target 库里没有（网站上没有记录）


TCMID-27473 不错， 结构较简单， 且和目前报道的阳性化合物结构并非完全一致
target2 TCMID-27473        ICV283        0.913043        0.64787    
target2 TCMID-27473        ICV713        0.962963        0.60831

# AI 结果
# 172.21.85.3 /home/yqyang/zzy/hsbd/d3ai-cov
grep TCMID-27473 workdir/*/* >TCMID-27473
awk -F '|' '{print $2,$4,$5}' TCMID-27473|sort -k 3

  并不好，但是可见，再SARS_Pap上的结果还说得过去

# 再看回打分 172.21.85.12 /home/zjxu/zzy/hsbd/dock/d3S-36mol/0702-2pro/analysis
(base) [zjxu@R820 analysis]$ sort -t ";" -k 5,5n result.txt|grep -n TCMID-27473
69:ORF1ab_819-2763_Papain-like_proteinase+Dimer; TCMID-27473; Pocket2; score; -10.53
71:ORF1ab_819-2763_Papain-like_proteinase+Dimer; TCMID-27473; Pocket3; score; -10.52
# 我删了后面三个数据（原子效率，原子量效率，排名（都是1））
# 对比下最高打分，差的不算远，-10 也够高了
(base) [zjxu@R820 analysis]$ sort -t ";" -k 5,5n result.txt|head
ORF1ab_3264-3569_3C-like_proteinase+Dimer; TCMID-19532; Pocket1; score; -14.00
ORF1ab_3264-3569_3C-like_proteinase+Dimer; TCMID-19532; Pocket2; score; -13.97


# 看结合模式
cp /home/zjxu/xbzhang/2019-nCov-final/preparation/protein-v1/ORF1ab_819-2763_Papain-like_proteinase+Dimer.pdbqt ./
cp ../../dock-conf/TCMID-27473/ORF1ab_819-2763_Papain-like_proteinase+Dimer-TCMID-27473-pkt2-0.sdf ./
cp ../../dock-conf/TCMID-27473/ORF1ab_819-2763_Papain-like_proteinase+Dimer-TCMID-27473-pkt3-0.sdf ./

大致看了下，相当好的结合，回家仔细把相互作用分析下
还有个问题是pkt2,pkt3实际上对接到了相同的位置，检查后发现 pkt3 包在 pkt2 外面
对我这个影响不大，如果跑MD，大概率是用这个体系了‘

还有个小问题，这玩意的受体，是swiss-model建出来的。。。，不是晶体结构
写文章，是可以说用的是D3Docking 库中的结构，其本质是基于SARS-CoV的单体结构（PDB ID: 5Y3E) 同源建模得到的二聚体

记录

/home/zjxu/zzy/hsbd/dock/d3S-36mol/0702-2pro
# 把D3Similarity得到的36个分子重新命名后的一个个mol2文件cp过来
for i in `cat 36index`;do c=`grep $i pro-mol.txt`;sed -i "2s/.*/$c/" 36/$i.mol2;done
# pre-dock.sh 的脚本改一下即可（路径以及要支持mol2输入）
# 其余脚本照搬即可，index(化合物）和protein.txt是重点


# D3Similarity预测中有5个靶标，实际只能找到2个
（3C-like protease 和 Papain-like protease）
# 这两个靶标对应12个蛋白构象，90个口袋，估计明天早上能有个初步结果
# 其余靶标还得找


(base) [zjxu@R820 0702-2pro]$ nohup sh do.sh &

[1] 28142

一个晚上完成了（少于12小时）