D3CARP靶标预测

1.网站

Comprehensive Algorithm for Researching Pharmaceuticals
Comprehensive Algorithm for virtual screening and target prediction
CARP是“鲤鱼”的意思,吉祥美好,同时谐音“靠谱”,故选用该名。
内部网站包括了处于研究中的一些新靶标:
[inhouse-D3CARP server](http://172.21.85.12/index.php)
一定要注册自己的账号,并在登录账户后再提交任务,不然别人能看到结果

2.方法介绍及任务提交

2.1Reverse docking

使用AutoDock Vina 1.2.0 将化合物与不同蛋白对接。
数据来源为PDBbind-CN 2020,经重对接等筛选后保留1970个靶标类型,9352种靶标类型。
show all是所有的靶标类型,但是一个任务最多只能提交1000个,如果觉得反复提交麻烦,可以联系张鑫贲老师修改后台设置,一次全部提交。
show refined是代表性靶标集(716个),一般情况下仅使用精炼集也行。全选以后就可以提交。
输出为排名第一的对接构象及打分。

2.2Deep learning

AI模型。
数据来源为BindingDB(2021.11.1)符合一定要求的120万条阳性数据。
基本架构:
ligand smiles -> MPNN 
                                                 } -> FC -> output
target fasta -> CNN
MPNN-CNN是预测的是蛋白-配体互作概率;
MPNN-CNN-R预测的是蛋白-配体互作强度。

2.3Ligand similarity

使用Open Babel和LS-align分别计算配体的2D、3D相似性。
2D相似性计算中有三种分子指纹,FP2因已经提前生成并保存,速度快,推荐。
3D柔性耗时为刚性10倍,准确性略优。
数据来源为BindingDB(2021.11.1)
总体用时都不长,docking用时最长,一般三种方法都提交。

3.结果分析

不同的目的有不同的结果分析需求,以下是一般分析流程:

3.1使用脚本进行初步整理

脚本自动将三种方法的预测结果进行初步整理,生成一个包含多个sheet的summary.xlsx文件,sheet中包括:AI,docking方法根据打分的前100个结果,这些结果中两方法的共同靶标(sheet名带common的),相似性的结果。
运行方法:
文件夹下需要放以下内容:该脚本(windows运行需要修改folder_path参数为.\),以化合物名字命名的子文件夹,子文件夹内包含learning,docking,similarity(可选)的xlsx文件,文件名最好使用网站自动生成的,文件名中必须包含方法的名字,否则无法识别。
  • python common_targets.py
如果化合物较多,可以使用该脚本,统计多个化合物在docking方法中出现次数超过targets_num的共同靶标,输出txt文件。
运行方法:
文件夹下需要放以下内容:该脚本(windows运行需要修改folder_path参数为.\,同时指定targets_num的值),以化合物名字命名的子文件夹,子文件夹内包含learning,docking,similarity(可选)的xlsx文件,文件名最好使用网站自动生成的,文件名中必须包含方法的名字,否则无法识别。
  • python common_targets2.py

3.2人工挑选

先看配体相似性。相似度80%以上直接选入候选靶标。
两种方法的共同靶标,也可以直接选入候选靶标。
然后看对接。主要的评价指标:
2D/3D相似性:当对接分子与晶体结构中原配体的相似性较高时(>0.8),也可以作为候选靶标。相似性较低的结构说明可能没有活性,但同时也表明分子结构新颖,具有尝试的价值。
score:对接打分,要求至少-8以下(通常采用-7阈值,但是由于vina打分偏高,且根据经验,优于-7的结果数量过多,所以这里定为-8),总之先根据score筛选,保留100个左右备选靶标。
ratio value (rv):预测值与目前已知阳性化合物活性数据相比,大于1表示优于已知阳性化合物,一般要求大于0.9。这一项务必注意。
kd/ki/IC50:活性数据,一般需要在μm及以下。
挑选时要考虑:
选择rv大于1的,如果活性数据较好(nm级),rv可以小一些。
最后看AI的。
打分0.95以上的都可以考虑。由于老师更倾向docking的结果,在前述方法挑选结束后选一些AI的作为补充。
注意:
1.除了预测数据,也需要考虑靶标的实际情况,如应用价值,测试可行性等。
2.最终筛选10-20个候选靶标,老师们会根据合作课题组平台从中选择部分候选靶标进行测试。
3.通常可以重点关注配体相似性>0.8的靶标,这个成功率比较高,若相似性过低就不考虑该方法;其次是分子对接;最后是AI。
4.当测试化合物的配体相似性数值很低时,不要伤心,说明化合物结构很新颖,研究价值更高。
5.当化合物结构非常新颖时,配体相似性和AI方法就不太适合了,重点关注分子对接,因为前两者依赖现有数据集,后者是基于物理化学原理。
  
  Notes:
  1.疾病一栏的信息可以考虑翻译成中文再给老师看。