上海市药学会人工智能专委会学术年会
1.王任小:药靶作用预测,评估配体分子的成药性质(Tox and DMPK)//可用
1.1 打分函数 :PLANET模型,图学习?哪来的图?input(pockets点云&&分子结构)---->Affinityscore(Kd)
以上ver1, ver2的技术更新:混合高斯密度函数(G?),作为一个什么模块呢?只要二维结构?
去冗余的确很有必要.
1.2 PDBbind+ ver 2024,可以看一看
1.3 Koff课题,基于MD的和基于ML的----->STELLAR, input(构象系综)----------------->koff
PDBbind中就有这部分数据,还是可以看一下PDBbind最新的组成。
1.4 靶标预测:COMET,模块化?-->工作流,输出三元组(疾病,靶标,预测值?)
都在PDBbind+中,还是要具体看看。
ver2 对比学习模型,对比在哪里???OpenTargets数据库
蛋白表征大模型选择差异不大,配体表征选择差异大
1.5 结论:1)专用模型比通用模型好,在预测分子性质上
2)数据依旧很重要
3)算法要有,算法的评估验证更重要
4)少数的实验验证也是不充分的,通用才是硬道理。
问题:trainset/testset的泄露问题?
泄露是:指的是样本之间存在映射,所以实际上trainset和testset之间要求高的独立性。
测试集规模和置信度要匹配
补充:蛋白质语言模型没什么用是指?选择性预测不太行,稳定性有用。
2.朱峰
1)靶标发现:panda omics,老生常谈了。综合性的靶标评分。结果还是对数据集是依赖的,如何去除这些依赖呢??????????
2)功能组学???? 数据处理流程很重要------------->NOREVA模型框架????有点意思哟
(那其实可以用强化学习的数据处理的方法)
3)单细胞组学,这就不得不说10x genomics了,这里就是ANPELA模型,看起来是细胞亚型鉴定模型,还有时间轨迹演进的推断,怎么就发现靶标了?????
4)可药靶性????,功能家族的长尾效应。
有道理,模型依赖与数据集,自然依赖于数据集的结构。
AnnoPRO,预测蛋白质功能??
5)蛋白结构的问题:MISD(mutation-induced structure disruption),目前的模型对单点突变的预测有限。------------> Melo,度量结构变化和定位结构变化。
6)EnsemPPIS,但是大语言模型的长程其实不咋滴。
总结:这么多数据库,得看看啥情况,专业数据库的数据还太少了。还是觉得我们(实验)科学应该实现自驱动的AGENT流程,才有实际的意义,或者说才是高效的,活在现实世界,该做的还是要做的,只是机器来做更好。数据还是有限的。
3.刘琦:
弱监督问题:
前面的数据处理过程是很重要的,溜神了
4.孙思琦
蛋白质谱从头测序专业模型???
InterlliFold,别构sites有点参考价值,
5.卞月珉:
比较传统
6.张舜尧
量子MSA算法,多序列比对暂时没有突出的点
7.刁妍妍
环药空间?简单说来就是环结构药物。MacFrag------------------>Macformer
