Logs

2025-6-12:完成drugprotai的部署和使用方法的总结,75.3上创建环境drugprotai供测试。
75.3好像不能从uniprot中获取信息
2025-6-14:原来能,是/Domain/extract中代码的问题,已经修正,然后能跑了第一个程序
2025-6-16:  /Domain/topK 也有问题,这都是什么bullshit,topK运行不了一点,直接到特征提取的那一步/EMS2,还要安装一下transformers,torch,tmd模型还下不下来,只能本地。protein_pros.json还要拿过来,行吧,这号在还能跑。有个东西叫:nbconvert,很人性,nb真的很nt。命令如下:jupyter nbconvert --to python your_notebook.ipynb,今天只到PPIs第二部17
2025-6-17:ppi第二步好像少了一些蛋白:Traceback (most recent call last):
  File "network_properties.py", line 181, in <module>
    a = there_exists(sc)
  File "network_properties.py", line 134, in there_exists
    if y not in [v for (v, it) in ppi_network[x]]:
KeyError: 'Q5XG85',这里的处理是直接跳过,然后通过了
ppi_count.py返回Number of proteins with no interactions: 8261???
PTM中的extract也有同样的pdb访问问题,已经修正。
2025-6-18:ptm_count也存在文件缺失的情况,还是因为extract没extract到,改了改,直接跳过.然后就跑完了.下一个是SCL,extract还得自己成批量处理。
2025-6-19:SCL是extract完了,还有PDB,没有做,就算了吧. google是什么库??改成本地模式,需要的文件:druggable_proteins.txt,investigational_proteins.txt ,protein_props.json,gdpc_encodings.json,ppi.json,ppi_network_properties.csv,glycosylation.csv,PTM_counts.csv,subcellular_locations2.json,data_top20.csv,latent_values.csv
考了,忘了pcfs中的flexibility提取,这里extract需要pyfaidx包,傻逼玩意,解压不了一点,RF,XGBoost,ESM2跑完了,结果就在Blind_Validation/results
后面还有Feature score、Genetic Algorithm,Partition Method
Feature score 需要全面的本地化,本地化完了,忍不了了,下半年,今天到Feature_score的xg——select
2025-6-20: Feature Score中的xgb*selection*跑完了,xgc_pec*出错了,修好了。rf和xgb的shap值还不一样类,组织类型。然后就是Genetic Algorithm,没有approved_updated_proteins.txt'这个文件啊,Partition Method下的文件本地化了,Partition用GPU跑完了。完成备份了(/home/databank/gxxu/Backup/History_on_Target2Druggability)
2025-6-20:完成一个雏形架构
2025-6-23:开始整合代码,新框架的代码
2025-6-26:整合了从uniprot中获取数据的代码
2025-7-1:开始备份,备份路径:/home/databank/gxxu/Backup/History_on_Target2Druggability/ver_2025_JULY
ver_2025_JULY完成备份,主要包含框架和数据获取的代码。
创建环境:T2D(transformersc,pandas,torch,requests,后续添加)
出现问题了,protein_props_json的输入方式,加了个default,放在data中。
config中添加了logs目录建立。
测试下来,基本上数据的加载测试没有太大的问题。后面再优化以下吧
2025-7-2:加载数据好像就是有点耗时间,
  • 序列特性:序列长度、分子量、GRAVY值、等电点等
  • 氨基酸组成:各氨基酸百分比
  • 二级结构:α螺旋、β折叠、转角等
  • 相互作用特性:不同氨基酸类型间的相互作用
  • 翻译后修饰:糖基化、二硫键、修饰残基等
  • 亚细胞定位:细胞膜、内质网、线粒体等
  • 结构域:RRM、KRAB、PDZ等
  • 柔性特性:均值、方差、中位数等统计量
  • 潜在特征:20个潜在变量
总结下来:组织形式dataframe,蛋白ID为索引,以上内容为特征列进行输入训练。
2025-7-3:A8MPY1,GABA受体,氟地西泮,abondoned