2025.10.20-Omnipath(wb脚本)

脚本使用的搜索方式是基于有向调控网络的 “分层上游广度优先搜索(Layered Upstream Breadth-First Search, BFS)”,其核心逻辑与COSMOS “因果路径筛选需按层级控制步数、优先最短路径” 的原则高度一致
Causal integration of multi-omics data with prior knowledge to generate mechanistic hypotheses发表在Molecular Systems Biology

任务:

从下游WB出发,往上搜索三层基因(靶点也许会出现在这些搜索结果中)输出的是根据文献证据和步长排序的基因列表,“把这三层的结果再做D3CARP-AI(TP),得到输出结果进行排序”
先尝试2层,因为layer>3基本会搜索3000以上的基因
/home/data/ydn/2.0/251020_wb/wb/
conda activate pathway2targets_env
Western Blot 差异蛋白:vorinostat.txt
layer:2
min_targets:1
  •  Rscript wb_upstream.R vorinostat_wb_gene.txt 2 1 vorinostat complete_network.RData
批量运行 bash run_all_wb.sh,样本量大时也可以后台运行
将所有结果提取到/home/data/ydn/2.0/251020_wb/2.0_AI/wb_results/
  • Rscript wb_upstream.R vorinostat_wb_gene.txt 3 1 vorinostat 
在complete_network.RData/home/data/ydn/2.0/251020_wb/results_all/
affected_targets该上游基因调控的 WB 差异蛋白数(加权后)来自 paths_dt 的汇总越多越高
log(total_literature + 1)所有路径上文献引用数之和的对数
  • n_references 累积
文献多 → 高
avg_confidence平均置信度分值(very_high=4, high=3, medium=2, low=1)1–4置信高 → 高
tf_bonus若为转录因子(TF),乘以1.5,否则1.01或1.5TF优先
layer_bonus与目标层数成反比,越近越高
  • 1.0 / min_layer
下游层越近越高
net_type_bonus网络类型奖励:gene_regulatory=1.3, signaling=1.1, 其他=1.01.0–1.3调控网络优先
direct_bonus若直接调控输入目标基因则×1.3,否则1.01.0或1.3直接调控优先
跑TP-AI(用yj师姐的环境)
75.1
cyj-d3ai
上面环境cyj-d3ai是85.3上面的pytorch_gpu一样的D3CARP-AI的靶标预测按照下面步骤使用,(虚筛需要修改脚本路径)使用:
1、conda activate cyj-d3ai
2、cd path/to/your/file
3、cp /home/dddc/chenyuanjie/hl_wr_tcm_d3carp_calculate/yingshe-d3ai/1-DeepL-TP.sh ./4、bash path/to/your/file/1-DeepL-TP.sh - path/to/your/file/test .smi -m MPNN-CNN
思路:全库跑TP筛选人源与wb_results取交集
上游:
直接跑批量脚本设定
Rscript "$SCRIPT" "$INPUT_DIR/$txt" 2 1 "$base" "$NETWORK"
2 两层 1 上游基因至少要调控多少个目标(过滤噪声用)
AI人源:
Total   Mapped  Mapped_Percent   Human   Human_Percent
5901      5900              99.98%              2921            49.50%
交集:AI_TP.sh
输出:/home/data/ydn/2.0/251020_wb/2.0_AI/result/
金标准对比:
  • Rscript wb_ai_gold_validation.R database.csv result/ AI_result/ "5,10,20,50,100,150"
  • database.csv - 金标准数据库文件(需要您提供)
  • result/ - WB过滤结果目录
  • AI_result/ - AI预测结果目录
  • "10,20,50,100" - 可选的Top-K值列表
结果:/home/data/ydn/2.0/251020_wb/2.0_AI/wb_ai_validation_20251028_164408
方法1:Excel 导入法
打开 Excel(不要直接双击 CSV)
点击 Data → Get External Data → From Text/CSV
选择 validation_table.csv
本次基于之前收集的 14 个具有已知靶点信息的化合物,对比了 WB(实验结果)与 AI(深度学习模型预测)的靶点识别性能。综合 Precision、Recall、F1-score、Hit Rate 与 MRR 等指标结果显示:
1、WB 方法在所有 Top-K 范围(特别是Top-5 -Top-50)下的平均 Precision、Recall、F1、Hit Rate 及 MRR 均略高于 AI 模型预测结果。
2、样本数量较少,以及金标准中每个化合物真实靶点数量有限(多为 1–2 个),导致平均值离散分布,显著性较低。
但以JQ1为例AI能找到BRDT,2.0能找到BRD4,取交集以后为空集
有部分GRN基因不在TP库里,怎么做target prediction?
AI-TP人源:1771   GRN:16202  交集:1687
老师建议:1、扩大到3层     2、AI序列最相似相似度统计再做交集,扩大样本。
重新补充人源交叉、3层(还未筛选掉文献少的样本、未考虑相似度)
结果甚至比2层差了,因为没有基因更多了