2025.10.20-Omnipath（wb脚本）

脚本使用的搜索方式是基于有向调控网络的 “分层上游广度优先搜索（Layered Upstream Breadth-First Search, BFS）”，其核心逻辑与COSMOS “因果路径筛选需按层级控制步数、优先最短路径” 的原则高度一致

Causal integration of multi-omics data with prior knowledge to generate mechanistic hypotheses发表在Molecular Systems Biology

任务：

从下游WB出发，往上搜索三层基因（靶点也许会出现在这些搜索结果中）输出的是根据文献证据和步长排序的基因列表，“把这三层的结果再做D3CARP-AI（TP），得到输出结果进行排序”

先尝试2层，因为layer>3基本会搜索3000以上的基因

/home/data/ydn/2.0/251020_wb/wb/

conda activate pathway2targets_env

Western Blot 差异蛋白：vorinostat.txt

layer：2

min_targets：1

 Rscript wb_upstream.R vorinostat_wb_gene.txt 2 1 vorinostat complete_network.RData

批量运行 bash run_all_wb.sh，样本量大时也可以后台运行

run_all_wb.sh

将所有结果提取到/home/data/ydn/2.0/251020_wb/2.0_AI/wb_results/

Rscript wb_upstream.R vorinostat_wb_gene.txt 3 1 vorinostat

在complete_network.RData/home/data/ydn/2.0/251020_wb/results_all/


affected_targets	该上游基因调控的 WB 差异蛋白数（加权后）	来自 paths_dt 的汇总	越多越高
log(total_literature + 1)	所有路径上文献引用数之和的对数	n_references 累积	文献多 → 高
avg_confidence	平均置信度分值（very_high=4, high=3, medium=2, low=1）	1–4	置信高 → 高
tf_bonus	若为转录因子（TF），乘以1.5，否则1.0	1或1.5	TF优先
layer_bonus	与目标层数成反比，越近越高	1.0 / min_layer	下游层越近越高
net_type_bonus	网络类型奖励：gene_regulatory=1.3, signaling=1.1, 其他=1.0	1.0–1.3	调控网络优先
direct_bonus	若直接调控输入目标基因则×1.3，否则1.0	1.0或1.3	直接调控优先

跑TP-AI（用yj师姐的环境）

75.1

cyj-d3ai

上面环境cyj-d3ai是85.3上面的pytorch_gpu一样的D3CARP-AI的靶标预测按照下面步骤使用，(虚筛需要修改脚本路径)使用:

1、conda activate cyj-d3ai

2、cd path/to/your/file

3、cp /home/dddc/chenyuanjie/hl_wr_tcm_d3carp_calculate/yingshe-d3ai/1-DeepL-TP.sh ./4、bash path/to/your/file/1-DeepL-TP.sh - path/to/your/file/test .smi -m MPNN-CNN

思路：全库跑TP筛选人源与wb_results取交集

上游：

直接跑批量脚本设定

Rscript "$SCRIPT" "$INPUT_DIR/$txt" 2 1 "$base" "$NETWORK"

2 两层 1 上游基因至少要调控多少个目标（过滤噪声用）

run_all_wb.sh

wb_upstream.R

AI人源：

ai_species.py

Total Mapped Mapped_Percent Human Human_Percent

5901 5900 99.98% 2921 49.50%

交集：AI_TP.sh

输出:/home/data/ydn/2.0/251020_wb/2.0_AI/result/

金标准对比：

Rscript wb_ai_gold_validation.R database.csv result/ AI_result/ "5，10,20,50,100，150"
database.csv - 金标准数据库文件（需要您提供）
result/ - WB过滤结果目录
AI_result/ - AI预测结果目录
"10,20,50,100" - 可选的Top-K值列表

wb_ai_gold_validation.R

结果：/home/data/ydn/2.0/251020_wb/2.0_AI/wb_ai_validation_20251028_164408

方法1：Excel 导入法

打开 Excel（不要直接双击 CSV）

点击 Data → Get External Data → From Text/CSV

选择 validation_table.csv

本次基于之前收集的 14 个具有已知靶点信息的化合物，对比了 WB（实验结果）与 AI（深度学习模型预测）的靶点识别性能。综合 Precision、Recall、F1-score、Hit Rate 与 MRR 等指标结果显示：

1、WB 方法在所有 Top-K 范围（特别是Top-5 -Top-50）下的平均 Precision、Recall、F1、Hit Rate 及 MRR 均略高于 AI 模型预测结果。

2、样本数量较少，以及金标准中每个化合物真实靶点数量有限（多为 1–2 个），导致平均值离散分布，显著性较低。

但以JQ1为例AI能找到BRDT，2.0能找到BRD4,取交集以后为空集

有部分GRN基因不在TP库里，怎么做target prediction？

AI-TP人源：1771 GRN：16202 交集：1687

老师建议：1、扩大到3层 2、AI序列最相似相似度统计再做交集，扩大样本。

重新补充人源交叉、3层(还未筛选掉文献少的样本、未考虑相似度）

结果甚至比2层差了，因为没有基因更多了