cosmos
COSMOS(Causal Oriented Search of Multi-Omics Space)也是omnipath团队成员参加开发的,是一种整合多组学数据与先验知识(也使用了omnipath数据库建立知识网络)、通过因果推理生成机制假设的分析方法,目标是从转录组学、磷酸化蛋白质组学、代谢组学等多组学数据中,系统提取分子机制假设。其文章“Causal integration of multi-omics data with prior knowledge to generate mechanistic hypotheses”发表在Molecular Systems Biology。https://www.embopress.org/doi/full/10.15252/msb.20209730
我参考的COSMOS 中 “最短路径优先” 的本质是在庞大的先验知识网络(meta PKN,类似我构建的基因调控网络)中,避免过长、低可信度的路径干扰因果推理— 其核心依据是 “生物体内的调控更倾向于通过直接或短程路径实现,且文献支持的路径可靠性更高”,例如在构建 meta PKN 时,会优先保留 “有明确激活 / 抑制方向、且至少 1 篇文献支持” 的互作,不论其中是否有其他联级,并通过整数线性规划(ILP)筛选 “连接差异分子的最小连贯子网络”(本质是短路径的集合)。
ILP 在 COSMOS 中的具体应用:从 “海量 PKN” 到 “449 条边的核心子网络”
在 COSMOS 分析中,ILP 通过上述逻辑完成关键任务,最终产出有价值的机制假设:
筛选 “最小连贯子网络”:COSMOS 基于 ILP(通过 CARNIVAL 工具实现),从 117,065 条边的 meta PKN 中,筛选出包含 449 条边的子网络—— 这些边均满足 “连接差异分子、方向无矛盾、路径最短”,涵盖 “NFKB1→MYC→BCAT1→谷氨酸”“JUN→YY1→ADA→腺嘌呤” 等关键调控模块;
支持 “双向路径搜索”:ILP 不仅能实现 “信号→代谢” 的正向搜索(如 TF→激酶→代谢物),还能支持 “代谢→信号” 的反向搜索(如代谢物→酶→TF)——COSMOS 通过 “正向 + 反向”ILP 搜索,最终合并得到覆盖多组学层的完整子网络;
保证结果的可解释性:ILP 筛选的子网络中,每一条边和节点都有明确的 “保留理由”(符合约束且贡献最小规模)—— 例如,“NFKB1→MYC” 的保留是因为 “方向匹配 + 连接差异分子 + 减少路径长度”,这为后续实验验证提供了清晰的机制假设。
ILP 的核心工作逻辑:3 步将生物学需求转化为数学问题
ILP(整数线性规划)是一种 “变量为整数、目标函数与约束条件均为线性” 的数学优化方法,其工作逻辑可拆解为 “定义变量→设置约束→优化目标”,每一步都对应具体的生物学需求:
1. 第一步:定义 “0-1 变量”—— 将 “分子 / 边是否保留” 转化为数学决策
ILP 通过 “0-1 离散变量” 描述 “选择与否” 的生物学决策,确保每一个选择都对应明确的子网络组成:
节点变量(xᵢ):若分子 i(如 NFKB1、MYC、BCAT1)被保留在子网络中,xᵢ=1;否则 xᵢ=0。
例:在 “NFKB1→MYC→BCAT1→谷氨酸” 路径中,x_NFKB1=1、x_MYC=1、x_BCAT1=1、x_谷氨酸 = 1(保留这 4 个差异分子);
边变量(yᵢⱼ):若 “分子 i→分子 j” 的因果边(如 “NFKB1 激活 MYC”)被保留,yᵢⱼ=1;否则 yᵢⱼ=0。
例:路径中 y_NFKB1→MYC=1、y_MYC→BCAT1=1、y_BCAT1→谷氨酸 = 1(保留这 3 条有向边)。
通过变量定义,“子网络由哪些分子和边组成” 这一生物学问题,转化为 “哪些变量取 1、哪些取 0” 的数学问题。
