2025.10.16-OmniPath 工作流和教程(重建网络)
75.3:/home/data/ydn/2.0/250930/new/office.R
conda activate pathway2targets_env
OmnipathR 的手册:OmnipathR手册.pdf
一、脚本总体来源与对应官方文档
| 主参考 | omnipath_interactions 官方文档:描述 OmniPath 各类交互类型及参数(datasets、fields、curation_effort、references 等) | https://r.omnipathdb.org/reference/omnipath-interactions.html |
| 交互类型总览(含 PPI、TF、enzyme、ligand-receptor) | ||
| 转录调控网络 (TF–target) | import_transcriptional_interactions / transcriptional() 函数页面 | https://r.omnipathdb.org/reference/import_transcriptional_interactions.html |
| PPI 网络 (Post-translational) | import_post_translational_interactions / omnipath_interactions() 函数文档 | https://r.omnipathdb.org/reference/import_post_translational_interactions.html |
| 酶-底物网络 | enzyme_substrate() 官方函数说明 | https://r.omnipathdb.org/reference/enzyme_substrate.html |
| 细胞间通讯 (Ligand–Receptor) | intercell_network() / simplify_intercell_network() 官方文档 | https://r.omnipathdb.org/reference/intercell_network.html |
| 数据资源列表 | get_interaction_resources() 函数介绍可获取 OmniPath 支持的所有数据集 | https://r.omnipathdb.org/reference/get_interaction_resources.html |
二、脚本中每个主要模块与官方教程的对应关系
| Transcriptional network | “获取 DoRothEA 的转录调控网络(A–C level)” |
|
| PPI/Post-translational network | “导入 omnipath、pathwayextra、kinaseextra、ligrecextra 四个数据集并合并” |
|
| Enzyme–substrate network | “导入 enzyme-substrate 相互作用并提取 residue_type/residue_offset 等字段” |
|
| Ligand–receptor network | “通过 intercell_network() 获取蛋白质-蛋白质配体受体交互” |
|
| 字段和质量控制 | “根据 curation_effort 与 n_references 过滤高质量相互作用” | 同教程中的 filter(curation_effort > 7) 逻辑 |
| 整合分类(OmniPath 官方分类) | “OmniPath 四大交互类型:post_translational, transcriptional, enzyme_substrate, intercellular” | 官方说明:https://r.omnipathdb.org/articles/interactions.html |
三、官方五大集成数据库(Five integrated databases)
来自 OmniPath 官网首页 (https://omnipathdb.org/) 的说明:
“OmniPath integrates data from more than 100 resources into five knowledge bases:
(1) molecular interactions (signaling network),
(2) enzyme–PTM relationships,
(3) protein complexes,
(4) protein annotations (functions, localization, tissue, disease, structure, etc.),
(5) intercellular communication roles (e.g. ligand, receptor).”
| 1️⃣ Interactions | 分子信号网络(protein–protein / post-translational) |
|
| 2️⃣ Enzyme–PTM relationships | 酶–底物修饰(phosphorylation 等) |
|
| 3️⃣ Complexes | 蛋白质复合物(multi-protein assemblies) |
|
| 4️⃣ Annotations | 蛋白注释(功能、亚细胞定位、组织、疾病等) |
|
| 5️⃣ Intercell | 细胞间通讯作用(配体–受体、ECM–受体等) |
|
四、如何与“四类交互类型”对齐
- “4 类交互类型” 属于第一个知识库(Interactions)内部的细分分类;
- “5 个集成数据库” 是 OmniPath 整个平台的五大模块(macro-level)。
可理解为层级结构:
- OmniPath(整个平台)
- │
- ├ signaling network (interactions)(分子相互作用数据库)
- │ ├── Transcriptional (TF_Target) # DoRothEA, CollecTRI,tf_target
- │ ├── Post-translational(PPI) #omnipath/pathwayextra/kinaseextra/ligrecextra
- │ ├── Post-transcriptional(TF_miRNA/miRNA_lncRNA/miRNA_mRNA)
- │ └── Small-molecule(drug_target) #SIGNOR
- ├ Enzyme–PTM relationships(PTMS)(酶-翻译后修饰关系)
- ├ protein Complexes(蛋白质复合物)
- ├protein Annotations(蛋白质注释)
- └Intercell (communication roles)(细胞间通讯作用(例如配体、受体;细胞间))
五、对照
1、TF:transcriptional() combines the following datasets:
- DoRothEA
- CollecTRI
- tf_target
r:
- gr_network <- transcriptional(
- dorothea_levels = c('A', 'B', 'C'),
- organism = 9606,
- genesymbols = TRUE,
调用 transcriptional() 时,OmniPathR 自动整合了这三类数据集。
若无DoRothEA信息则根据 curation_effort 值补充:≥5为high,≥2为medium,其余low
- transcriptional() = collectri + dorothea + tf_target
TF-target (gene regulatory, GRN) interactions
- collectri: transcription factor (TF)-target interactions from CollecTRI.
- dorothea: transcription factor (TF)-target interactions from DoRothEA
- tf_target: transcription factor (TF)-target interactions from other resources
- transcriptional: all transcription factor (TF)-target interactions; this is the combination of the collectri, dorothea and tf_target datasets.
脚本限制了 dorothea_levels = c('A', 'B', 'C') → 表示使用高置信度 TF–target 相互作用,这是官方推荐做法。
2、PPI,Post-translational(蛋白互作层)模块:
r:
- ppi_datasets <- c('omnipath', 'pathwayextra', 'kinaseextra', 'ligrecextra')
- dataset_data <- omnipath_interactions(datasets = dataset, ...)
官方定义:
“post_translational interactions = omnipath + pathwayextra + kinaseextra + ligrecextra”
(OmniPathR reference, section “Post-translational (protein-protein, PPI)”)
按照官方定义实现了四个数据集的调用与整合,并做了统一的清洗与 confidence 分级。
“very_high”只在核心OmniPath数据集(即人工整理主干网络)中存在,要求非常严格(高curation + 多文献)。
3、Enzyme–PTM relationships
r:
- enzsub_network <- enzyme_substrate(
- organism = 9606,
- genesymbols = TRUE,
调用 OmniPath 第二大知识库
→ “Enzyme–PTM relationships”
4、Intercellular communication(细胞间通讯)
r:
- ligand_receptor <- intercell_network(
- ligand_receptor = TRUE,
- high_confidence = TRUE,
- entity_types = 'protei
是第五大知识库的一部分(“Intercellular communication roles”)
→ 获取配体–受体对。
六、confidence score
网络、酶-PTM 关系和复合物可以通过
`curation_effort` 值(唯一资源-参考对)或参考文献数量进行过滤。通过删除没有参考文献的记录,可以轻松选择数据中文献整理的部分。在 intercell数据库中,每个复合记录都有一个 `consensus_score`七、网络规模
1、基本规模
l 总基因数 16,176 个
独立 UniProt 编号数量: 16203(不对应因为
l 总相互作用 181,817 个
l 转录因子数量 1,398 个
l 平均文献支持数 2.19
l ≥1 文献支持比例 99.4 %
2、网络构成
| 网络类型 | 相互作用数量 | 说明 |
| 蛋白互作(PPI) | 100,166 | 来源于 OmniPath 主体数据omnipath及扩展集( kinaseextra + pathwayextra + ligrecextra) |
| 转录因子调控(TF→Target) | 79,544 | 来自 DoRothEA、CollecTRI、TF-target 三个核心调控数据集 |
| 酶–底物修饰(PTM) | 1,574 | 来源于 enzyme_substrate 模块(磷酸化、泛素化等) |
| 配体–受体(Intercell) | 533 | 来源于 intercell 网络,高置信度配体–受体作用对 |
| 总计 | 181,817 | 综合构建的完整多层调控网络(用于上游调控分析) |
3、字段说明
| 字段名 | 类型 | 说明 | 示例值 |
| from | chr | 源基因符号(上游调控者) | TP53, MYC, AR |
| to | chr | 目标基因符号(下游受调控基因) | CDKN1A, MDM2 |
| from_uniprot | chr | 源蛋白 UniProt accession ID | P04637 |
| to_uniprot | chr | 靶蛋白 UniProt accession ID | P38936 |
| interaction_type | chr | 调控类型 | activation / inhibition / binding / phosphorylation |
| n_references | num | 文献支持数(引用文献篇数) | 1, 5, 20 |
| n_resources | num | 来自多少个不同数据库资源 | 3, 8, 12 |
| curation_effort | num | 数据整理工作量指标(内部质量度量) | 1, 3, 5 |
| sources | chr | 数据来源的详细资源(以分号分隔) | DoRothEA;CollecTRI;TF-Target;PathwayExtra |
| references | chr | 支持该相互作用的文献 PMID 或 DOI 列表 | "PMID:12345678; PMID:23456789" |
| dorothea_level | chr | 转录因子置信度等级(DoRothEA 分级) | A, B, C, NA |
| confidence | chr | 综合置信度等级(由多因素评估) | very_high, high, medium, low |
| network_type | chr | 网络分类类型(OmniPath 官方分类) | post_translational, gene_regulatory, enzyme_substrate, ligand_receptor |
| data_source | chr | 直接来源模块 | transcriptional_omnipath, enzyme_substrate_omnipath |
| dataset_source | chr | 数据子集标识(用于区分 omnipath / kinaseextra / ligrecextra 等) | omnipath, kinaseextra |
| modification | chr | 若为 PTM 数据,记录修饰类型 | phosphorylation, ubiquitination |
| residue_type | chr | 被修饰氨基酸类型(PTM 数据专用) | S, T, Y |
| residue_offset | num | 被修饰残基在序列中的位点号 | 15, 347, 512 |
- curation_effort(数据整理工作量指标)
A relative score summarizing the amount of manual curation effort and the number of distinct evidences supporting an interaction.
表示一条相互作用被人工整理、文献支持、资源合并的程度。值越高,说明该关系来源更充分,证据更复杂(通常更可靠)。
| 说明 | 示例 |
| 1 | 单一数据库、少量证据 | 来自一个数据源,1 篇文献支持 |
| 2–3 | 多数据库支持但文献有限 | 合并自两个资源(如 SIGNOR + HPRD) |
| 4–5 | 多文献 & 多资源支持 | 至少 3 篇文献,存在人工整合 |
| ≥6 | 高度整理、高置信度 | 出现在核心资源如 OmniPath 主体或 SIGNOR curated 数据中 |
4、各模块构成
| 模块 | 相互作用 | 基因数 | 说明 |
| omnipath_omnipath | 83,315 | 8,683 | OmniPath 主体数据库的核心 PPI 网络(高质量、方向化) |
| transcriptional_omnipath | 79,544 | 13,484 | 来自 DoRothEA、CollecTRI、TF-Target 等转录调控关系 |
| omnipath_kinaseextra | 10,035 | 4,058 | 激酶互作扩展集(kinaseextra) |
| omnipath_pathwayextra | 6,689 | 3,685 | 通路补充集(pathwayextra) |
| enzyme_substrate_omnipath | 1,574 | 729 | 酶-底物(PTM 修饰) |
| intercell_omnipath | 533 | 558 | 配体-受体(细胞间通讯) |
| omnipath_ligrecextra | 127 | 169 | 配体-受体扩展补充集(ligrecextra) |
