2025.10.16-OmniPath 工作流和教程(重建网络)

75.3:/home/data/ydn/2.0/250930/new/office.R
conda activate pathway2targets_env
OmnipathR 的手册:OmnipathR手册.pdf

 一、脚本总体来源与对应官方文档

模块
主参考 omnipath_interactions 官方文档:描述 OmniPath 各类交互类型及参数(datasets、fields、curation_effort、references 等) https://r.omnipathdb.org/reference/omnipath-interactions.html
交互类型总览(含 PPI、TF、enzyme、ligand-receptor)
OmniPath 中的资源和交互类型” 教程(Marton Olbei, 2020-10-12)
转录调控网络 (TF–target) import_transcriptional_interactions / transcriptional() 函数页面 https://r.omnipathdb.org/reference/import_transcriptional_interactions.html
PPI 网络 (Post-translational) import_post_translational_interactions / omnipath_interactions() 函数文档 https://r.omnipathdb.org/reference/import_post_translational_interactions.html
酶-底物网络 enzyme_substrate() 官方函数说明https://r.omnipathdb.org/reference/enzyme_substrate.html
细胞间通讯 (Ligand–Receptor) intercell_network() / simplify_intercell_network() 官方文档https://r.omnipathdb.org/reference/intercell_network.html
数据资源列表 get_interaction_resources() 函数介绍可获取 OmniPath 支持的所有数据集https://r.omnipathdb.org/reference/get_interaction_resources.html

二、脚本中每个主要模块与官方教程的对应关系

Transcriptional network“获取 DoRothEA 的转录调控网络(A–C level)”
  • import_transcriptional_interactions() → 在新版包中等价为 transcriptional()
PPI/Post-translational network“导入 omnipath、pathwayextra、kinaseextra、ligrecextra 四个数据集并合并”
  • import_post_translational_interactions() 或 omnipath_interactions()
 Enzyme–substrate network“导入 enzyme-substrate 相互作用并提取 residue_type/residue_offset 等字段”
  • enzyme_substrate()
Ligand–receptor network“通过 intercell_network() 获取蛋白质-蛋白质配体受体交互”
  • intercell_network() + simplify_intercell_network()
字段和质量控制“根据 curation_effort 与 n_references 过滤高质量相互作用”同教程中的 filter(curation_effort > 7) 逻辑
整合分类(OmniPath 官方分类)“OmniPath 四大交互类型:post_translational, transcriptional, enzyme_substrate, intercellular”官方说明:https://r.omnipathdb.org/articles/interactions.html

 三、官方五大集成数据库(Five integrated databases)

来自 OmniPath 官网首页 (https://omnipathdb.org/) 的说明:
“OmniPath integrates data from more than 100 resources into five knowledge bases:
(1) molecular interactions (signaling network),
(2) enzyme–PTM relationships,
(3) protein complexes,
(4) protein annotations (functions, localization, tissue, disease, structure, etc.),
(5) intercellular communication roles (e.g. ligand, receptor).”
1️⃣ Interactions分子信号网络(protein–protein / post-translational)
  • omnipath_interactions()
2️⃣ Enzyme–PTM relationships酶–底物修饰(phosphorylation 等)
  • enzyme_substrate()
3️⃣ Complexes蛋白质复合物(multi-protein assemblies)
  • import_omnipath_complexes()
4️⃣ Annotations蛋白注释(功能、亚细胞定位、组织、疾病等)
  • import_Omnipath_annotations()
5️⃣ Intercell细胞间通讯作用(配体–受体、ECM–受体等)
  • intercell_network()

四、如何与“四类交互类型”对齐

  • 4 类交互类型” 属于第一个知识库(Interactions)内部的细分分类;
  • 5 个集成数据库” 是 OmniPath 整个平台的五大模块(macro-level)。
可理解为层级结构:

  • OmniPath(整个平台)
  • ├ signaling network (interactions)(分子相互作用数据库)
  • │  ├── Transcriptional (TF_Target)  # DoRothEA, CollecTRI,tf_target
  • │  ├── Post-translational(PPI) #omnipath/pathwayextra/kinaseextra/ligrecextra  
  • │  ├── Post-transcriptional(TF_miRNA/miRNA_lncRNA/miRNA_mRNA)
  • │  └── Small-molecule(drug_target) #SIGNOR
  • Enzyme–PTM relationships(PTMS)(酶-翻译后修饰关系)
  • ├ protein Complexes(蛋白质复合物)
  • ├protein Annotations(蛋白质注释)
  • Intercell (communication roles)(细胞间通讯作用(例如配体、受体;细胞间))

五、对照

1、TF:transcriptional() combines the following datasets:

  • DoRothEA
  • CollecTRI
  • tf_target
r:
  • gr_network <- transcriptional(
  •     dorothea_levels = c('A', 'B', 'C'),
  •     organism = 9606,
  •     genesymbols = TRUE,
调用 transcriptional() 时,OmniPathR 自动整合了这三类数据集
若无DoRothEA信息则根据 curation_effort 值补充:≥5为high,≥2为medium,其余low
  • transcriptional() = collectri + dorothea + tf_target
TF-target (gene regulatory, GRN) interactions
  • collectri: transcription factor (TF)-target interactions from CollecTRI.
  • dorothea: transcription factor (TF)-target interactions from DoRothEA
  • tf_target: transcription factor (TF)-target interactions from other resources
  • transcriptional: all transcription factor (TF)-target interactions; this is the combination of the collectri, dorothea and tf_target datasets.
脚本限制了 dorothea_levels = c('A', 'B', 'C') → 表示使用高置信度 TF–target 相互作用,这是官方推荐做法。
2、PPI,Post-translational(蛋白互作层)模块:
r:
  • ppi_datasets <- c('omnipath', 'pathwayextra', 'kinaseextra', 'ligrecextra')
  • dataset_data <- omnipath_interactions(datasets = dataset, ...)
官方定义:
“post_translational interactions = omnipath + pathwayextra + kinaseextra + ligrecextra”
(OmniPathR reference, section “Post-translational (protein-protein, PPI)”)
按照官方定义实现了四个数据集的调用与整合,并做了统一的清洗与 confidence 分级。
“very_high”只在核心OmniPath数据集(即人工整理主干网络)中存在,要求非常严格(高curation + 多文献)。
3、Enzyme–PTM relationships
r:
  • enzsub_network <- enzyme_substrate(
  •     organism = 9606,
  •     genesymbols = TRUE,
调用 OmniPath 第二大知识库
→ “Enzyme–PTM relationships
4、Intercellular communication(细胞间通讯)
r:
  •  ligand_receptor <- intercell_network(    
  •     ligand_receptor = TRUE,
  •     high_confidence = TRUE,
  •     entity_types = 'protei
是第五大知识库的一部分(“Intercellular communication roles”)
→ 获取配体–受体对。

六、confidence score

网络、酶-PTM 关系和复合物可以通过 `curation_effort` 值(唯一资源-参考对)或参考文献数量进行过滤。通过删除没有参考文献的记录,可以轻松选择数据中文献整理的部分。在 intercell数据库中,每个复合记录都有一个 `consensus_score`

七、网络规模

1、基本规模
l  总基因数     16,176 个
独立 UniProt 编号数量: 16203(不对应因为
l  总相互作用 181,817 个
l  转录因子数量    1,398 个
l  平均文献支持数       2.19
l  ≥1 文献支持比例   99.4 %
2、网络构成
  
网络类型
  
  
相互作用数量
  
  
说明
  
  
蛋白互作(PPI)
  
  
100,166
  
  
来源于 OmniPath 主体数据omnipath及扩展集( kinaseextra + pathwayextra +   ligrecextra)
  
  
转录因子调控(TF→Target)
  
  
79,544
  
  
来自 DoRothEA、CollecTRI、TF-target 三个核心调控数据集
  
  
酶–底物修饰(PTM)
  
  
1,574
  
  
来源于 enzyme_substrate 模块(磷酸化、泛素化等)
  
  
配体–受体(Intercell)
  
  
533
  
  
来源于 intercell 网络,高置信度配体–受体作用对
  
  
总计
  
  
181,817
  
  
综合构建的完整多层调控网络(用于上游调控分析)
  
3、字段说明
  
字段名
  
  
类型
  
  
说明
  
  
示例值
  
  
from
  
  
chr
  
  
源基因符号(上游调控者)
  
  
TP53, MYC, AR
  
  
to
  
  
chr
  
  
目标基因符号(下游受调控基因)
  
  
CDKN1A, MDM2
  
  
from_uniprot
  
  
chr
  
  
源蛋白 UniProt accession ID
  
  
P04637
  
  
to_uniprot
  
  
chr
  
  
靶蛋白 UniProt accession ID
  
  
P38936
  
  
interaction_type
  
  
chr
  
  
调控类型 
  
  
activation / inhibition / binding / phosphorylation
  
  
n_references
  
  
num
  
  
文献支持数(引用文献篇数)
  
  
1, 5, 20
  
  
n_resources
  
  
num
  
  
来自多少个不同数据库资源
  
  
3, 8, 12
  
  
curation_effort
  
  
num
  
  
数据整理工作量指标(内部质量度量)
  
  
1, 3, 5
  
  
sources
  
  
chr
  
  
数据来源的详细资源(以分号分隔)
  
  
DoRothEA;CollecTRI;TF-Target;PathwayExtra
  
  
references
  
  
chr
  
  
支持该相互作用的文献 PMID 或 DOI 列表
  
  
"PMID:12345678;
  
PMID:23456789"
  
  
dorothea_level
  
  
chr
  
  
转录因子置信度等级(DoRothEA 分级)
  
  
A, B, C, NA
  
  
confidence
  
  
chr
  
  
综合置信度等级(由多因素评估)
  
  
very_high, high, medium, low
  
  
network_type
  
  
chr
  
  
网络分类类型(OmniPath 官方分类)
  
  
post_translational, gene_regulatory, enzyme_substrate, ligand_receptor
  
  
data_source
  
  
chr
  
  
直接来源模块
  
  
transcriptional_omnipath, enzyme_substrate_omnipath
  
  
dataset_source
  
  
chr
  
  
数据子集标识(用于区分 omnipath / kinaseextra / ligrecextra 等)
  
  
omnipath, kinaseextra
  
  
modification
  
  
chr
  
  
若为 PTM 数据,记录修饰类型
  
  
phosphorylation, ubiquitination
  
  
residue_type
  
  
chr
  
  
被修饰氨基酸类型(PTM 数据专用)
  
  
S, T, Y
  
  
residue_offset
  
  
num
  
  
被修饰残基在序列中的位点号
  
  
15, 347, 512
  
  • curation_effort(数据整理工作量指标
A relative score summarizing the amount of manual curation effort and the number of distinct evidences supporting an interaction.
表示一条相互作用被人工整理、文献支持、资源合并的程度。值越高,说明该关系来源更充分,证据更复杂(通常更可靠)。
  • curation_effort 值
说明示例
1单一数据库、少量证据来自一个数据源,1 篇文献支持
2–3多数据库支持但文献有限合并自两个资源(如 SIGNOR + HPRD)
4–5多文献 & 多资源支持至少 3 篇文献,存在人工整合
≥6高度整理、高置信度出现在核心资源如 OmniPath 主体或 SIGNOR curated 数据中
4、各模块构成
模块相互作用基因数说明
omnipath_omnipath83,3158,683OmniPath 主体数据库的核心 PPI 网络(高质量、方向化)
transcriptional_omnipath79,54413,484来自 DoRothEA、CollecTRI、TF-Target 等转录调控关系
omnipath_kinaseextra10,0354,058激酶互作扩展集(kinaseextra)
omnipath_pathwayextra6,6893,685通路补充集(pathwayextra)
enzyme_substrate_omnipath1,574729酶-底物(PTM 修饰)
intercell_omnipath533558配体-受体(细胞间通讯)
omnipath_ligrecextra127169配体-受体扩展补充集(ligrecextra)