12.3 网药
PPI
D3Targets 里的靶点太少了。
从逻辑上来说,最好是 把化湿败毒方中的成分一起输入D3Targets三个板块,把预测得到的靶点取并集/交集。
目前的预测结果显示,D3AI能预测20个蛋白,但是很多都不是新冠的,是同家族其他蛋白的。D3Similarity 只能预测出来5个蛋白是潜在靶点。
解决方案1是进行数据库扩容,这个工作量略大。
解决方案2是 看看别人的网药是怎么做的,用什么方法得到潜在靶点。
方案3 ETCM2.0,提取中药成分
- # 85.2 /home/dddc/zzy/project/hsbd/tp/1203
- # 思路为根据 之前提取的smiles,直接grep 含有靶标信息的数据,收集潜在的靶标信息
- # 85.3 /home/yqyang/zzy/hsbd/np/get-hsbd-mols-targets
- dos2unix *
- # 提取确证的靶点
- for i in
`cat 2049mol-tcmid.txt`
; do grep -w "$i" ../data/etcm-mols-smi-targets-fyl.csv | awk -F ',' '$3!=""{print $3}' >> hsbd-2049-targets-sure.txt;done - # vi :1,$s/||/\r/g 将“||”替换为 换行符
- (base) [yqyang@localhost get-hsbd-mols-targets]$ awk -F '(' '{print $1}' hsbd-2049-targets-sure.txt|sort|uniq|wc -l
- 291
- # 这是2049个成分对应的291个确证的靶点,有点多
- # 尝试了D3Sim 晒出来的25个,又太少了,这个估计要去 TCMSP 里进行补充
- # /home/yqyang/zzy/hsbd/np/get-hsbd-mols-targets/d3sim-25
- for i in
`cat 25mol.txt`
; do grep -w "$i" ../../data/etcm-mols-smi-targets-fyl.csv | awk -F ',' '$3!=""{print $3}' >> d3sim-25mol-targets-sure.txt;done - # vi :1,$s/||/\r/g 将“||”替换为 换行符
- (base) [yqyang@localhost d3sim-25]$ awk -F '(' '{print $1}' d3sim-25mol-targets-sure.txt|sort|uniq|wc -l
- 6
- # 这是2049个成分对应的291个确证的靶点,有点多
- # /home/yqyang/zzy/hsbd/np/get-hsbd-mols-targets/d3sim-25
- for i in
`cat d3ai902mol-smi.txt`
; do grep -w "$i" ../../data/etcm-mols-smi-targets-fyl.csv | awk -F ',' '$3!=""{print $3}' >> d3ai-902mol-targets-sure.txt;done - # vi :1,$s/||/\r/g 将“||”替换为 换行符
- (base) [yqyang@localhost d3ai-902]$ awk -F '(' '{print $1}' d3ai-902mol-targets-sure.txt|sort|uniq > d3ai902mol-156targets
- while read -r i; do grep "$i," ../../data/etcm-targets-yls.csv|awk -F ',' '{print $2}'>> d3ai-902mol-id; done < d3ai902mol-156targets