12.3 网药

PPI

D3Targets 里的靶点太少了。
从逻辑上来说,最好是 把化湿败毒方中的成分一起输入D3Targets三个板块,把预测得到的靶点取并集/交集。
目前的预测结果显示,D3AI能预测20个蛋白,但是很多都不是新冠的,是同家族其他蛋白的。D3Similarity 只能预测出来5个蛋白是潜在靶点。
解决方案1是进行数据库扩容,这个工作量略大。
解决方案2是 看看别人的网药是怎么做的,用什么方法得到潜在靶点。
方案3 ETCM2.0,提取中药成分
  • # 85.2 /home/dddc/zzy/project/hsbd/tp/1203
  • # 思路为根据 之前提取的smiles,直接grep 含有靶标信息的数据,收集潜在的靶标信息
  • # 85.3 /home/yqyang/zzy/hsbd/np/get-hsbd-mols-targets
  • dos2unix *
  • # 提取确证的靶点
  • for i in `cat 2049mol-tcmid.txt`; do grep -w "$i" ../data/etcm-mols-smi-targets-fyl.csv | awk -F ',' '$3!=""{print $3}' >> hsbd-2049-targets-sure.txt;done
  • # vi :1,$s/||/\r/g 将“||”替换为 换行符
  • (base) [yqyang@localhost get-hsbd-mols-targets]$ awk -F '(' '{print $1}' hsbd-2049-targets-sure.txt|sort|uniq|wc -l
  • 291
  • # 这是2049个成分对应的291个确证的靶点,有点多

  • # 尝试了D3Sim 晒出来的25个,又太少了,这个估计要去 TCMSP 里进行补充
  • # /home/yqyang/zzy/hsbd/np/get-hsbd-mols-targets/d3sim-25
  • for i in `cat 25mol.txt`; do grep -w "$i" ../../data/etcm-mols-smi-targets-fyl.csv | awk -F ',' '$3!=""{print $3}' >> d3sim-25mol-targets-sure.txt;done
  • # vi :1,$s/||/\r/g 将“||”替换为 换行符
  • (base) [yqyang@localhost d3sim-25]$ awk -F '(' '{print $1}' d3sim-25mol-targets-sure.txt|sort|uniq|wc -l
  • 6


  • # 这是2049个成分对应的291个确证的靶点,有点多
  • # /home/yqyang/zzy/hsbd/np/get-hsbd-mols-targets/d3sim-25
  • for i in `cat d3ai902mol-smi.txt`; do grep -w "$i" ../../data/etcm-mols-smi-targets-fyl.csv | awk -F ',' '$3!=""{print $3}' >> d3ai-902mol-targets-sure.txt;done
  • # vi :1,$s/||/\r/g 将“||”替换为 换行符
  • (base) [yqyang@localhost d3ai-902]$ awk -F '(' '{print $1}' d3ai-902mol-targets-sure.txt|sort|uniq > d3ai902mol-156targets

  • while read -r i; do   grep "$i," ../../data/etcm-targets-yls.csv|awk -F ',' '{print $2}'>> d3ai-902mol-id; done < d3ai902mol-156targets