DrugBank数据库简介

DrugBank数据库是唯一将详细的药品数据(即化学,药理学和制药)与综合药物靶点信息(即序列,结构和作用通路)相结合的“生物信息学和化学信息学”资源.DrugBank由加拿大卫生研究院,亚伯达省创新 - 健康解决方案和代谢组学创新中心(TMIC)提供支持,该中心是国家资助的研究以及支持广泛的尖端技术代谢组学研究的核心.DrugBank数据库查询包含以下信息:药品类型,药品简介,化学结构,药品成分,临床试验,药物靶点,酶,转运体,载体,药品图片,批准情况,批准的处方药,国外上市商品名,药物相互作用,制造商,包装商等。

DrugBank数据库功能

开发DrugBank数据库旨在缩小临床药品资源和化学药品数据库之间“深度与广度”的差距.DrugBank于2006年年首次发布,作为全面并完全可搜索的计算机药物资源,将药物分子(包括生物技术药物)的序列,结构和机制数据与其药物靶点的序列,结构和机制数据连接。作为临床导向的药品百科全书,DrugBank能够提供关于药品,药品靶点和药物作用的生物或生理结果的详细,最新,定量分析或分子量的信息。作为化学导向的药品数据库,DrugBank能够提供许多内置的工具,用于查看,排序,搜索和提取文本,图像,序列或结构数据。自数据库首次发布信息起,DrugBank已被广泛应用于计算机检索药物,药物“复原”,计算机检索药物结构数据,药物对接或筛选,药物代谢预测,药物靶点预测和一般制药教育。

DrugBank数据库小分子信息的解析,药物结构提取:

  • 下载XML文件

https://www.drugbank.ca/releases/latest

  • 基于Python3从含有药物信息的XML文件解析数据

# In[1]:
#!/usr/bin/python3import untangle
import pandas as pd
import numpy as np
import os# In[2]:filename="drugbank_all_full_database.xml"
obj=untangle.parse(filename)# In[3]:
#Building dataframe of chemical descriptors
#Data Frame of DrugBank Small Molecule Type Drugs
df_drugbank_sm=pd.DataFrame(columns=["drugbank_id","name","cas","smiles","logP ALOGPS", "logP ChemAxon", "solubility ALOGPS", "pKa (strongest acidic)", "pKa (strongest basic)"])
df_drugbank_sm# In[4]:i=-1
#iterate over drug entries to extract information
for drug in obj.drugbank.drug:drug_type= str(drug["type"])# select for small molecule drugsif drug_type in ["small molecule", "Small Molecule", "Small molecule"]:i=i+1    #Get drugbank_idfor id in drug.drugbank_id:if str(id["primary"])=="true":df_drugbank_sm.loc[i, "drugbank_id"]=id.cdata#Drug namedf_drugbank_sm.loc[i,"name"]=drug.name.cdata#Drug CASdf_drugbank_sm.loc[i, "cas"]=drug.cas_number.cdata#Get SMILES, logP, Solubility#Skip drugs with no structure. ("DB00386","DB00407","DB00702","DB00785","DB00840",#                                            "DB00893","DB00930","DB00965", "DB01109","DB01266",#                                           "DB01323", "DB01341"...)if len(drug.calculated_properties.cdata)==0: #If there is no calculated propertiescontinueelse:for property in drug.calculated_properties.property:if property.kind.cdata == "SMILES":df_drugbank_sm.loc[i, "smiles"]=property.value.cdataif property.kind.cdata == "logP":if property.source.cdata == "ALOGPS":df_drugbank_sm.loc[i, "logP ALOGPS"]=property.value.cdataif property.source.cdata == "ChemAxon":df_drugbank_sm.loc[i, "logP ChemAxon"]=property.value.cdataif property.kind.cdata == "Water Solubility":df_drugbank_sm.loc[i, "solubility ALOGPS"]=property.value.cdataif property.kind.cdata == "pKa (strongest acidic)":df_drugbank_sm.loc[i, "pKa (strongest acidic)"]=property.value.cdataif property.kind.cdata == "pKa (strongest basic)":df_drugbank_sm.loc[i, "pKa (strongest basic)"]=property.value.cdata# In[5]:
df_drugbank_sm.head(10)# In[6]:print (df_drugbank_sm.shape)# In[7]:#Drop drugs without SMILES from the dataframe
df_drugbank_smiles = df_drugbank_sm.dropna()
df_drugbank_smiles= df_drugbank_smiles.reset_index(drop=True)
print(df_drugbank_smiles.shape)# In[8]:df_drugbank_smiles.head()# In[9]:#write to csv
df_drugbank_smiles.to_csv("drugbank_smiles.csv", encoding='utf-8',index=False)

效果展示:

如果想获得药物的分子结构,只需要通过简单的代码从CSV文件中提取微笑格式,并转化为结构。


DrugAI

DrugBank:小分子数据信息挖掘相关推荐

  1. 互联网舆情数据信息挖掘分析的方法

    互联网时代,信息数据海量化,要想从浩瀚的网络舆情数据中挖掘出极具价值的信息是个难题.那么,到底舆情数据挖掘分析怎么做?怎样对网络舆情数据进行挖掘分析?接下来,蚁坊软件就针对此难题来进行解答. 关于互联 ...

  2. 基于Pubmed数据库的蛋白质修饰后的信息挖掘.完整代码+数据 毕业设计

    完整代码: https://download.csdn.net/download/weixin_55771290/87944120 摘 要 如今Pubmed文献检索系统上发表的医学文献的数量十分庞大, ...

  3. 虚拟筛选涉及的小分子数据库

    药物设计和虚拟筛选依赖化学信息学和生物信息学中大量的靶点.小分子以及靶点-小分子相互作用星系.从大量的有机化合物中有效地遴选出可能有候选化合物,避免了对化合物盲目地活性筛选,从而降低了发现活性先导化合 ...

  4. 2018-3-12论文(非结构化网络中有价值信息数据挖掘研究)笔记一总体思路以及三种目前进行价值信息挖掘的研究思想

    文章主要的内容: 提出了基于关联规则的非结构化网路中有价值信息数据挖掘的方法 总体的思想: (1)利用特征提取的方法进行初步的分类与识别,提取出不同文本类型的特征, (2)利用关联规则方法计算各个类型 ...

  5. 智源抗疫 - 药物研发小分子性质预测赛

    人类与新型冠状病毒所引发的疫情(COVID-19)已战斗多日,针对病症是否有相应的特效药物也成为了公众关心的重点.同时,我们知道,药物研发过程是极为浩大.严谨的科学研究,例如目前正处于临床验证阶段的瑞 ...

  6. 10万元奖金助力AI加速药物研发!小分子预测大赛来啦

    人类与新型冠状病毒所引发的疫情(COVID-19)已战斗多日,针对病症是否有相应的特效药物也成为了公众关心的重点.同时,我们知道,药物研发过程是极为浩大,严谨的科学研究,例如目前正处于临床验证阶段的瑞 ...

  7. 企业电力征信大数据价值挖掘与应用

    点击上方蓝字关注我们 企业电力征信大数据价值挖掘与应用 辛保江, 李德文, 王兰兰 国网山东省电力公司潍坊供电公司,山东 潍坊 261000 摘要:针对传统电力征信平台稳定性不足.测试准确性低等缺点, ...

  8. 2022 上半年 FDA 小分子药物盘点 - MedChemExpres

    2022 上半年,FDA 批准上市小分子药物汇总. 表 1:FDA 上半年批准小分子 Daridorexant(Quviviq™) Daridorexant (Quviviq™) 于 2022 年 1 ...

  9. 2022 上半年 FDA 小分子药物盘点 - MedChemExpress

    表 1:FDA 上半年批准小分子 Daridorexant (Quviviq™) Daridorexant (Quviviq™) 于 2022 年 1 月 7 日正式被 FDA 批准,用于以睡眠开始和 ...

最新文章

  1. psql:FATAL:数据库“user”不存在
  2. UA SIE545 优化理论基础1 凸分析2 仿射组合与仿射包
  3. PHP5加载|安装外部C动态库
  4. Java容器有哪些?
  5. 廖雪峰介绍Node.js
  6. Android APK反编译详解
  7. 一个帅气的车牌输入插件
  8. android 官方增量更新,Android 如何实现增量更新
  9. 自学C语言 零基础 最详细 最全面 最有趣 只有沉的下心的人才觉得好(有每更彩蛋呦~)
  10. Touch 电容式触摸按键 触摸按键PCB设计参考
  11. 微铺子点单系统具体介绍 - 争做国内最专业的微信商店平台,微信外卖订餐系统!...
  12. 按季度求和或平均值等例子
  13. InfoPath2007中通过MOSS的webservice读取数据库时需注意的事项
  14. vue-seamless-scroll大屏抽奖滚动动画实例
  15. ThreadPoolExecutor(三)——Worker
  16. Tensorflow2.0 实现 YOLOv3(二):网络结构(common.py + backbone.py)
  17. java-初始化数组
  18. 将GIF转成视频MP4、MOV
  19. ios研发Mini LED技术 iPad/MacBook尺寸将更大
  20. 云米AI洗碗机Iron A1 AI消毒除菌版上手体验

热门文章

  1. MyBatis常见面试题汇总
  2. SpringBoot之错误处理机制
  3. git push origin与git push -u origin master的区别
  4. 亿级流量治理系列:常用的限流算法有哪些?
  5. 一文带你玩转设计模式之「责任链」
  6. 程序员也需要工匠精神
  7. 管理者和领导者有哪些区别?
  8. 做项目时如何快速提高团队协作能力?
  9. 在leangoo里怎么复制列表,删除列表,插入列表?
  10. 百度map-api-视图