3.10 MoleculeNet

DeepChem库与MoleculeNet整套数据集。机器学习的很重要的一部分是找到合适的数据集。MoleculeNet套件是手工的整套范围的数据集,加载到DeepChem的dc.data.Dataset对象以便使用。

3.10.1为MoleculeNet贡献新的数据集

如果你要提交新的数据集MoleculeNet标杆套件,请按如下指令:

0.阅读Contribution guidelines.

1.打开一个主题来讨论你要添加到MolNet的数据集。

2.按照deepchem.molnet.load_function.load_dataset_template实施一个deepchem.molnet.load_function模块函数。指定你的数据集支持哪种特征化器,转换器,分割器(从deepchem.molnet.defaults获得)。

3.添加你的加载函数到deepchem.molnet.__init__.py以便导入。

4.准备你的数据集的压缩文件,如.tar.gz或.zip文件。可接受的文件类型包括CSV, JSON和SDF。

5.请求技术驱动委员会成员添加你的.tar.gz或.zip文件到DeepChem AWS库。修改你的加载函数以从AWS获取数据集。

6.按照PR template提交[WIP] PR(获取请求过程使用的)。

3.10.2 BACE Dataset

load_bace_classification(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP',

splitter: Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold',

transformers: List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator,

str]] = ['balancing'], reload: bool = True, data_dir: Optional[str] =

None, save_dir: Optional[str] = None, **kwargs)→Tuple[List[str], Tuple[

deepchem.data.datasets.Dataset, . . . ], List[transformers.Transformer]]

加载BACE数据集,分类标签。

带有分类标签的BACE dataset。

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

load_bace_regression(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:

Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator,

str]] = ['normalization'], reload: bool = True, data_dir: Optional[str]

= None, save_dir: Optional[str] = None, **kwargs) → Tuple[List[str],

Tuple[deepchem.data.datasets.Dataset, . . . ], List[transformers.Transformer]]

加载BACE数据集,回归标签。

BACE数据集为BACE-1抑制剂提供量化的IC50和定性(二值)的结合结果。

所有的数据是过去几十年科学文献的数据值,可些有详细的晶体结构。一共提供了1522个化合物,以及IC50的回归标签。本数据集推荐使用分割构件。

原始数据CSV文件包含如下列:

“mol” – 分子结构的SMILES表示

“pIC50” - IC50亲和力的负对数

“class” – 抑制剂的二值标签

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

3.10.3BBBC数据集

load_bbbc001(splitter: Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'index', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]] =

[], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[str]

= None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset, . . . ],

List[transformers.Transformer]]

加载BBBC001数据集。

该数据集包括6个human HT29 colon cancer cells图像。该任务是学习计算这些图像中的细胞数。这些数据集对于训练算法有点小,但可以作为很好的测试数据集。

参数

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

load_bbbc002(splitter: Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'index', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]] =

[], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[str]

= None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset, . . . ],

List[transformers.Transformer]]

加载BBBC002数据集。

该数据集包含有5个Drosophilia Kc167 cells样本相应数据的数据集。每个样品有10个字段,每个图像大小为512*512。真实的标签包含这个数据集的细胞数。该数据集的全部细节见https://data.broadinstitute.org/bbbc/BBBC002/。

参数

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

3.10.4 BBBP Datasets

BBBP是Blood-Brain-Barrier Penetration的缩写。

load_bbbp(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:

Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]] =

['balancing'], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[

str] = None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset,

. . . ], List[transformers.Transformer]]

加载BBBP数据集。

blood-brain barrier penetration (BBBP)数据集为屏障渗透性建模和预测而设计。

由于膜将循环血液和脑的细胞间液分离,血脑屏障阻碍了大部分药物,激素,神经递质。因此透过该屏障是开发中枢神经系统药物的长期关注点。

该数据集包括2000个化合物的渗透性的二值标签。

该数据集推荐使用Scaffold分割。

原始的CSV文件包括如下列:

“name” – 化合物名称

“smiles” – 分子结构的SMILES表示

“p_np” – 渗透/非-渗透的二值表示

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

3.10.5 Cell Counting Datasets

load_cell_counting(splitter: Optional[Union[deepchem.splits.splitters.Splitter, str]] = None, transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator,

str]] = [], reload: bool = True, data_dir: Optional[str] = None,

save_dir: Optional[str] = None, **kwargs) → Tuple[List[str], Tuple[

deepchem.data.datasets.Dataset, . . . ], List[transformers.Transformer]]

自http://www.robots.ox.ac.uk/~vgg/research/counting/index_org.html.加载细胞计数数据集。

参数

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

3.10.6 Chembl Datasets

load_chembl(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:

Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]]

= ['normalization'], set: str = '5thresh', reload: bool = True, data_dir: Optional[

str] = None, save_dir: Optional[str] = None, **kwargs) → Tuple[List[str],

Tuple[deepchem.data.datasets.Dataset, . . . ], List[transformers.Transformer]]

加载Chembl Datasets。

该数据集基于https://www.ebi.ac.uk/chembl/的22.1版本。有两个子集可供使用,通过set参数设置。“sparse"是一个244245个化合物的大型数据集。如名称所示,数据非常稀疏,大部分化合物只有一个靶点的活性数据。”5thresh"是非常小的数据集(有23871个化合物)包括最少5个靶点活性的数据。

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

3.10.7 Chembl25 Datasets

load_chembl25(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:

Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]] =

['normalization'], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[

str] = None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset,

. . . ], List[transformers.Transformer]]

加载Chembl25数据集,进行特征化,进行分割。

3.10.8 Clearance Datasets

load_clearance(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:

Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]]

= ['normalization'], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[

str] = None, **kwargs)→Tuple[List[str], Tuple[deepchem.data.datasets.Dataset,

. . . ], List[transformers.Transformer]]

加载Clearance数据集

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

3.10.9 Clintox Datasets

load_clintox(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:

Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]]

= ['balancing'], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[

str] = None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset,

. . . ], List[transformers.Transformer]]

加载Clintox数据集

Clintox数据集比较FDA批准的和临床失败的药物的毒性。

该数据集为1491个已知结构的化合物完成两个分类任务:

1.临床试验的互性(或没有毒性)

2.FDA批准状态

FDA批准的药物编译自SWEETLEAD数据库,因为毒性原因导致临床失败的药物编译自Aggregate Analysis of ClinicalTrials.gov(AACT)数据库。

该数据集推荐使用随机分割器。

原始的CSV文件包括如下列:

“smiles” – 分子结构的SMILES表示

“FDA_APPROVED” – FDA批准状态

“CT_TOX” – 临床试验结果

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

3.10.10 Delaney Datasets

load_delaney(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:

Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]] =

['normalization'], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[

str] = None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset,

. . . ], List[transformers.Transformer]]

加载Delaney数据集

Delaney (ESOL)数据集是包含有1128个化合物的结构和水溶性数据的回归数据集。该数据集用于训练从分子结构(SMILES编码)预测溶解度的机器学习模型。

该数据集推荐使用Scaffold分割。

原始的CSV文件包括

“Compound ID” – 化合物名称

“smiles” – 分子结构的SMILES表示

“measured log solubility in mols per litre” – 合物物的对数水溶解度,用作标签。

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

3.10.11 Factors Datasets

load_factors(shard_size=2000, featurizer=None, split=None, reload=True)

加载FACTOR数据集,不进行训练/测试集分割。

FACTOR是Merck公司内部数据集,最初由以下论文介绍:

Ramsundar,

Bharath, et al. “Is multitask deep learning practical for pharma?.” Journal of chemical information and

modeling 57.8 (2017): 2068-2076.

它包括1500个Merck内部化合物抑制12 serine proteases的IC50数据。

不像MoleculeNet特征化的别的数据集,Factors数据集没有化合物结构,因为它们是Merck专利化合物。然而这些化合物有预算的描述子作为数据集的特征。

注意,分割自源数据的原始的训练/验证/测试集是保留的,因此该函数不允许改变分割模式。相似的,因为源数据是预特征化的,不可能使用别的特征化方法。

参数

shard_size (int, optional) – DiskDataset写磁盘的碎片大小

featurizer (optional) – 忽略因为featurization是预计算的

split (optional) – 忽略因为分割是预计算的。

reload (bool, optional) – 是否自动从磁盘重载

3.10.12 HIV Datasets

load_hiv(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:

Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]] =

['balancing'], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[

str] = None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset,

. . . ], List[transformers.Transformer]]

加载HIV数据集

HIV数据集由Drug Therapeutics Program (DTP) AIDS Antiviral Screen介绍,它测试了40000个化合物抑制HIV复制的能力。对筛选结果进行评估并分为3类:无活性(CI),有活性(CA),中等活性(CM)。我们进一步组合后两个标签,分为非活性(CI)和活性(CA和CM)。

该数据集推荐使用Scaffold分割器。

原始的CSV文件包括如下列:

? “smiles”: 分子结构的SMILES表示

? “activity”: 筛选结果的三类标签: CI/CM/CA

? “HIV_active”: 筛选结查的二值标签: 1 (CA/CM) and 0 (CI)

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

3.10.13 HOPV Datasets

HOPV是Harvard Organic Photovoltaic Dataset的缩写

load_hopv(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:

Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]] =

['normalization'], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[

str] = None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset, . . . ],

List[transformers.Transformer]]

加载HOPV数据集,不进行训练和测试集分割。

HOPV数据集包含 “Harvard Organic Photovoltaic Dataset“。该数据集包括350个小分子和聚合物,作为OPVs的p-型材料。实验特征包括:HOMO[a.u.],LUMO[a.u],

Electrochemical gap [a.u.], Optical gap [a.u.],能量转换效率[%],开放电路势[V],短路电流密度[mA/cm^2],填充因子。原始数据集的理论计算已移除。

Lopez, Steven A., et al. “The Harvard organic photovoltaic dataset.” Scientific data 3.1 (2016): 1-7.

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

3.10.14 HPPB Datasets

load_hppb(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:

Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]]

= [], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[str]

= None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset, . . . ],

List[transformers.Transformer]]

加载热动学溶解度数据。

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

3.10.15 KAGGLE Datasets

load_kaggle(shard_size=2000, featurizer=None, split=None, reload=True)

加载kaggle数据集,如果没有则产生。

kaggle数据集是Merck公司内部数据集,首次由以下论文介绍:

Ma, Junshui, et al. “Deep neural nets as a method for quantitative structure–activity relationships.” Journal of

chemical information and modeling 55.2 (2015): 263-274.

它是包含Merck公司内部100000个化合物抑制15种酶以及ADME/TOX数据的数据集。不像MoleculeNet的其它数据集,kaggle数据集不包含化学物结构,因为化合物专利原因。然而数据集中有预算的特征描述子。

自源数据的原始训练/测试/验证集分割是保留的。该函数不允许更改分割。相似的,由于源数据是预特征化的,不可能改变特征化方法。

参数

shard_size (int, optional) –写入磁盘的DiskDataset碎片大小

featurizer (optional) – 忽略因为特征化是预计算的

split (optional) – 忽略因为分割是预计算的

reload (bool, optional) – 是否自动从磁盘重载

3.10.16 Kinase Datasets

load_kinase(shard_size=2000, featurizer=None, split=None, reload=True)

加载Kinase数据集,不进行训练集和测试集分割。

Kinase数据集是Merck公司内部数据集,首次介绍于如下论文:

Ramsundar,

Bharath, et al. “Is multitask deep learning practical for pharma?.” Journal of chemical information and

modeling 57.8 (2017): 2068-2076.

它包含了2500个Merck内部化合物,测试它们对99种 protein kinases抑制的IC50数据。

不像MoleculeNet的其它数据集,kinases数据集不包含化学物结构,因为化合物专利原因。然而数据集中有预算的特征描述子。

自源数据的原始训练/测试/验证集分割是保留的。该函数不允许更改分割。相似的,由于源数据是预特征化的,不可能改变特征化方法。

参数

shard_size (int, optional) –写入磁盘的DiskDataset碎片大小

featurizer (optional) – 忽略因为特征化是预计算的

split (optional) – 忽略因为分割是预计算的

reload (bool, optional) – 是否自动从磁盘重载

3.10.17 Lipo Datasets

load_lipo(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:

Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]] =

['normalization'], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[

str] = None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset, . . . ],

List[transformers.Transformer]]

加载Lipophilicity数据集

亲脂性是药物分子的重要特征,它影响膜透过性和溶解度。Lipophilicity数据集,手工操作自ChEMBL数据库,提供了4200个化合物的octanol/water分配系数实验结果,

(pH 7.4时的logD值)。

数据集推荐使用Scaffold分割。

原始的CSV文件包括如下列:

“smiles” – 表示分子结构的SMILES

“exp” – 测得的化合物的 octanol/water 分配系统 (logD), 用作标签

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

3.10.18 Materials Datasets

Materials数据集包括无机晶体结构,化学成分和靶特性如formation energies and band gaps。

材料科学的机器学习问题包括预测连续值,分类特性,基于化学成分或晶体结构。“Inverse design”也是很大的关注,机器学习方法产生具有期望的晶体结构。机器学习在材料学科的用应包括:发现新的和修改

phenomenological模型,它描述物料行为。

load_bandgap(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = ElementPropertyFingerprint[

data_source='matminer'], splitter: Optional[

Union[deepchem.splits.splitters.Splitter, str]] = 'random', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]] =

['normalization'], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[

str] = None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset,

. . . ], List[transformers.Transformer]]

加载band gap数据集。

包括4604个无机晶体结构的band gaps实验数据。对于标杆研究,随机森林模型获得的平均误差为0.45 eV,使用该数据集的5倍交互验证。

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

返回

tasks, datasets, transformers –

tasks [list] 对应机器学习的目标变量的列名。

datasets [tuple] 数据的训练集、验证集、测试集作为 deepchem.data.datasets.Dataset 实例。

transformers [list] deepchem.trans.transformers.Transformer 实例应用数据集。

返回类型tuple

>>>

>> import deepchem as dc

>> tasks, datasets, transformers = dc.molnet.load_bandgap()

>> train_dataset, val_dataset, test_dataset = datasets

>> n_tasks = len(tasks)

>> n_features = train_dataset.get_data_shape()[0]

>> model = dc.models.MultitaskRegressor(n_tasks, n_features)

load_perovskite(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] =

SineCoulombMatrix[max_atoms=100, flatten=True], splitter: Optional[

Union[deepchem.splits.splitters.Splitter, str]] = 'random', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator,

str]] = ['normalization'], reload: bool = True, data_dir: Optional[str] =

None, save_dir: Optional[str] = None, **kwargs) → Tuple[List[str], Tuple[

deepchem.data.datasets.Dataset, . . . ], List[transformers.Transformer]]

加载perovskite数据集

包括18928个perovskite结构和它们的energies。在标杆研究中,随机森林模型和晶体图神经网络获得平均误差为0.23 and 0.05 eV/atom,使用该数据集的5们交互验证。

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

返回

tasks, datasets, transformers –

tasks [list] 对应机器学习的目标变量的列名。

datasets [tuple] 数据的训练集、验证集、测试集作为 deepchem.data.datasets.Dataset 实例。

transformers [list] deepchem.trans.transformers.Transformer 实例应用数据集。

返回类型tuple

例子

>>>

>> import deepchem as dc

>> tasks, datasets, transformers = dc.molnet.load_perovskite()

>> train_dataset, val_dataset, test_dataset = datasets

>> n_tasks = len(tasks)

>> n_features = train_dataset.get_data_shape()[0]

>> model = dc.models.MultitaskRegressor(n_tasks, n_features)

load_mp_formation_energy(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] =

SineCoulombMatrix[max_atoms=100, flatten=True], splitter: Optional[

Union[deepchem.splits.splitters.Splitter, str]] = 'random', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator,

str]] = ['normalization'], reload: bool = True, data_dir: Optional[str] =

None, save_dir: Optional[str] = None, **kwargs)→Tuple[List[str], Tuple[

deepchem.data.datasets.Dataset, . . . ], List[transformers.Transformer]]

加载mp formation energy数据集

包含132752个计算的formation energies和无机晶体结构,来自于Materials Project数据库。在标杆研究中,随机森林模型获得平均误差0.116 eV/atom,使用这个数据集的5们交互验证。

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

返回

tasks, datasets, transformers –

tasks [list] 对应机器学习的目标变量的列名。

datasets [tuple] 数据的训练集、验证集、测试集作为 deepchem.data.datasets.Dataset 实例。

transformers [list] deepchem.trans.transformers.Transformer 实例应用数据集。

返回类型tuple

示例

>>>

>> import deepchem as dc

>> tasks, datasets, transformers = dc.molnet.load_mp_formation_energy()

>> train_dataset, val_dataset, test_dataset = datasets

>> n_tasks = len(tasks)

>> n_features = train_dataset.get_data_shape()[0]

>> model = dc.models.MultitaskRegressor(n_tasks, n_features)

load_mp_metallicity(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] =

SineCoulombMatrix[max_atoms=100, flatten=True], splitter: Optional[

Union[deepchem.splits.splitters.Splitter, str]] = 'random', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator,

str]] = ['balancing'], reload: bool = True, data_dir: Optional[str] =

None, save_dir: Optional[str] = None, **kwargs) → Tuple[List[str], Tuple[

deepchem.data.datasets.Dataset, . . . ], List[transformers.Transformer]]

加载mp formation energy数据

包括来自Materials Project数据库的106113个无机晶体结构,标记为材料或非材料。

在标杆研究中,随机森林模型获得的ROC-AUC为0.9,使用该数据集的5们交叉验证。

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

返回

tasks, datasets, transformers –

tasks [list] 对应机器学习的目标变量的列名。

datasets [tuple] 数据的训练集、验证集、测试集作为 deepchem.data.datasets.Dataset 实例。

transformers [list] deepchem.trans.transformers.Transformer 实例应用数据集。

返回类型tuple

>>>

>> import deepchem as dc

>> tasks, datasets, transformers = dc.molnet.load_mp_metallicity()

>> train_dataset, val_dataset, test_dataset = datasets

>> n_tasks = len(tasks)

>> n_features = train_dataset.get_data_shape()[0]

>> model = dc.models.MultitaskRegressor(n_tasks, n_features)

3.10.19 MUV Datasets

load_muv(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:

Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]] =

['balancing'], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[

str] = None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset,

. . . ], List[transformers.Transformer]]

加载MUV数据集

Maximum Unbiased Validation (MUV) group是选自PubChem BioAssay的标杆数据集,使用提炼的最近邻分析。

MUV数据集包括17个挑战任务,约9万个化合物,它用来验证虚拟筛选技术。

原始的CSV文件包括如下列:

“mol_id” – 化合物的PubChem CID

“smiles” – 分子结构的SMILES表示

“MUV-XXX” – 生物活性测定结果 (活性/非活性)

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

load_nci(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:

Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'random', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]] =

['normalization'], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[

str] = None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset, . . . ],

List[transformers.Transformer]]

Load NCI dataset.

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

3.10.21 PCBA Datasets

load_pcba(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:

Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]] =

['balancing'], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[

str] = None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset,

. . . ], List[transformers.Transformer]]

加载PCBA数据集

PubChem BioAssay (PCBA)是一个包括高通量筛选得到的小分子生物活性的数据库。我们使用PCBA的子集,包括40万个化合物128个生物活性测定数据。使用前面的机器学习方法。

推荐使用随机分割器

原始的CSV文件包括如下列:

“mol_id” –化合物的 PubChem CID

“smiles” – 分子结构的SMILES表示

“PCBA-XXX” – 测得的生物活性 (活性/非活性): 具体在https://

pubchem.ncbi.nlm.nih.gov/search/#collection=bioassays查找测定ID

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

3.10.22 PDBBIND Datasets

load_pdbbind(featurizer: deepchem.feat.base_classes.ComplexFeaturizer, splitter: Optional[

Union[deepchem.splits.splitters.Splitter, str]] = 'random', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]]

= ['normalization'], reload: bool = True, data_dir: Optional[str] = None, save_dir:

Optional[str] = None, set_name: str = 'refined', **kwargs) → Tuple[List[str], Tuple[

deepchem.data.datasets.Dataset, . . . ], List[transformers.Transformer]]

加载PDBBind数据集

PDBBind数据集包括实验的结合亲和力数据和4852个蛋白-配体复合物的结构数据,来自“refined set”以及来自“general set” 的12800个复合物,PDBBind v2019。提炼的数据集移除了3D结构有明显问题的数据,结合数据,其它方面,对于

docking/scoring研究是更好的起点。通用集不包括提炼集。

数据集使用随机分割器

原始数据集包括如下列:

“ligand” – 分子结构的SDF

“protein” – 蛋白质结构的PDB

“CT_TOX” – 临床试验结果

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

set_name (str (default 'refined')) – 下载的数据集名。 支持‘refined’和‘general’。

返回

tasks, datasets, transformers –

tasks [list] 对应机器学习的目标变量的列名。

datasets [tuple] 数据的训练集、验证集、测试集作为 deepchem.data.datasets.Dataset 实例。

transformers [list] deepchem.trans.transformers.Transformer 实例应用数据集。

返回类型tuple

3.10.23 PPB Datasets

load_ppb(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:

Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]] =

['normalization'], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[

str] = None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset, . . . ],

List[transformers.Transformer]]

加载PPB数据集

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

3.10.24 QM7 Datasets

load_qm7(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = CoulombMatrix[max_atoms=23,

remove_hydrogens=False, randomize=False, upper_tri=False, n_samples=1, seed=None],

splitter: Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'random', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]] = ['normalization'],

reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[

str] = None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset, . . . ],

List[transformers.Transformer]]

加载QM7数据集

QM7数据集是GDB-13(包含1 billion个稳定的和可获得的有机化合物分子的数据库)的子集,含有7个以上的重原子C,N,O和S。大

部分稳定构像的3D坐标,它们的原子化能都用ab-initio密度函数理论得到(PBE0/tier2 basis set)。这个数据集提供[Rupp et al. PRL, 2012]Coulomb matrices。

数据集推荐使用分层分割器。

数据文件(.mat格式,对于python用户推荐使用scipy.io.loadmat加载原始数据)包括5个数组:

“X” - (7165 x 23 x 23), Coulomb矩阵

“T” - (7165), 原子化能 (unit: kcal/mol)

“P” - (5 x 1433), 交叉分割用于[Montavon et al. NIPS, 2012]

“Z” - (7165 x 23), 原子电荷

“R” - (7165 x 23 x 3), 分子中每个原子的迪卡尔坐标 (unit: Bohr)

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

注意: DeepChem 2.4.0默认为这个数据集打开清洗。对于QM7数据集,这意味着调用这个函数将返回6838个化合物而不是源数据集中的7160个。这看起来是因为数据集中的价键不匹配,早期的RDKit没发现。注意这可能影响这个数据集的竞赛结果。

3.10.25 QM8 Datasets

load_qm8(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = CoulombMatrix[max_atoms=26,

remove_hydrogens=False, randomize=False, upper_tri=False, n_samples=1, seed=None],

splitter: Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'random', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]] = ['normalization'],

reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[

str] = None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset, . . . ],

List[transformers.Transformer]]

加载QM8数据集

QM8数据集用于研究小分子的电子谱和excited state energy的量子机理计算模型。多个方法,包括时间依懒的密度函数理论(TDDFT)以及二次逼近coupled-cluster (CC2),

应用到分子集合,包括8个重原子(也是GDB-17 数据库的子集)。我们的集合中,有4个excited state properties,由4个不同的方法用2.2万个样本计算。

S0 -> S1 过渡能量 E1 且对应振荡能f1

S0 -> S2 过渡能量 E2 且对应振荡能 f2

E1, E2, f1, f2 是原子单位。 f1, f2 是长度表示,本数据集推荐随机的分割。

源数据包含:

qm8.sdf: 分子结构

qm8.sdf.csv: 分物特征表

– Column 1: 映射到.sdf文件的分子ID (gdb9 index)。

– Columns 2-5: RI-CC2/def2TZVP

– Columns 6-9: LR-TDPBE0/def2SVP

– Columns 10-13: LR-TDPBE0/def2TZVP

– Columns 14-17: LR-TDCAM-B3LYP/def2TZVP

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

3.10.26 QM9 Datasets

load_qm9(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = CoulombMatrix[max_atoms=29,

remove_hydrogens=False, randomize=False, upper_tri=False, n_samples=1, seed=None],

splitter: Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'random', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]] = ['normalization'],

reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[

str] = None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset, . . . ],

List[transformers.Transformer]]

加载QM9数据集

QM9是一个大型数据集提供了几何,能量,电子,热动学理论,GDB-17 数据库的子集,包括13.4万个稳定含9个重原子的有机分子。所有的分子用密度函数理论(B3LYP/6-31G(2df,p) based DFT)建模。

推荐使用随机分割器。

源数据包含:

qm9.sdf: 分子结构

qm9.sdf.csv: 分子特征表

– “mol_id” – 映射到.sdf 文件的分子ID (gdb9 index)

– “A” – 旋转常数 (unit: GHz)

– “B” – 旋转常数 (unit: GHz)

– “C” – 旋转常数 (unit: GHz)

– “mu” – Dipole矩 (unit: D)

– “alpha” –一各向同性极化率 (unit: Bohr^3)

– “homo” – 最高的占有分子轨道能(unit: Hartree)

– “lumo” – 最低的非占有分子轨道能 (unit: Hartree)

– “gap” – HOMO和LUMO差距 (unit: Hartree)

– “r2” – 电子空间范围 (unit: Bohr^2)

– “zpve”– 零点振动能 (unit: Hartree)

– “u0” - 0K内部能 (unit: Hartree)

– “u298” - 298.15K内部能 (unit: Hartree)

– “h298” - 298.15K焓变 (unit: Hartree)

– “g298” - 298.15K自由能 (unit: Hartree)

– “cv” - 298.15K热容 (unit: cal/(mol*K))

– “u0_atom” - 0K原子化能 (unit: kcal/mol)

– “u298_atom” - 298.15K原子化能 (unit: kcal/mol)

– “h298_atom” - 298.15K原子化熵变 (unit: kcal/mol)

– “g298_atom” - 298.15K原子化自由能 (unit: kcal/mol)

“u0_atom” ~ “g298_atom” (用于MoleculeNet) 计算自“u0” ~ “g298”

并累加分子中所有原子的参照能, 见 https://figshare.com/articles/Atomref%

3A_Reference_thermochemical_energies_of_H%2C_C%2C_N%2C_O%2C_F_atoms./1057643

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

注意: DeepChem 2.4.0 默认打开这个数据集的清洗.对于QM9数据集,这意味着这个函数将返回132480个化合物而不是源数据集的133885个。这看来是价键不匹配,早期的RDKit没注意到。注意这将影响这个数据集的竞赛结果。

3.10.27 SAMPL Datasets

load_sampl(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:

Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]] =

['normalization'], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[

str] = None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset, . . . ],

List[transformers.Transformer]]

加载SAMPL(FreeSolv)数据集

Free Solvation数据库,FreeSolv(SAMPL),提供了小分子在水中的实验的和计算的氢自由能。该值来自alchemical free energy calculations,使用分子动力学模拟。实验值包括标杆集合。

该数据集推荐使用随机分割器。

原始的CSV文件包括如下列:

“iupac” – 化合物的IUPAC

“smiles” – 分子结构的SMILES表示

“expt” – 测定的化合物的溶解能 (unit: kcal/mol),用作标签

“calc” – 计算的化合物的溶解解能 (unit: kcal/mol)

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

3.10.28 SIDER Datasets

load_sider(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:

Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]]

= ['balancing'], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[

str] = None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset, . . . ],

List[transformers.Transformer]]

加载SIDER数据集

Side Effect Resource (SIDER)是上市药品和不良反应(ADR)数据库。DeepChem中SIDER数据集将不良反应分为27个系统组织类,按照MedDRA分类,测量了1427个上市药品。

该数据集采用随机分割器。

原始的CSV文件包括如下列:

“smiles”: 分子结构的SMILES表示

“Hepatobiliary disorders” ~ “损伤,毒性和程序的复杂: 记录药物的副作用。请见 http://sideeffects.embl.de/se/?page=98 for details on ADRs.

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

3.10.29 Thermosol Datasets

load_thermosol(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:

Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]]

= [], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[str]

= None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset, . . . ],

List[transformers.Transformer]]

加载热动学溶解度数据集。

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

3.10.30 Tox21 Datasets

load_tox21(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:

Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]]

= ['balancing'], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[

str] = None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset, . . . ],

List[transformers.Transformer]]

加载Tox21数据集

“Toxicology in the 21st Century” (Tox21)的目的是公布化合物的毒性数据,曾在2014 Tox21 Data Challenge中使用。该数据集包括8千个化合物对12个不同靶点的毒性的定性数据,包括nuclear receptors and stress response pathways数据。

数据集推荐使用随机分割器。

原始的CSV文件包括如下列:

“smiles” – 分子结构的SMILES表示

“NR-XXX” – 核受体信号表示的活性结果

“SR-XXX” – 强制反应活性结果

详见https://tripod.nih.gov/tox21/challenge/data.jsp

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

3.10.31 Toxcast Datasets

load_toxcast(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:

Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]]

= ['balancing'], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[

str] = None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset,

. . . ], List[transformers.Transformer]]

加载Toxcast数据集

Toxcast是Tox21的扩展,提供了大量化合物的毒理学数据,基于体外的高通量筛选。处理的集合包括8千个化合物的600个定性结果。

数据集推荐使用随机分割器。

原始的CSV文件包括如下列:

“smiles”: 分子结构的SMILES表示

“ACEA_T47D_80hr_Negative” ~ “Tanguay_ZF_120hpf_YSE_up”: 活性结果。请见 “high-throughput assay information”这一节于 https://www.epa.gov/chemical-research/

toxicity-forecaster-toxcasttm-data for details.

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

3.10.32 USPTO Datasets

load_uspto(featurizer='plain', split=None, num_to_load=10000, reload=True, verbose=False,

data_dir=None, save_dir=None, **kwargs)

加载USPTO数据集

到目前,只加载2008-2011反应部分数据子集。详见https://figshare.com/

articles/Chemical_reactions_from_US_patents_1976-Sep2016_/5104873

整个数据集有400K个反应。如果全部数据集特征化,则会出现内存溢出错误。目前,返回数据集的子集。重新加载不完全支持。

3.10.33 UV Datasets

load_uv(shard_size=2000, featurizer=None, split=None, reload=True)

加载UV数据集,不进行训练集和测试集分割。

UV数据集是Merck公司的内部数据集,首先介绍于如下论文:

Ramsundar,

Bharath, et al. “Is multitask deep learning practical for pharma?.” Journal of chemical information and modeling

57.8 (2017): 2068-2076.

UV数据集测试10000个Merck公司内部化合物在210-400NM的190个波长的吸收。不像MoleculeNet其它数据集,UV数据集不包括化合物的结构,因为专利原因。但是数据集有预计算的特征描述子。

注意,原始的训练/验证/测试集分割是保留的,本函数不充许改变分割。相似的,源数据是预特征化的,不能更改特征化方法。

参数

shard_size (int, optional) –写入磁盘的DiskDataset碎片结果

featurizer (optional) – 忽略因为特征化是预计算的

split (optional) – 忽略因为分割是预计算的

reload (bool, optional) – 是否从磁盘自动重载

3.10.34 ZINC15 Datasets

load_zinc15(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'OneHot', splitter:

Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'random', transformers:

List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]]

= ['normalization'], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[

str] = None, dataset_size: str = '250K', dataset_dimension: str = '2D', **kwargs) →

Tuple[List[str], Tuple[deepchem.data.datasets.Dataset, . . . ], List[transformers.Transformer]]

加载Zinc15数据集

ZINC15数据集是超过2.3亿个购买的拟虚拟筛选小分子化合物,其结构可能结合药物靶点。ZINC15数据目前只有2D结构数据(SMILES)。

MolNet提供250K,1M,10M ZINC15类先导化合物子集。也有270M的“goldilocks"化合物子集。ZINC15化合物标记了分子量,LogP(溶解度)值。每个化合物有如何获得的信息(如购买)以及它的活性。类先导化合物的分子量为300-500道,

LogP为-1到3.5。Goldilocks化合物是类先导化合物,LogP值在2-3之间。

如果指定了reload = True and data_dir (save_dir),加载器会试图从磁盘加载原始数据集(特征化数据集)。否则,数据集会从DeepChem AWS库加载。

ZINC15的更详细信息见https://zinc15.docking.org/.

参数

featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。

splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。

transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。

reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。

data_dir (str) – 保存原始数据的目录。

save_dir (str) – 保存数据集的目录。

size (str (default '250K')) –下载数据集的大 。 ‘250K’, ‘1M’, ‘10M’,

和270M’均支持。

format (str (default '2D')) – 下载数据的格式。 2D SMILES字串或3D SDF文件。

返回

tasks, datasets, transformers –

tasks [list] 与机器学习的目标变量相应的列。

datasets [tuple] 作为deepchem.data.datasets.Dataset实例的数据的训练集、测试集、验 证集分割。

transformers [list] 应用到deepchem.trans.transformers.Transformer实例的数据集。

返回类型tuple

注意

全部带SMILES字串 ZINC数据集包含上亿个化合物并且超过100GB!

推荐ZINC250K进行实验。270M金锁化合物全集为23GB。

DeepChem手册3.10 MoleculeNet相关推荐

  1. c语言程序设计第四版乌云高娃,C语言程序设计教学课件作者第3版乌云高娃学习手册C语言程序设计教学课件作者第3版乌云高娃学习手册学习手册第10章文件及其应用课件.docx...

    C语言程序设计教学课件作者第3版乌云高娃学习手册C语言程序设计教学课件作者第3版乌云高娃学习手册学习手册第10章文件及其应用课件.docx 学习手册(1):文本文件的操作学习内容文本文件的操作学习目标 ...

  2. 火星人敏捷开发手册 原10.31版本已于10.14提前发布,特此通知

    因为月底较忙,而中间培训又需要,已经抽上半月时间完成发布:怕今天有人上来查找无果,特此通知,见谅. 发布通知帖位于:火星人敏捷开发手册 2011-10-14 发布 主贴位于:[置顶][正式发布]火星人 ...

  3. abaqus实例手册_ABAQUS_6.10例子问题手册(目录)

    wsy ABAQUS Example Problems Manual 目 录 第 1 章 态应力 / 位移分析 1.1 静态和准静态应力分析 1.1.1 螺栓管道法兰接头的轴对称分析 1.1.2 面内 ...

  4. oracle tirger_TPS65130RGETG4_驱动_中文手册(3/10)_TI - 万联芯城

    TPS65130RGETG4中文资料第13页精选内容: ww TPS65130RGETG4中文资料第13页精选内容: www.ti.com 50 55 60 65 70 75 80 85 90 95 ...

  5. Vim实战手册(10)Vimide——打造你自己的IDE(C)

    转载请注明来自"柳大的CSDN博客":http://blog.csdn.net/poechant 经过<Vim实战手册(8)Vimide--打造你自己的IDE(A)>和 ...

  6. 10个实用的UX设计作品推销小窍门

    以下内容由Mockplus(摹客)团队翻译整理,仅供学习交流,Mockplus是更快更简单的原型设计工具. 众所周知,产品用户体验很重要,即使是Google也知道这一点.但是,当真正涉及到UX 设计销 ...

  7. [转载]好莱坞故事创意手册!

    原文链接:http://blog.sina.com.cn/s/blog_4d36c89101008ll8.html 好莱坞故事创意手册! (2008-03-19 10:15:42) 转载▼ 标签: 好 ...

  8. 转载 Org-mode 简明手册

    转载来自: https://www.cnblogs.com/Open_Source/archive/2011/07/17/2108747.html#sec-4-1 Org-mode 简明手册 UP | ...

  9. Org-mode 简明手册

    Org-mode 简明手册 Table of Contents 1 简介 1.1 序 1.2 安装 1.3 激活 1.4 反馈 2 文档结构 2.1 大纲 2.2 标题 2.3 视图循环 2.4 移动 ...

  10. 码出高效:java开发手册_Java 11手册:Java专家分享他们在Java 11方面的最佳和最差的经验

    码出高效:java开发手册 Java 10标志着Java生态系统新时代的开始,但最新版本证明仍有一些里程碑可言. Java 11是Oracle新的六个月周期中的第一个LTS版本. 您可以在此处下载Ja ...

最新文章

  1. Science:比较基因组揭示银边鱼应对捕鱼行为的表型进化机制
  2. java 是否含有日文_《JAVA编程思想》5分钟速成:第9章(接口)
  3. qt中的数据库可以创建在主函数中吗_在qt中怎么建立数据库
  4. Cocos2d-x的坐标系统
  5. 细说伟哥那些你不知道的神奇用途
  6. Java8 lambda支持
  7. c语言 指针 pdf,深入理解c指针 PDF扫描版[33MB]
  8. linux如何查看实时优先级,Linux进程优先级系统——设置实时进程优先级
  9. iTOP4412 gdbserver安装
  10. 如何在代码里打开Android手机通知状态栏
  11. uniapp对象怎么获取值_Uniapp使用GoEasy实现websocket实时通讯
  12. 清除Svchost.exe
  13. springboot 整合阿里云oss
  14. PHPWAMP站点管理的“域名模式”和“端口模式”详解、均支持自定义
  15. ognl.NoSuchPropertyException(没有对应属性异常)
  16. 灵魂一问-如何彻底防止APK反编译?积累总结
  17. Lync 客户端单独安装激活步骤
  18. 顺丰快递电话查询比网上查询更提前更详细
  19. 微信多图上传,解决android多图上传失败问题
  20. 指数式增长(Exponential Growth)

热门文章

  1. Linux中文显示:解决Windows传到linux文件中文乱码
  2. python删除txt文本文件第一行数据
  3. nc语法和nc木马远程控制主机
  4. Nature指数全球城市科研排名:北京第一,上海第五,南京第八
  5. Ubuntu18.04下部署Honeyd蜜罐(完整过程)
  6. Matlab的卷积编码实现
  7. C标准 C90~C18 官网PDF下载
  8. 万能密码 php,分析PHP网站下的万能密码
  9. 根据经纬度和日期计算日出日落时间
  10. 计算机专业对于英语水平的要求,英语对计算机专业的重要性及如何提高英语水平...