Cleanup to examples (707c2592) · Commits · 钟慕尧 / deepchem

examples/chembl/chembl_datasets.py

deleted100644 → 0

+0 −89

Original line number	Diff line number	Diff line
		"""
		ChEMBL dataset loader.
		"""
		from __future__ import division
		from __future__ import print_function
		from __future__ import unicode_literals

		import os
		import sys
		import time

		import deepchem as dc

		sys.path.append(os.path.dirname(os.path.abspath(__file__)))
		from chembl_tasks import chembl_tasks


		# Set shard size low to avoid memory problems.
		def load_chembl(shard_size=2000, featurizer="ECFP", set="5thresh", split="random"):
		############################################################## TIMING
		time1 = time.time()
		############################################################## TIMING
		# Set some global variables up top
		current_dir = os.path.dirname(os.path.realpath(__file__))

		# Load dataset
		print("About to load ChEMBL dataset.")
		if split == "year":
		train_datasets, valid_datasets, test_datasets = [], [], []
		train_files = os.path.join(current_dir,
		"year_sets/chembl_%s_ts_train.csv.gz" % set)
		valid_files = os.path.join(current_dir,
		"year_sets/chembl_%s_ts_valid.csv.gz" % set)
		test_files = os.path.join(current_dir,
		"year_sets/chembl_%s_ts_test.csv.gz" % set)
		else:
		dataset_path = os.path.join(
		current_dir, "../../datasets/chembl_%s.csv.gz" % set)

		# Featurize ChEMBL dataset
		print("About to featurize ChEMBL dataset.")
		if featurizer == 'ECFP':
		featurizer = dc.feat.CircularFingerprint(size=1024)
		elif featurizer == 'GraphConv':
		featurizer = dc.feat.ConvMolFeaturizer()

		loader = dc.data.CSVLoader(
		tasks=chembl_tasks, smiles_field="smiles", featurizer=featurizer)

		if split == "year":
		print("Featurizing train datasets")
		train_dataset = loader.featurize(
		train_files, shard_size=shard_size)

		print("Featurizing valid datasets")
		valid_dataset = loader.featurize(
		valid_files, shard_size=shard_size)

		print("Featurizing test datasets")
		test_dataset = loader.featurize(
		test_files, shard_size=shard_size)
		else:
		dataset = loader.featurize(dataset_path, shard_size=shard_size)

		# Initialize transformers
		print("About to transform data")
		if split == "year":
		transformers = [
		dc.trans.NormalizationTransformer(transform_y=True, dataset=train_dataset)]
		for transformer in transformers:
		train = transformer.transform(train_dataset)
		valid = transformer.transform(valid_dataset)
		test = transformer.transform(test_dataset)
		else:
		transformers = [
		dc.trans.NormalizationTransformer(transform_y=True, dataset=dataset)]
		for transformer in transformers:
		dataset = transformer.transform(dataset)

		splitters = {'index': dc.splits.IndexSplitter(),
		'random': dc.splits.RandomSplitter(),
		'scaffold': dc.splits.ScaffoldSplitter()}
		if split in splitters:
		splitter = splitters[split]
		print("Performing new split.")
		train, valid, test = splitter.train_valid_test_split(dataset)


		return chembl_tasks, (train, valid, test), transformers

examples/chembl/chembl_graph_conv.py

+1 −1

Original line number	Diff line number	Diff line
		@@ -10,7 +10,7 @@ np.random.seed(123)
		import tensorflow as tf
		tf.set_random_seed(123)
		import deepchem as dc
		from chembl_datasets import load_chembl
		from deepchem.molnet import load_chembl

		# Load ChEMBL dataset
		chembl_tasks, datasets, transformers = load_chembl(

examples/chembl/chembl_tf_models.py

+15 −10

Original line number	Diff line number	Diff line
		@@ -11,7 +11,7 @@ import tempfile
		import shutil
		import numpy as np
		import deepchem as dc
		from chembl_datasets import load_chembl
		from deepchem.molnet import load_chembl

		# Set numpy seed
		np.random.seed(123)
		@@ -19,8 +19,8 @@ np.random.seed(123)
		###Load data###
		shard_size = 2000
		print("About to load ChEMBL data.")
		chembl_tasks, datasets, transformers = load_chembl(shard_size=shard_size,
		featurizer="ECFP", set="5thresh", split="random")
		chembl_tasks, datasets, transformers = load_chembl(
		shard_size=shard_size, featurizer="ECFP", set="5thresh", split="random")
		train_dataset, valid_dataset, test_dataset = datasets

		print("ChEMBL_tasks")
		@@ -35,13 +35,18 @@ print(len(test_dataset))
		###Create model###
		n_layers = 3
		nb_epoch = 10
		model = dc.models.TensorflowMultiTaskRegressor(
		len(chembl_tasks), train_dataset.get_data_shape()[0],
		layer_sizes=[1000]n_layers, dropouts=[.25]n_layers,
		model = dc.models.TensorGraphMultiTaskRegressor(
		len(chembl_tasks),
		train_dataset.get_data_shape()[0],
		layer_sizes=[1000] * n_layers,
		dropouts=[.25] * n_layers,
		weight_init_stddevs=[.02] * n_layers,
		bias_init_consts=[1.]*n_layers, learning_rate=.0003,
		penalty=.0001, penalty_type="l2", optimizer="adam", batch_size=100,
		seed=123, verbosity="high")
		bias_init_consts=[1.] * n_layers,
		learning_rate=.0003,
		weight_decay_penalty=.0001,
		batch_size=100,
		seed=123,
		verbosity="high")

		#Use R2 classification metric
		metric = dc.metrics.Metric(dc.metrics.pearson_r2_score, task_averager=np.mean)

examples/clintox/clintox_datasets.py

deleted100644 → 0

+0 −52

Original line number	Diff line number	Diff line
		"""
		Clinical Toxicity (clintox) dataset loader.
		@author Caleb Geniesse
		"""

		from __future__ import print_function
		from __future__ import division
		from __future__ import unicode_literals

		import os
		import deepchem as dc


		def load_clintox(featurizer='ECFP', split='index'):
		"""Load clintox datasets."""

		# Load clintox dataset
		print("About to load clintox dataset.")
		current_dir = os.path.dirname(os.path.realpath(__file__))
		dataset_file = os.path.join(
		current_dir, "./datasets/clintox.csv.gz")
		dataset = dc.utils.save.load_from_disk(dataset_file)
		clintox_tasks = dataset.columns.values[1:].tolist()
		print("Tasks in dataset: %s" % (clintox_tasks))
		print("Number of tasks in dataset: %s" % str(len(clintox_tasks)))
		print("Number of examples in dataset: %s" % str(dataset.shape[0]))

		# Featurize clintox dataset
		print("About to featurize clintox dataset.")
		featurizers = {'ECFP': dc.feat.CircularFingerprint(size=1024),
		'GraphConv': dc.feat.ConvMolFeaturizer()}
		featurizer = featurizers[featurizer]
		loader = dc.data.CSVLoader(
		tasks=clintox_tasks, smiles_field="smiles", featurizer=featurizer)
		dataset = loader.featurize(dataset_file, shard_size=8192)

		# Transform clintox dataset
		print("About to transform clintox dataset.")
		transformers = [
		dc.trans.BalancingTransformer(transform_w=True, dataset=dataset)]
		for transformer in transformers:
		dataset = transformer.transform(dataset)

		# Split clintox dataset
		print("About to split clintox dataset.")
		splitters = {'index': dc.splits.IndexSplitter(),
		'random': dc.splits.RandomSplitter(),
		'scaffold': dc.splits.ScaffoldSplitter()}
		splitter = splitters[split]
		train, valid, test = splitter.train_valid_test_split(dataset)

		return clintox_tasks, (train, valid, test), transformers

examples/clintox/clintox_graph_conv.py

+1 −1

Original line number	Diff line number	Diff line
		@@ -11,7 +11,7 @@ np.random.seed(123)
		import tensorflow as tf
		tf.set_random_seed(123)
		import deepchem as dc
		from clintox_datasets import load_clintox
		from deepchem.molnet import load_clintox

		# Load clintox dataset
		clintox_tasks, clintox_datasets, transformers = load_clintox(

Admin message