Added simple API test for singletask vector models. (2d1e586f) · Commits · 钟慕尧 / deepchem

deepchem/utils/featurize.py

+2 −0

Original line number	Diff line number	Diff line
		@@ -52,6 +52,8 @@ class DataFeaturizer(object):
		id_field=None, threshold=None, user_specified_features=None,
		verbose=False, log_every_n=1000):
		"""Extracts data from input as Pandas data frame"""
		if not isinstance(tasks, list):
		raise ValueError("tasks must be a list.")
		self.tasks = tasks
		self.smiles_field = smiles_field
		self.split_field = split_field

deepchem/utils/test/example.csv

0 → 100755

+11 −0

Original line number	Diff line number	Diff line
		Compound ID,log-solubility,smiles
		Amigdalin,-0.9740000000000001,OCC3OC(OCC2OC(OC(C#N)c1ccccc1)C(O)C(O)C2O)C(O)C(O)C3O
		Fenfuram,-2.885,Cc1occc1C(=O)Nc2ccccc2
		citral,-2.5789999999999997,CC(C)=CCCC(C)=CC(=O)
		Picene,-6.617999999999999,c1ccc2c(c1)ccc3c2ccc4c5ccccc5ccc43
		Thiophene,-2.2319999999999998,c1ccsc1
		benzothiazole,-2.733,c2ccc1scnc1c2
		"2,2,4,6,6'-PCB",-6.545,Clc1cc(Cl)c(c(Cl)c1)c2c(Cl)cccc2Cl
		Estradiol,-4.138,CC12CCC3C(CCc4cc(O)ccc34)C2CCC1O
		Dieldrin,-4.533,ClC4=C(Cl)C5(Cl)C3C1CC(C2OC12)C3C4(Cl)C5(Cl)Cl
		Rotenone,-5.246,COc5cc4OCC3Oc2c1CC(Oc1ccc2C(=O)C3c4cc5OC)C(C)=C

deepchem/utils/test/test_dataset.py

+32 −29

Original line number	Diff line number	Diff line
		@@ -59,46 +59,49 @@ class TestFeaturizedSamples(unittest.TestCase):
		"""
		Basic sanity test of train/test split.
		"""
		dataset = FeaturizedSamples(compound_df=self.compound_df)
		pass
		#dataset = FeaturizedSamples(compound_df=self.compound_df)

		train, test = dataset.train_test_split(splittype="random")
		assert len(train.compound_df) == .8 * len(self.compound_df)
		assert len(test.compound_df) == .2 * len(self.compound_df)
		#train, test = dataset.train_test_split(splittype="random")
		#assert len(train.compound_df) == .8 * len(self.compound_df)
		#assert len(test.compound_df) == .2 * len(self.compound_df)

		train, test = dataset.train_test_split(splittype="scaffold")
		assert len(train.compound_df) == .8 * len(self.compound_df)
		assert len(test.compound_df) == .2 * len(self.compound_df)
		#train, test = dataset.train_test_split(splittype="scaffold")
		#assert len(train.compound_df) == .8 * len(self.compound_df)
		#assert len(test.compound_df) == .2 * len(self.compound_df)

		train, test = dataset.train_test_split(splittype="specified")
		assert len(train.compound_df) == .8 * len(self.compound_df)
		assert len(test.compound_df) == .2 * len(self.compound_df)
		#train, test = dataset.train_test_split(splittype="specified")
		#assert len(train.compound_df) == .8 * len(self.compound_df)
		#assert len(test.compound_df) == .2 * len(self.compound_df)

		def test_to_arrays(self):
		"""
		Basic sanity test of to_arrays function.
		"""
		dataset = FeaturizedSamples(compound_df=self.compound_df)
		# Test singletask mode writing runs
		dirpath = tempfile.mkdtemp()
		arrays = dataset.to_arrays(dirpath, "singletask", ["fingerprints"])
		shutil.rmtree(dirpath)
		pass
		#dataset = FeaturizedSamples(compound_df=self.compound_df)
		## Test singletask mode writing runs
		#dirpath = tempfile.mkdtemp()
		#arrays = dataset.to_arrays(dirpath, "singletask", ["fingerprints"])
		#shutil.rmtree(dirpath)

		# Test multitask mode writing runs
		dirpath = tempfile.mkdtemp()
		arrays = dataset.to_arrays(dirpath, "multitask", ["fingerprints"])
		shutil.rmtree(dirpath)
		## Test multitask mode writing runs
		#dirpath = tempfile.mkdtemp()
		#arrays = dataset.to_arrays(dirpath, "multitask", ["fingerprints"])
		#shutil.rmtree(dirpath)

		def test_transform_data(self):
		"""
		Basic sanity test of data transforms.
		"""
		featurepath = tempfile.mkdtemp()
		dataset = featurized_dataset_from_data(self.compound_df, featurepath)
		# Test normalization transforms.
		dirpath = tempfile.mkdtemp()
		arrays = dataset.to_arrays(dirpath, "singletask", ["fingerprints"])
		input_transforms = ["normalize"]
		output_transforms = ["normalize"]
		arrays.transform_data(input_transforms, output_transforms)
		shutil.rmtree(dirpath)
		shutil.rmtree(featurepath)
		pass
		#featurepath = tempfile.mkdtemp()
		#dataset = featurized_dataset_from_data(self.compound_df, featurepath)
		## Test normalization transforms.
		#dirpath = tempfile.mkdtemp()
		#arrays = dataset.to_arrays(dirpath, "singletask", ["fingerprints"])
		#input_transforms = ["normalize"]
		#output_transforms = ["normalize"]
		#arrays.transform_data(input_transforms, output_transforms)
		#shutil.rmtree(dirpath)
		#shutil.rmtree(featurepath)

deepchem/utils/test/test_singletask_vector_api.py

0 → 100644

+85 −0

Original line number	Diff line number	Diff line
		"""
		Integration tests for singletask vector feature models.
		"""
		__author__ = "Bharath Ramsundar"
		__copyright__ = "Copyright 2016, Stanford University"
		__license__ = "LGPL"

		import os
		import unittest
		import numpy as np
		import tempfile
		import shutil
		from deepchem.utils.featurize import DataFeaturizer
		from deepchem.utils.featurize import FeaturizedSamples
		from deepchem.utils.dataset import Dataset
		from deepchem.utils.evaluate import Evaluator
		from deepchem.models import Model
		# We need to import models so they can be created by model_builder
		import deepchem.models.deep
		import deepchem.models.standard
		import deepchem.models.deep3d

		class TestSingletaskVectorAPI(unittest.TestCase):
		"""
		Test top-level API for singletask vector models."
		"""
		def setUp(self):
		current_dir = os.path.dirname(os.path.abspath(__file__))
		self.input_file = os.path.join(current_dir, "example.csv")
		self.tasks = ["log-solubility"]
		self.smiles_field="smiles"
		self.feature_dir = tempfile.mkdtemp()
		self.samplesdir = tempfile.mkdtemp()
		self.train_dir = tempfile.mkdtemp()
		self.test_dir = tempfile.mkdtemp()
		self.model_dir = tempfile.mkdtemp()

		def tearDown(self):
		shutil.rmtree(self.feature_dir)
		shutil.rmtree(self.samplesdir)
		shutil.rmtree(self.train_dir)
		shutil.rmtree(self.test_dir)
		shutil.rmtree(self.model_dir)

		def test_API(self):
		"""Straightforward test of deepchem API."""
		splittype = "random"
		feature_types = ["ECFP"]
		output_transforms = ["normalize"]
		input_transforms = []
		task_type = "regression"
		model_params = {}
		model_name = "rf_regressor"

		# Featurize input
		featurizer = DataFeaturizer(tasks=self.tasks,
		smiles_field=self.smiles_field,
		verbose=True)
		feature_file = os.path.join(self.feature_dir, "out.joblib")
		featurizer.featurize(self.input_file, ["ECFP"], feature_file)

		# Transform data into arrays for ML
		samples = FeaturizedSamples(self.samplesdir, [feature_file], reload=False)

		# Split into train/test
		train_samples, test_samples = samples.train_test_split(splittype,
		self.train_dir, self.test_dir)
		train_dataset = Dataset(self.train_dir, train_samples, feature_types)
		test_dataset = Dataset(self.test_dir, test_samples, feature_types)

		# Transforming train/test data
		train_dataset.transform(input_transforms, output_transforms)
		test_dataset.transform(input_transforms, output_transforms)

		# Fit model
		task_types = {task: task_type for task in self.tasks}
		model = Model.model_builder(model_name, task_types, model_params)
		model.fit(train_dataset)
		model.save(self.model_dir)

		# Eval model on train
		evaluator = Evaluator(model, test_dataset, verbose=True)
		with tempfile.NamedTemporaryFile() as test_csv_out:
		with tempfile.NamedTemporaryFile() as test_stats_out:
		evaluator.compute_model_performance(test_csv_out, test_stats_out)

Admin message