tabs (fc092acf) · Commits · 钟慕尧 / deepchem

deepchem/splits/init.py

+212 −213

Original line number	Diff line number	Diff line
		@@ -9,9 +9,7 @@ __author__ = "Bharath Ramsundar, Aneesh Pappu "
		__copyright__ = "Copyright 2016, Stanford University"
		__license__ = "GPL"

		import os
		import numpy as np
		import pandas as pd
		from rdkit import Chem
		from deepchem.utils import ScaffoldGenerator
		from deepchem.utils.save import log
		@@ -86,8 +84,8 @@ class StratifiedSplitter(Splitter):

		def __randomize_arrays(self, array_list):
		# assumes that every array is of the same dimension
		numRows = array_list[0].shape[0]
		perm = np.random.permutation(numRows)
		num_rows = array_list[0].shape[0]
		perm = np.random.permutation(num_rows)
		for array in array_list:
		array = array[perm]
		return array_list
		@@ -149,6 +147,7 @@ class StratifiedSplitter(Splitter):
		X_2 = X[rows_to_keep_2]
		y_2 = y[rows_to_keep_2]
		ids_2 = ids[rows_to_keep_2]

		return X_1, y_1, w_1, ids_1, X_2, \
		y_2, w_2, ids_2

		@@ -171,7 +170,7 @@ class StratifiedSplitter(Splitter):
		train_data = Dataset.from_numpy(train_dir, X_train, y_train, w_train, ids_train)
		valid_data = Dataset.from_numpy(valid_dir, X_valid, y_valid, w_valid, ids_valid)
		test_data = Dataset.from_numpy(test_dir, X_test, y_test, w_test, ids_test)
		return (train_data, valid_data, test_data)
		return train_data, valid_data, test_data


		class MolecularWeightSplitter(Splitter):