add in performance of pdbbind (21d748c3) · Commits · 钟慕尧 / deepchem

README.md

+63 −52

Original line number	Diff line number	Diff line
		@@ -244,7 +244,7 @@ Scaffold splitting
		* Regression

		\|Dataset \|Model \|Splitting \|Train score/R2\|Valid score/R2\|
		\|-----------\|--------------------\|------------\|--------------\|--------------\|
		\|----------------\|--------------------\|------------\|--------------\|--------------\|
		\|delaney \|MT-NN regression \|Index \|0.773 \|0.574 \|
		\| \|graphconv regression\|Index \|0.991 \|0.825 \|
		\| \|MT-NN regression \|Random \|0.769 \|0.591 \|
		@@ -257,6 +257,9 @@ Scaffold splitting
		\| \|graphconv regression\|Random \|0.117 \|0.076 \|
		\| \|MT-NN regression \|Scaffold \|0.180 \|0.052 \|
		\| \|graphconv regression\|Scaffold \|0.131 \|0.046 \|
		\|pdbbind(core) \|MT-NN regression \|Random \|0.973 \|0.494 \|
		\|pdbbind(refined)\|MT-NN regression \|Random \|0.987 \|0.503 \|
		\|pdbbind(full) \|MT-NN regression \|Random \|0.983 \|0.528 \|
		\|kaggle \|MT-NN regression \|User-defined\|0.748 \|0.452 \|

		* General features
		@@ -264,7 +267,7 @@ Scaffold splitting
		Number of tasks and examples in the datasets

		\|Dataset \|N(tasks) \|N(samples) \|
		\|-----------\|-----------\|-----------\|
		\|----------------\|-----------\|-----------\|
		\|tox21 \|12 \|8014 \|
		\|muv \|17 \|93127 \|
		\|pcba \|128 \|439863 \|
		@@ -273,11 +276,16 @@ Number of tasks and examples in the datasets
		\|delaney \|1 \|1128 \|
		\|kaggle \|15 \|173065 \|
		\|nci \|60 \|19127 \|
		\|pdbbind(core) \|1 \|195 \|
		\|pdbbind(refined)\|1 \|3706 \|
		\|pdbbind(full) \|1 \|11908 \|



		Time needed for benchmark test(~20h in total)

		\|Dataset \|Model \|Time(loading)/s \|Time(running)/s\|
		\|-----------\|--------------------\|----------------\|---------------\|
		\|----------------\|--------------------\|----------------\|---------------\|
		\|tox21 \|logistic regression \|30 \|60 \|
		\| \|Multitask network \|30 \|60 \|
		\| \|robust MT-NN \|30 \|90 \|
		@@ -302,6 +310,9 @@ Time needed for benchmark test(~20h in total)
		\| \|graphconv regression\|10 \|40 \|
		\|nci \|MT-NN regression \|400 \|1200 \|
		\| \|graphconv regression\|400 \|2500 \|
		\|pdbbind(core) \|MT-NN regression \|0(featurized) \|30 \|
		\|pdbbind(refined)\|MT-NN regression \|0(featurized) \|40 \|
		\|pdbbind(full) \|MT-NN regression \|0(featurized) \|60 \|
		\|kaggle \|MT-NN regression \|2200 \|3200 \|

deepchem/splits/splitters.py

+2 −1

Original line number	Diff line number	Diff line
		@@ -269,6 +269,7 @@ class MolecularWeightSplitter(Splitter):
		"""

		np.testing.assert_almost_equal(frac_train + frac_valid + frac_test, 1.)
		if not seed is None:
		np.random.seed(seed)

		mws = []

examples/benchmark.py

+2 −2

Original line number	Diff line number	Diff line
		@@ -101,8 +101,8 @@ def benchmark_loading_datasets(hyper_parameters,

		if dataset in ['pdbbind']:
		featurizer = 'grid' #pdbbind use grid featurizer
		if split in ['scaffold']:
		return #skip the scaffold splitting of pdbbind
		if split in ['scaffold', 'index']:
		return #skip the scaffold and index splitting of pdbbind
		if not model in ['tf_regression']:
		return

examples/stable_results.csv

+1 −0

Original line number	Diff line number	Diff line
		@@ -48,6 +48,7 @@
		0,delaney,random,regression,train,graphconvreg,0.9951851944,valid,graphconvreg,0.8397307618,time_for_running,102.9403319359
		0,nci,random,regression,train,tf_regression,0.167724376,valid,tf_regression,0.0846994662,time_for_running,1255.847104311
		0,nci,random,regression,train,graphconvreg,0.1173603957,valid,graphconvreg,0.0762376225,time_for_running,2608.3014204502
		0,pdbbind,random,regression,train,tf_regression,0.9826504619,valid,tf_regression,0.5282495192,time_for_running,59.4712688923
		0,tox21,scaffold,classification,train,tf,0.8626085326,valid,tf,0.7030201614,time_for_running,63.5685660839
		0,tox21,scaffold,classification,train,tf_robust,0.8608722489,valid,tf_robust,0.7100530015,time_for_running,101.614424944
		0,tox21,scaffold,classification,train,logreg,0.9004137009,valid,logreg,0.650190286,time_for_running,60.018599987

Original line number	Diff line number	Diff line
		@@ -244,7 +244,7 @@ Scaffold splitting
		* Regression

		\|Dataset \|Model \|Splitting \|Train score/R2\|Valid score/R2\|
		\|-----------\|--------------------\|------------\|--------------\|--------------\|
		\|----------------\|--------------------\|------------\|--------------\|--------------\|
		\|delaney \|MT-NN regression \|Index \|0.773 \|0.574 \|
		\| \|graphconv regression\|Index \|0.991 \|0.825 \|
		\| \|MT-NN regression \|Random \|0.769 \|0.591 \|
		@@ -257,6 +257,9 @@ Scaffold splitting
		\| \|graphconv regression\|Random \|0.117 \|0.076 \|
		\| \|MT-NN regression \|Scaffold \|0.180 \|0.052 \|
		\| \|graphconv regression\|Scaffold \|0.131 \|0.046 \|
		\|pdbbind(core) \|MT-NN regression \|Random \|0.973 \|0.494 \|
		\|pdbbind(refined)\|MT-NN regression \|Random \|0.987 \|0.503 \|
		\|pdbbind(full) \|MT-NN regression \|Random \|0.983 \|0.528 \|
		\|kaggle \|MT-NN regression \|User-defined\|0.748 \|0.452 \|

		* General features
		@@ -264,7 +267,7 @@ Scaffold splitting
		Number of tasks and examples in the datasets

		\|Dataset \|N(tasks) \|N(samples) \|
		\|-----------\|-----------\|-----------\|
		\|----------------\|-----------\|-----------\|
		\|tox21 \|12 \|8014 \|
		\|muv \|17 \|93127 \|
		\|pcba \|128 \|439863 \|
		@@ -273,11 +276,16 @@ Number of tasks and examples in the datasets
		\|delaney \|1 \|1128 \|
		\|kaggle \|15 \|173065 \|
		\|nci \|60 \|19127 \|
		\|pdbbind(core) \|1 \|195 \|
		\|pdbbind(refined)\|1 \|3706 \|
		\|pdbbind(full) \|1 \|11908 \|



		Time needed for benchmark test(~20h in total)

		\|Dataset \|Model \|Time(loading)/s \|Time(running)/s\|
		\|-----------\|--------------------\|----------------\|---------------\|
		\|----------------\|--------------------\|----------------\|---------------\|
		\|tox21 \|logistic regression \|30 \|60 \|
		\| \|Multitask network \|30 \|60 \|
		\| \|robust MT-NN \|30 \|90 \|
		@@ -302,6 +310,9 @@ Time needed for benchmark test(~20h in total)
		\| \|graphconv regression\|10 \|40 \|
		\|nci \|MT-NN regression \|400 \|1200 \|
		\| \|graphconv regression\|400 \|2500 \|
		\|pdbbind(core) \|MT-NN regression \|0(featurized) \|30 \|
		\|pdbbind(refined)\|MT-NN regression \|0(featurized) \|40 \|
		\|pdbbind(full) \|MT-NN regression \|0(featurized) \|60 \|
		\|kaggle \|MT-NN regression \|2200 \|3200 \|

Admin message