Attempt at fixing failing doctest (f0f9b43c) · Commits · 钟慕尧 / deepchem

docs/examples.rst

+31 −36

Original line number	Diff line number	Diff line
		@@ -32,67 +32,62 @@ Other notes:
		* We match against doctest's :code:`...` wildcard on code where output is usually ignored
		* We often use threshold assertions (e.g: :code:`score['mean-pearson_r2_score'] > 0.92`), as this is what matters for model training code.

		SAMPL (FreeSolv)
		Delaney (ESOL)
		----------------

		Examples of training models on the SAMPL(FreeSolv) dataset included in `MoleculeNet <./moleculenet.html>`_.
		Examples of training models on the Delaney (ESOL) dataset included in `MoleculeNet <./moleculenet.html>`_.

		We'll be using its :code:`smiles` field to train models to predict its experimentally measured solvation energy (:code:`expt`).

		MultitaskRegressor
		^^^^^^^^^^^^^^^^^^

		First, we'll load the dataset with :func:`load_sampl() <deepchem.molnet.load_sampl>` and fit a :class:`MultitaskRegressor <deepchem.models.MultitaskRegressor>`:
		First, we'll load the dataset with :func:`load_delaney() <deepchem.molnet.load_delaney>` and fit a :class:`MultitaskRegressor <deepchem.models.MultitaskRegressor>`:

		.. doctest:: sampl
		.. doctest:: delaney

		>>> seed_all()
		>>> # Load SAMPL dataset with default 'index' splitting
		>>> SAMPL_tasks, SAMPL_datasets, transformers = dc.molnet.load_sampl()
		>>> SAMPL_tasks
		['expt']
		>>> train_dataset, valid_dataset, test_dataset = SAMPL_datasets
		>>> # Load dataset with default 'scaffold' splitting
		>>> tasks, datasets, transformers = dc.molnet.load_delaney()
		>>> tasks
		['measured log solubility in mols per litre']
		>>> train_dataset, valid_dataset, test_dataset = datasets
		>>>
		>>> # We want to know the pearson R squared score, averaged across tasks
		>>> avg_pearson_r2 = dc.metrics.Metric(dc.metrics.pearson_r2_score, np.mean)
		>>>
		>>> # We'll train a multitask regressor (fully connected network)
		>>> model = dc.models.MultitaskRegressor(
		... len(SAMPL_tasks),
		... len(tasks),
		... n_features=1024,
		... layer_sizes=[1000],
		... dropouts=[.25],
		... learning_rate=0.001,
		... batch_size=50)
		... layer_sizes=[500])
		>>>
		>>> model.fit(train_dataset)
		0...
		>>>
		>>> # We now evaluate our fitted model on our training and validation sets
		>>> train_scores = model.evaluate(train_dataset, [avg_pearson_r2], transformers)
		>>> assert train_scores['mean-pearson_r2_score'] > 0.9, train_scores
		>>> assert train_scores['mean-pearson_r2_score'] > 0.7, train_scores
		>>>
		>>> valid_scores = model.evaluate(valid_dataset, [avg_pearson_r2], transformers)
		>>> assert valid_scores['mean-pearson_r2_score'] > 0.7, valid_scores
		>>> assert valid_scores['mean-pearson_r2_score'] > 0.3, valid_scores


		GraphConvModel
		^^^^^^^^^^^^^^
		The default `featurizer <./featurizers.html>`_ for SAMPL is :code:`ECFP`, short for
		The default `featurizer <./featurizers.html>`_ for Delaney is :code:`ECFP`, short for
		`"Extended-connectivity fingerprints." <./featurizers.html#circularfingerprint>`_
		For a :class:`GraphConvModel <deepchem.models.GraphConvModel>`, we'll reload our datasets with :code:`featurizer='GraphConv'`:

		.. doctest:: sampl
		.. doctest:: delaney

		>>> seed_all()
		>>> # Load SAMPL dataset
		>>> SAMPL_tasks, SAMPL_datasets, transformers = dc.molnet.load_sampl(
		... featurizer='GraphConv')
		>>> train_dataset, valid_dataset, test_dataset = SAMPL_datasets
		>>> tasks, datasets, transformers = dc.molnet.load_delaney(featurizer='GraphConv')
		>>> train_dataset, valid_dataset, test_dataset = datasets
		>>>
		>>> model = dc.models.GraphConvModel(len(SAMPL_tasks), mode='regression')
		>>> model = dc.models.GraphConvModel(len(tasks), mode='regression', dropout=0.5)
		>>>
		>>> model.fit(train_dataset, nb_epoch=20)
		>>> model.fit(train_dataset, nb_epoch=30)
		0...
		>>>
		>>> # We now evaluate our fitted model on our training and validation sets

Admin message