Keras Solved (73a26ef1) · Commits · 钟慕尧 / deepchem

examples/tutorials/.ipynb_checkpoints/30_Protein_Deep_Learning-checkpoint.ipynb

0 → 100644

+1701 −0

File added.

Preview size limit exceeded, changes collapsed.

examples/tutorials/.virtual_documents/30_Protein_Deep_Learning.ipynb.py

deleted100644 → 0

+0 −305

Original line number	Diff line number	Diff line
		get_ipython().getoutput("curl -Lo conda_installer.py https://raw.githubusercontent.com/deepchem/deepchem/master/scripts/colab_install.py")
		import conda_installer
		conda_installer.install()
		get_ipython().getoutput("/root/miniconda/bin/conda info -e")


		get_ipython().getoutput("pip install --pre deepchem")
		get_ipython().getoutput("pip install propy3 ")


		import deepchem as dc
		import os
		from deepchem.utils import download_url
		data_dir = dc.utils.get_data_dir()
		download_url("https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/pucci-proteins-appendixtable1.csv",dest_dir=data_dir)
		print('Dataset Dowloaded at {}'.format(data_dir))
		dataset_file = os.path.join(data_dir, "pucci-proteins-appendixtable1.csv")


		import pandas as pd
		data = pd.read_csv(dataset_file)
		data


		WT_Tm = data[['PDBid','Tmexp [wt]']]
		WT_Tm.set_index('PDBid',inplace=True)


		WT_Tm


		dict_WT_TM = {}
		for k,v in WT_Tm.itertuples():
		if(k not in dict_WT_TM):
		dict_WT_TM[k]=float(v)


		pdbs = data[data['PDBid'].str.len()<5]
		pdbs = pdbs[pdbs['Chain'] == "A"]


		pdbs[['RESN','RESwt','RESmut']]


		alls=[]
		for resnum,wt in pdbs[['RESN','RESwt','RESmut','PDBid','ΔTmexp']].iteritems():
		alls.append(wt.values)
		d = {'CYS': 'C', 'ASP': 'D', 'SER': 'S', 'GLN': 'Q', 'LYS': 'K',
		'ILE': 'I', 'PRO': 'P', 'THR': 'T', 'PHE': 'F', 'ASN': 'N',
		'GLY': 'G', 'HIS': 'H', 'LEU': 'L', 'ARG': 'R', 'TRP': 'W',
		'ALA': 'A', 'VAL':'V', 'GLU': 'E', 'TYR': 'Y', 'MET': 'M'}
		resnum=alls[0]
		wt=[d[x.strip()] for x in alls[1]] # extract the Wildtype aminoacid with one letter code
		mut=[d[x.strip()] for x in alls[2]] # extract the Mutation aminoacid with one letter code
		codes=alls[3] # PDB code
		tms=alls[4] # Melting temperature


		print("pdbid {}, WT-AA {}, Resnum {}, MUT-AA {},DeltaTm {}".format(codes[0],wt[0],resnum[0],mut[0],tms[0]))



		from pdbfixer import PDBFixer
		from simtk.openmm.app import PDBFile


		get_ipython().getoutput("mkdir PDBs")


		import os
		import time
		t0 = time.time()

		downloaded = os.listdir("PDBs")
		PDBs_ids= set(pdbs['PDBid'])
		pdb_list = []
		print("Start Download ")
		for pdbid in PDBs_ids:
		name=pdbid+".pdb"
		if(name in downloaded):
		continue
		try:
		fixer = PDBFixer(pdbid=pdbid)
		fixer.findMissingResidues()
		fixer.findNonstandardResidues()
		fixer.replaceNonstandardResidues()
		fixer.removeHeterogens(True)
		fixer.findMissingAtoms()
		fixer.addMissingAtoms()
		PDBFile.writeFile(fixer.topology, fixer.positions, open('./PDBs/get_ipython().run_line_magic("s.pdb'", " % (pdbid), 'w'),keepIds=True)")
		except:
		print("Problem with {}".format(pdbid))
		print("Total Time {}".format(time.time()-t0))


		import re
		def MutateSeq(seq,Mutant):
		'''
		Mutate a sequence based on a string (Mutant) that has the notation :
		A###B where A is the wildtype aminoacid ### the position and B the mutation
		'''
		aalist = re.findall('([A-Z])([0-9]+)([A-Z])', Mutant)

		#(len(aalist)==1):
		newseq=seq
		listseq=list(newseq)
		for aas in aalist:
		wildAA = aas[0]
		pos = int(aas[1]) -1
		if(pos >= len(listseq)):
		print("Mutation not in the range of the protein")
		return None
		MutAA = aas[-1]

		if(listseq[pos]==wildAA):

		listseq[pos]=MutAA

		else:
		#print("WildType AA does not match")
		return None
		return("".join(listseq))


		from Bio.PDB.PDBParser import PDBParser
		from Bio.PDB.Polypeptide import PPBuilder
		ppb=PPBuilder()
		def GetSeqFromPDB(pdbid):
		structure = PDBParser().get_structure(pdbid.split(".")[0], 'PDBs/{}'.format(pdbid))
		seqs=[]
		return ppb.build_peptides(structure)



		import warnings; warnings.simplefilter('ignore')
		test="1ezm"
		print(test)
		seq = GetSeqFromPDB("{}.pdb".format(test))[0].get_sequence()
		print("Original Sequence")
		print(seq)



		informSeq=GetSeqFromPDB(test+".pdb")[0].__repr__()
		print("Seq information",informSeq)
		start = re.findall('[0-9]+',informSeq)[0]
		print("Reported Mutation {}{}{}".format("R",179,"A"))
		numf =179 - int(start) + 1 # fix some cases of negative aminoacid numbers


		mutfinal = "R{}A".format(numf)
		print("Real Mutation = ",mutfinal)
		mutseq = MutateSeq(seq,mutfinal)
		print(mutseq)


		information = {}
		count = 1
		failures=[]
		for code,tm,numr,wt_val,mut_val in zip(codes,tms,resnum,wt,mut):
		count += 1
		seq = GetSeqFromPDB("{}.pdb".format(code))[0].get_sequence()
		mutfinal="WT"
		if("{}-{}".format(code,mutfinal) not in information):
		informSeq=GetSeqFromPDB(code+".pdb")[0].__repr__()
		start = re.findall('[-0-9]+',informSeq)[0]
		if(int(start)<0):
		numf =numr - int(start) # if start is negative 0 is not used as resnumber
		else:
		numf =numr - int(start) + 1
		mutfinal = "{}{}{}".format(wt_val,numf,mut_val)
		mutseq = MutateSeq(seq,mutfinal)
		if(mutseq==None):
		failures.append((code,mutfinal))
		continue
		information["{}-{}".format(code,mutfinal)]=[mutseq,dict_WT_TM[code]-float(tm)]



		import deepchem as dc


		seq_list=[]
		deltaTm=[]
		for i in information.values():
		seq_list.append(i[0])
		deltaTm.append(i[1])


		max_seq= 0
		for i in seq_list:
		if(len(i)>max_seq):
		max_seq=len(i)


		codes = ['A', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'K', 'L',
		'M', 'N', 'P', 'Q', 'R', 'S', 'T', 'V', 'W', 'Y']
		OneHotFeaturizer = dc.feat.OneHotFeaturizer(codes,max_length=max_seq)
		features = OneHotFeaturizer.featurize(seq_list)


		dc_dataset = dc.data.NumpyDataset(X=features,y=deltaTm)


		from deepchem import splits
		splitter = splits.RandomSplitter()
		train, test = splitter.train_test_split(dc_dataset,seed=42)


		from tensorflow import keras
		from tensorflow.keras import layers
		model = keras.Sequential([
		layers.Dense(units=32, activation='relu', input_shape=dc_dataset.X.shape[1:]),
		layers.Dropout(0.4),
		layers.Dense(units=64, activation='relu'),
		layers.Dropout(0.5),
		layers.Dense(units=128, activation='relu'),
		layers.Dropout(0.2),
		layers.Dense(units=1),
		])
		model.compile(loss='mae', optimizer='adam')

		print(model.summary())

		history = model.fit(
		train.X, train.y,
		validation_data=(test.X,test.y),
		batch_size=24,
		epochs=30,
		)

		## perform a plot of loss vs epochs
		import matplotlib.pyplot as plt
		history_df = pd.DataFrame(history.history)
		history_df[['loss', 'val_loss']].plot()


		from tensorflow import keras
		from tensorflow.keras import layers
		model = keras.Sequential([
		layers.Dense(units=32, activation='relu', input_shape=dc_dataset.X.shape[1:]),
		layers.Dropout(0.2),
		layers.Dense(units=32, activation='relu'),
		layers.Dropout(0.2),
		layers.Dense(units=32, activation='relu'),
		layers.Dropout(0.2),
		layers.Dense(units=1),
		])

		dcmodel = dc.models.KerasModel(model,loss=dc.metrics.mae_score)


		dcmodel.fit(dc_dataset)


		from propy import PyPro


		import numpy as np
		aaComplist = []
		CTDList =[]
		for seq in seq_list:
		Obj = PyPro.GetProDes(seq)
		aaComplist.append(np.array(list(Obj.GetAAComp().values())))
		CTDList.append(np.array(list(Obj.GetCTD().values())))


		dc_dataset_aacomp = dc.data.NumpyDataset(X=aaComplist,y=deltaTm)
		dc_dataset_ctd = dc.data.NumpyDataset(X=CTDList,y=deltaTm)


		from deepchem import splits
		splitter = splits.RandomSplitter()
		train, test = splitter.train_test_split(dc_dataset_aacomp,seed=42)
		from sklearn.ensemble import RandomForestRegressor
		from deepchem.utils.evaluate import Evaluator
		import pandas as pd
		print("RandomForestRegressor")
		seed = 42 # Set a random seed to get stable results
		sklearn_model = RandomForestRegressor(n_estimators=100, max_features='sqrt')
		sklearn_model.random_state = seed
		model = dc.models.SklearnModel(sklearn_model)
		model.fit(train)
		metric = dc.metrics.Metric(dc.metrics.mae_score)
		train_score = model.evaluate(train, [metric])
		test_score = model.evaluate(test, [metric])
		print("Train score is : {}".format(train_score))
		print("Test score is : {}".format(test_score))



		print("SupportVectorMachineRegressor")
		from sklearn.svm import SVR
		svr_sklearn = SVR(kernel="poly",degree=4)
		svr_sklearn.random_state = seed
		model = dc.models.SklearnModel(svr_sklearn)
		model.fit(train)
		metric = dc.metrics.Metric(dc.metrics.mae_score)
		train_score = model.evaluate(train, [metric])
		test_score = model.evaluate(test, [metric])
		print("Train score is : {}".format(train_score))
		print("Test score is : {}".format(test_score))

examples/tutorials/30_Protein_Deep_Learning.ipynb

+257 −208

File changed.

Preview size limit exceeded, changes collapsed.

Admin message