Top Banner
Molecular Representa/on, Similarity and Search Rajarshi Guha NIH Chemical Genomics Center December 3 rd , 2009
21

Molecular Representation, Similarity and Search

May 10, 2015

Download

Education

rguha

Guest lecture for Jean Claude Bradleys class at Drexel University
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Molecular Representation, Similarity and Search

Molecular Representa/on, Similarity and Search 

Rajarshi Guha NIH Chemical Genomics Center 

December 3rd, 2009 

Page 2: Molecular Representation, Similarity and Search

Outline 

•  How can we represent molecules on a computer? 

•  How do we decide when molecules are similar? 

•  What can we do using similarity? 

Page 3: Molecular Representation, Similarity and Search

Molecular Representa/ons 

•  Explicit  –  Indicate what the atoms are, what atom is connected to what other atom(s) 

– Differing levels of explicitness •  Do we need to show hydrogens? •  Do we need to indicate actual bonds? 

•  Implicit – Usually very compact (e.g., SMILES) – Need to know the assump/ons involved 

•  In SMILES, no specific bond symbol implies single bond 

Page 4: Molecular Representation, Similarity and Search

2D Representa/ons ‐ Topological 

•  (Usually) indicates what types of atoms are present 

•  Indicates which atoms are connected to which other atoms 

•  No indica/on of where these atoms are located in space 

•  Very easy to store, manipulate Cl

Page 5: Molecular Representation, Similarity and Search

3D Representa/ons ‐ Geometric 

•  Similar to 2D, but now has explicit 3D coordinates 

•  More complex – a molecule can have mul/ple sets of 3D coordinates (conforma/ons) – Which is the correct one? 

•  Takes more space to store, /me consuming to generate 

Page 6: Molecular Representation, Similarity and Search

Molecular Similarity 

•  Many, many ways to determine how similar two molecules are 

•  A simple, manual approach is to look at a 2D depic/on 

•  But what are we looking at?  

Willet, J Chem Inf Comput Sci, 1998, 38, 983-996 Sheridan et al, Drug Discov Today, 2002, 7, 903-911

Page 7: Molecular Representation, Similarity and Search

Molecular Similarity 

•  But 2D can be misleading •  Iden/cal in 2D is not necessarily so in 3D 

Page 8: Molecular Representation, Similarity and Search

How Do We Quan/fy Similarity? 

•  1D similarity can be computed just by using SMILES, similar to sequence alignment – LINGO, Holograms 

•  2D similarity is commonly measured using binary fingerprints – Key based fingerprints – Hashed fingerprints 

Page 9: Molecular Representation, Similarity and Search

How Do We Quan/fy Similarity? 

•  Given 2 fingerprints we can then calculate a variety of similarity func/ons 

•  Tanimoto is the most commonly used – Ranges from 0 to 1  – A measure of the number of bits common to both fingerprints 

– See Daylight for more details 

•  Can also be extended to 3D similari/es 

Page 10: Molecular Representation, Similarity and Search

How Do We Quan/fy Similarity? 

•  3D similarity  is more complex •  Most methods require you to align two 3D structures 

•  Then determine the “volume overlap” – To what extent do the two structures occupy the same region in space 

•  Most well known tool for this is ROCS 

Page 11: Molecular Representation, Similarity and Search

How Do We Quan/fy Similarity? 

•  Property based similarity will use various physical proper/es or biological ac/vi/es –  If two molecules exhibit similar ac/vity across mul/ple cell lines, they are likely similar 

–  If two molecules have a set of similar physical proper/es (computed or experimental) they are likely similar 

Page 12: Molecular Representation, Similarity and Search

2D or 3D? 

•  Fast and easy •  Not always biological relevant 

•  But surprisingly useful 

•  More “accurate” •  Computa/onally more expensive 

•  Which conforma/on is the correct one? 

Different representations and similarity methods will, in general, lead to different

results (hits)

Page 13: Molecular Representation, Similarity and Search

What Can We Do With Similarity? 

•  Searching databases – exact substructure searching is not always useful 

•  Using the benzodiazepine substructure would                   miss midazolam 

•  But, the 2D similarity  between these two structures is rela/vely high 

N

HN

O

N

N

F

Cl

N

Query Midazolam

Page 14: Molecular Representation, Similarity and Search

But 2D Only Goes So Far … 

•  Using the tradi/onal benzodiazepine core won’t let you retrieve atypical benzodiazepines 

•  In this case, the 2D similarity between this and the  usual core is low 

•  But in terms of shape they are quite similar 

•  (Ambien occupies the same region of the GABA receptor as tradi8onal benzodiazepines)  

Ambien

Page 15: Molecular Representation, Similarity and Search

Virtual Screening 

•  In many cases the ques/on we’re asking is •  Find me other ac2ve molecules 

•  A good star/ng point is to look for structurally similar molecules 

•  We assume that molecules with similar structures will exhibit similar ac/vites –  J. Med. Chem., 2002, 45, 4350‐4358 –  The basis of predic/ve modeling –  But lots and lots of excep/ons! 

Sheridan et al, Drug Discov Today, 2002, 7, 903-911

Page 16: Molecular Representation, Similarity and Search

Virtual Screening 

•  2D similarity is a cheap, easy and fast way to perform this type of task 

•  Can “screen” databases of many millions of molecules extremely rapidly 

•  Usually only consider “very similar” (Tc >= 0.85) hits 

•  It works … 

Page 17: Molecular Representation, Similarity and Search

Virtual Screening 

•  But can be of limited use if used naively – Similarity is usually supplanted by machine learning 

– S/ll, the only way out if there is no receptor and only a few (or a single) known ac/ves 

•  Main drawback is that the hits are structurally similar – D’oh! – Not great if you’re trying to find a molecule that someone else hasn’t already developed 

Page 18: Molecular Representation, Similarity and Search

Scaffold Hopping 

•  Ideally, we’d like to find a molecule that is as ac/ve as our query, but with a different core structure 

•  Solving this usually requires us to go to 3D – Structures can differ in  connec/vity 

– But exhibit similar shapes 

•  Being able to do this in 2D is an interes/ng research topic (cf reduced graphs) 

Bergmann et al, J Chem Inf Model, 2009, 49, 658-669

Page 19: Molecular Representation, Similarity and Search

Dissimilarity & Library Design 

•  Chemical libraries form the basis of high throughput screening and other discovery methods 

•  Sizes can range from a few hundred molecules to millions (or billions for virtual libraries) 

•  In most cases, we want to cover as much of chemical space as possible – How do we compare coverage? – So if we want to add new molecules, how do we choose them? 

Page 20: Molecular Representation, Similarity and Search

Dissimilarity & Library Design 

•  Brute force – Evaluate similarity between new molecules and the library and keep those with low Tc 

•  Sophis/cated – Use sta/s/cal techniques to effec/vely sample different regions of a chemical space 

– Fill in the “holes” 

Page 21: Molecular Representation, Similarity and Search

Summary 

•  Similarity (and dissimilarity) are  fundamental concepts – Simple on the outside, complex on the inside 

•  A wide variety of methods available – Need to consider pros/cons in terms of computa/onal expense, chemical u/lity, … 

•  Visualizing similarity is useful 

•  Many problems can be recast in terms of similarity or dissimilarity