Top Banner
Bioinformática para Zumbis
63

Bioinformática

Jan 09, 2017

Download

Education

Marcos Castro
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Bioinformática

Bioinformáticapara Zumbis

Page 2: Bioinformática

Quem é você?Marcos Castro

Contato: [email protected]

Page 3: Bioinformática

Objetivo: que os conceitos sejam tão claros de forma que até a sua avó

possa entender perfeitamente!

Page 4: Bioinformática

Bioinformática… O que é isso?Pergunta errada…

Page 5: Bioinformática

Bioinformática… O que eu posso fazer com isso?

Pergunta correta!

Page 6: Bioinformática

Quanto à definição de Bioinformática, cada um tem sua própria definição. Ao final da apresentação você poderá definir a sua

também!

Page 7: Bioinformática

Exemplo: se eu for da área de IA, posso dizer que Bioinformática é a aplicação de técnicas de machine learning para dados

biológicos.

Page 8: Bioinformática

Sou da Computação:print(‘Bioinformatica’[3:])

Page 9: Bioinformática

Sou da Biologia:print(‘Bioinformatica’[0:3])

Page 10: Bioinformática

A Bioinformática é multidisciplinar :)

Page 11: Bioinformática

Keep calm…

Page 12: Bioinformática

Bioinformata

➜ Basicamente é um profissional que entende de biologia e trabalha com informação tratando e interpretando os dados.

➜ Exemplo: coletar informações clínicas de pacientes para fazer estudos sobre alguma doença com o objetivo de indicar um tratamento mais eficaz.

Page 13: Bioinformática

Bioinformática - Formação

➜ Poucos lugares do mundo têm graduação em Bioinformática.

➜ Normalmente as pessoas tem graduação em algum curso bem estabelecido e fazem pós em Bioinformática.

Page 14: Bioinformática

Hello Bioinformática

➜ Relembrando os tempos de colégio...

➜ O DNA tem 4 bases: Adenina, Citosina, Timina e Guanina.

➜ Guanina sempre liga com Citosina.

➜ Adenina sempre liga com Timina.

➜ O DNA é uma string muito grande...

Page 15: Bioinformática

Hello Bioinformática

➜ DNA é grande?? Não tem problema, meu computador tem memória, olha só:

Page 16: Bioinformática

Hello Bioinformática

➜ Ok, tentamos alocar todo o genoma humano (algo em torno de 3.2 GB) e já começamos a ter problemas.

➜ Um genoma sequenciado pode possuir 180 GB num formato FASTQ por exemplo.

➜ FASTQ é um dos vários formatos de arquivos para armazenamento de sequências biológicas.

Page 17: Bioinformática

Hello Bioinformática

➜ O RNA é o primo do DNA.

➜ Ao invés da Timina, ele possui Uracila.

➜ O RNA é utilizado para síntese de proteínas.

Page 18: Bioinformática

Dogma Central da Biologia Molecular

Page 19: Bioinformática

Hello Bioinformática

➜ A Bioinformática está intimamente relacionada com a Genética.

➜ A Genética é a ciência que estuda os genes.

➜ Gene é uma sequência de nucleotídeos.

➜ Genoma é um conjunto de genes.

Page 20: Bioinformática

A sua “receita” são as informações contidas nos genes que você herda

dos seus pais.

Page 21: Bioinformática

As letrinhas A, C, T, G, ligadas entre si e se repetindo, são responsáveis pelo

que somos, por nossas proteínas, pelas características que nos fazem

diferentes uns dos outros.

Page 22: Bioinformática

Sequenciamento

➜ Objetivo: determinar a ordem dos nucleotídeos de uma amostra de DNA.

➜ Genoma sequenciado = determinação da ordem dos genes.

Page 23: Bioinformática

Por que sequenciar?

➜ Para obter informações sobre a linha evolutiva dos organismos.

➜ Exemplo: saber quem tem DNA mais parecido com quem.

➜ Essas informações podem nos levar a obter novos medicamentos, vacinas, novos métodos de diagnóstico etc.

Page 24: Bioinformática

Métodos de sequenciamento

➜ Objetivo: determinar a ordem das quatro bases nitrogenadas: Adenina, Citosina, Guanina e Timina.

➜ Sanger foi o primeiro (década de 70).

➜ Sanger é um método que pode levar bastante tempo...

Page 25: Bioinformática

Métodos de sequenciamento

➜ Novos métodos de sequenciamento têm surgido, métodos bem mais rápidos!

➜ Mas calma... o Sanger não morreu.

➜ Escolher um método de sequenciamento é como escolher uma linguagem de programação, não existe a melhor, depende do que você vai resolver.

Page 26: Bioinformática

Métodos de sequenciamento

➜ Exemplo: se você quer sequenciar um fragmento pequeno (exemplo: gene), compensa usar Sanger.

➜ Se você quer sequenciar um genoma, compensa mais utilizar novos métodos de sequenciamento, pois em menos tempo consegue-se sequenciar uma quantidade maior de dados.

Page 27: Bioinformática

Métodos de sequenciamento

➜ Para você ter uma ideia, os primeiros sequenciadores de DNA liam um gene em 45 dias.

➜ Com novos métodos, você consegue sequenciar mais de 300 genes em 27 horas.

Page 28: Bioinformática

Sequenciadores

➜ Sequenciadores tem capacidade de gerar X bases sequenciadas (depende do modelo).

➜ Varia o tamanho do fragmento que cada um consegue sequenciar.

➜ Quantos fragmentos? Depende da técnica, mas o que importa é o tamanho desse fragmento.

Page 29: Bioinformática

Sequenciadores

➜ Então como ler milhões de bases?

➜ Gera-se uma enorme quantidade de fragmentos que tenham sobreposição entre si para ler a quantidade necessária.

➜ Para uma bactéria necessita de fragmentos menores (genoma é menor), para humanos necessita de fragmentos maiores.

Page 30: Bioinformática

Sequenciadores

➜ Temos um monte de fragmentos...

➜ Mas como montar esse quebra-cabeça?

➜ Entraríamos no que chamamos de montagem de DNA, mas isso é um outro assunto...

Page 31: Bioinformática

Sequenciadores

➜ Futuramente deve surgir um sequenciador para ler milhões de bases e aí, quando isso acontecer, o problema de montagem deixa de existir.

➜ E todos os softwares de montagem que foram feitos? Vão para lixeira :-)

Page 32: Bioinformática

Tecnologias NGS

➜ NGS = next generation sequencing

➜ Melhorias: rapidez, custo...

➜ Para se ter uma ideia, consegue-se sequenciar um genoma humano por 1000 dólares.

➜ Exemplo de sequenciador NGS: Illumina.

Page 33: Bioinformática

Tecnologias NGS

➜ Tecnologias NGS geram milhares de fragmentos de DNA (reads).

➜ Grande volume de dados (Big Data).

➜ O que fazer com esse dilúvio de dados?

➜ Novos algoritmos, softwares, ferramentas...

Page 34: Bioinformática

Big Data

➜ Antigamente você obtinha os dados, tinha uma planilha e dava pra analisar tudo sem grandes problemas.

➜ Hoje em dia, você aperta um botão e tem uma máquina que ao invés de gerar uma só planilha, gera milhares.

➜ Como observar milhões de dados?

Page 35: Bioinformática

Big Data - Definição

➜ “Quantidade de dados suficientemente grande que leve a uma mudança nas formas tradicionais de análise de dados.”

➜ As tecnologias NGS levaram a essa mudança? Sim! A grande quantidade de dados (big data) levou a essa mudança.

Page 36: Bioinformática

Big Data

➜ Basicamente qualquer coisa no planeta gera dados hoje em dia.

➜ Você gera dados constantemente...

➜ Espero que não nesse momento...

Page 37: Bioinformática

Big Data

➜ Com tecnologias NGS não é diferente.

➜ Gera-se um grande volume de dados.

➜ Precisamos de eficiência e eficácia!

➜ Não adianta somente ter os dados, é preciso saber o que fazer com eles.

➜ Dados é o novo petróleo!

Page 38: Bioinformática

Big Data

➜ Os dados precisam ser coletados...

➜ ... armazenados ...

➜ ... relacionados ...

➜ ... analisados ...

➜ ... para que você tenha ideias para resolver problemas.

Page 39: Bioinformática

Uso dos dados

➜ Com o entendimento dos dados genéticos de um paciente por exemplo, pode-se auxiliar no tratamento ou diagnóstico de alguma doença.

➜ A análise dos dados exige a participação da computação e biologia: bioinformática.

➜ O gargalo não é mais obter os dados, mas sim analisar esses dados.

Page 40: Bioinformática

Eu gosto de algoritmos!!

➜ Tudo bem, desafios é o que não faltam!!

➜ Exemplo: os primeiros algoritmos de alinhamento de sequências biológicas foram baseados em programação dinâmica.

➜ A Biologia já nos ajudou bastante com inspiração para algoritmos genéticos, redes neurais etc., que tal ajudarmos ela a resolver problemas biológicos?

Page 41: Bioinformática

Machine learning

➜ Aprender automaticamente a partir de um grande volume de dados.

➜ Existem várias técnicas:

Redes NeuraisKNNData Mining(...)

Page 42: Bioinformática

Machine learning

➜ Por muitos anos, sub-áreas da Biologia tem inspirado várias técnicas de aprendizado de máquina (AM).

➜ Atualmente, várias pesquisas na Biologia vêm utilizando essas técnicas de aprendizado de máquina.

➜ Conte-me mais sobre isso...

Page 43: Bioinformática

Machine learning

➜ Exemplo: alinhamento de sequências.

➜ O alinhamento é o processo de comparar sequências.

➜ Métodos de alinhamento que utilizam programação dinâmica têm um custo elevado, embora garantam a melhor solução.

Page 44: Bioinformática

Machine learning

➜ Já os chamados métodos heurísticos, embora não garantam a melhor solução, podem garantir boas soluções a um custo bem menor.

➜ Existem métodos que utilizam algoritmos genéticos (que é uma heurística) para fazer o alinhamento de sequências.

Page 45: Bioinformática

Linguagem de Programação

➜ Não existe a melhor linguagem de programação para Bioinformática.

➜ Veja uma linguagem de programação como uma ferramenta.

➜ Linguagem de programação é como time de futebol, você tem a sua preferida, mas nem sempre ela vai bem.

Page 46: Bioinformática

Linguagem de Programação

➜ Vários projetos em Bioinformática vêm utilizando Python e R. Perl também é bastante utilizada.

➜ A Bioinformática possui centenas de ferramentas escritas nas mais variadas linguagens: C/C++, Python, R, Perl, Java etc.

Page 47: Bioinformática

Python

➜ Sou suspeito para falar sobre Python.

➜ Python possui baterias inclusas e módulos de terceiros que irão facilitar bastante a sua vida.

➜ Em se tratando de Bioinformática, possui o BioPython que faz parte dos Bio Projects (existe também BioPerl, BioJava etc.).

Page 48: Bioinformática

Python

➜ Estatística? Pandas

➜ Machine Learning? Scikit-learn, PyBrain

➜ Plotar gráficos? Matplotlib

➜ Processamento numérico? NumPy

➜ Python está preparado para computação científica!

Page 49: Bioinformática

Ferramentas

➜ Apesar de existirem diversas ferramentas para Bioinformática, você também pode escrever a sua.

➜ Exemplo de uma ferramenta para o agrupamento (data mining) de sequências biológicas:

https://goo.gl/2wPGGT

Page 50: Bioinformática

Ferramentas

➜ Apesar de ter bastante coisa pronta, é de suma importância que você saiba alguma linguagem de programação, mesmo que seja para construir simples scripts.

Page 51: Bioinformática

Linux

➜ Por causa da grande quantidade de dados, provavelmente você irá rodar programas em servidores.

➜ É aconselhável ter intimidade com os comandos do terminal do Linux.

Page 52: Bioinformática

No que eu venho trabalhando?

➜ Grafos De Bruijn➜ Objetivo: detecção de variações

genéticas.➜ Planta: cana-de-açúcar.➜ Apresentação sobre o tema:

http://goo.gl/lcrnPx

Implementação De Bruijn Graphs em Python:

https://github.com/marcoscastro/bruijn_graph

Page 53: Bioinformática

Precisamos de você!

Page 54: Bioinformática

É bom saber...

➜ Um pouco de cada:

MatemáticaEstatísticaComputação (Stackoverflow)Biologia

Page 55: Bioinformática

Case de sucesso em Bioinformática

➜ Genomika

Page 56: Bioinformática

Case de sucesso em Bioinformática

➜ Genomika

➜ A empresa faz análises clínicas dentre outras coisas.

https://www.genomika.com.br

Page 57: Bioinformática

Aprendendo Bioinformática com Rosalind

➜ Problemas de Bioinformática.

➜ Qualquer linguagem de programação.

➜ Tem problemas fáceis, médios, difíceis...

➜ Ranking geral e ranking por país.

http://rosalind.info/

Page 58: Bioinformática

Big Data

➜ Quer aprender mais sobre Big Data?

➜ Curso de Big Data em Saúde no Brasil:

https://www.coursera.org/course/bigdatabrasil

Page 59: Bioinformática

Ciência de Dados

➜ Quer aprender sobre Ciência de Dados?

➜ Introdução à Ciência de Dados:

http://goo.gl/qkpBnz

(com direito a certificado)

Page 60: Bioinformática

Curso de Bioinformática com Biopython

➜ Aprendendo Bioinformática com Python:

https://goo.gl/V3uhLz

(com direito a certificado)

Page 61: Bioinformática

Dica de livro

Page 62: Bioinformática

Aprender o que eu já sei não tem graça!