Anotação de genomas-eucariotas

Report
Genómica
Licenciatura em Ciências Biomédicas
Departamento de Ciências da Saúde,
UCP
Fevereiro 2013
Sumário
4. Anotação de genomas
Anotação e Montagem
4.1 Anotação dos genomas eucariotas
Fase computacional
Identificação de repetições, Alinhamento de outras sequências
Previsão de genes ab initio e baseada em evidência
Fase de anotação
Anotação automática
Visualização dos resultados da anotação
Output
GMOD
Controlo de qualidade de resultados
Como monitorizar os resultados da anotação; Jamborees de anotação
Publicação dos dados
Submissão
Actualização
8-04-2013
Genómica 12-13 MJC
2
Anotação de genomas
• Estrutural
– Identificar os genes e as suas fronteiras e
composição em: intrões/exões; operões
• Funcional
– Ligação das estruturas (sequências) a ontologias
genéticas
8-04-2013
Genómica 12-13 MJC
3
Realidade atual
• Sequenciação  Fácil e barata
• Montagem e anotação  ainda não
acompanharam:
– As sequências tornaram-se menores;
– Muitos dos genomas atualmente sequenciados
são de espécies “exóticas”
– Começa a haver muitos dados:
• Quantidade
• Qualidade (RNA-seq)
8-04-2013
Genómica 12-13 MJC
4
Da montagem à Anotação
• Antes de mais é necessário determinar quando e
se uma montagem está pronta para ser anotada.
–
–
–
–
N50
Tamanho das gaps no scafold
Número de gaps por scafold
Cobertura do genoma. Devem escolher-se high quality
drafts (<=> 90% do genoma completo)
– Cobertura em termos de genes. Quantos genes são
identificados em relação à quantidade estimada.
– Cobertura de genes >> cobertura do genoma. Porquê?
8-04-2013
Genómica 12-13 MJC
5
Que N50?
• Deve ser próximo
do tamanho médio
do gene para essa
espécie.
• Porquê?
UTRs
Splicing Alternativo
– Assim em média
metade dos genes
estão contidos num
único scafold.
8-04-2013
Genómica 12-13 MJC
6
As informações anteriores permitem
• Sabendo o tamanho esperado do genoma 
estimar o tamanho médio dos genes DECLIVE 
N50 desejável.
• Ferramentas como as do Core Eukaryotic Genes
Mapping Approach (CEGMA) são úteis.
– Ferramenta que usa 458 proteínas altamente
conservadas entre eucariotas. Essas proteínas são
procuradas na assembly de forma a ver se estão todas
contidas num sacaffold.
– Os dados podem ser usadas como modelos para a
determinação de exões/intrões.
8-04-2013
Genómica 12-13 MJC
7
Se
• A montagem estiver muito incompleta
• N50 for demasiado pequeno….
– A melhor aposta é fazer mais sequenciação.
8-04-2013
Genómica 12-13 MJC
8
FASE DE COMPUTAÇÃO
8-04-2013
Genómica 12-13 MJC
9
Identificação de zonas repetitivas
• Baixa complexidade
– Trinucleótidos
• Transposões, vírus, Long Interspersed Nuclear
Elements; Short Long Interspersed Nuclear
Elements.
• Consituem cerca de 47% do genoma humano
• Nem sempre estão completos e as
extremidades não estão bem definidas.
• As repetições nem sempre são conservadas.
8-04-2013
Genómica 12-13 MJC
10
Identificação de zonas repetitivas
• Começa por criar-se uma biblioteca de repetições
para cada anotação:
– Baseada em homologias
– De novo (nestas ferramentas geralmente são incluidas
outras repetições como proteínas com várias cópias
no genoma como histonas e tubulinas).
• Depois de criada a biblioteca ela é alinhada com a
montagem para ver se há homologias.
• Finalmente dá-se a masking que consiste em por
um N (em vez de ATGC) nesses nucleótidos.
Porquê?
8-04-2013
Genómica 12-13 MJC
11
ALINHAMENTO
8-04-2013
Genómica 12-13 MJC
12
Alinhamento das evidências já conhecidas
•
•
•
•
•
•
ESTs
RNA-seq
Proteínas
Do mesmo ou de organimos parecidos.
O alinhamento é avaliado por % identidade ou % de semelhança.
Depois faz-se o agrupamento:
– Seleção dos alinhamentos repetidos
– Identificação de alinhamentos muito expressos por exemplo (estes são
suportados por várias ESTs)
• A informação das RNA-seq é essencial mas
computacionalmente ainda não está muito explorada. Os
dados gerados são muitos e complexos e nem sempre é
fácil integrá-los no algoritmo.
8-04-2013
Genómica 12-13 MJC
13
Previsão de genes ab initio
• Usam modelos matemáticos e não evidência extra.
• Podem ser uteis quando não há evidências experimetais sobre o
genoma
• Mas são menos poderosos.:
– Referem apenas as CDs e não UTRs ou sequências de splicing alternativo.
– Precisam de dados específicos para o organismo como frequências dos
codões, tamanho dos exões/intrões e % GC.
– Precisam de ser treinados com dados o mais perto possível da espécie
em análise.
– Existem dados para os genomas clássicos mas faltam para espécies mais
“exóticas”.
– Aqui os dados do GEGMA podem ajudar.
• Poedm atingir os 100% de precisão mas normalmente
andam pelos 60-70% no que se refere à previsão de
exões/intrões.
8-04-2013
Genómica 12-13 MJC
14
PREVISÕES BASEADAS EM
EVIDÊNCIA
8-04-2013
Genómica 12-13 MJC
15
Baseada noutro tipo de dados
• Usa EST e RNA-seq e até dados de proteómica.
• Cada vez mais as soluções usadas passam
pelos dois tipos de aproximações.
8-04-2013
Genómica 12-13 MJC
16
FASE DA ANOTAÇÃO
8-04-2013
Genómica 12-13 MJC
17
Anotação
• Os diferentes protocolos e algoritmos têm
aproximações diferentes mas partilham as fases:
– Fase da computação
• São alinhadas ESTs, proteínas, RNAseq, etc ao genoma
montado.
• São geradas previsões ab initio ou baseadas em evidências.
– Fase da anotação
• Feita por pipelines
• Anotam o início e fim de cada gene, exões/intrões e UTRs
8-04-2013
Genómica 12-13 MJC
18
Fase da anotação
Previsão
CDCs
Anotação
8-04-2013
Genómica 12-13 MJC
19
Manual vs automática
• Era feito à mão
• Hoje é feito automáticamente dado o volume de dados
existentes.
• Os anotadores automáticos:
– Usam a informação fornecida para encontrar genes.
– Alinham essas previsões para obter o melhor consenso.
– Alguns usam um método de aprendizagem não
supervisionada (não há dados modelo)
– Outros usam métodos de aprendizagem supervisionada
(estimam os erros cometidos com bases em conjuntos de
dados conhecidos).
8-04-2013
Genómica 12-13 MJC
20
VISUALIZAÇÃO DA ANOTAÇÃO
8-04-2013
Genómica 12-13 MJC
21
Os resultados da anotação devem ter:
•
•
•
•
•
•
Estrutura intrão/exão
Codões de inicio e de termino
UTRs
Splicing alternativo
Apresentar os alinhamentos que suportam as previsões
Há 4 formatos mais usados: GeneBank; GFF3, GTF e
EMBL. Estes formatos premitem:
– Que os resultados sejam usados por outras ferramentas
– Uso de vocabulários controlados em termos de ontologias
– Permitem análises genómicas comparativas
8-04-2013
Genómica 12-13 MJC
22
Genetic Model Organism Database (GMOD)
• Ferramentas de descrição e análise, descrição,
visualização e redestribuição de anotações de
genomas.
8-04-2013
Genómica 12-13 MJC
23
CONTROLO DE QUALIDADE
8-04-2013
Genómica 12-13 MJC
24
Identificação de anotações incorretas
• Essencial pois:
– Propagam os erros pois as anotações existentes
são muitas vezes usadas como modelos para as
anotações futuras.
8-04-2013
Genómica 12-13 MJC
25
Como fazer o controlo de qualidade?
SN= Sensitivity
SP=Specificity
AC=Accuracy
SN= TP/(TP+FN)
SP= TP/(TP+FP)
AC=(SN+SP)/2
TP= True positives
FN=False negatives
TN=True Negatives
AED= Annotation Edit Distance
AED= 1-AC
8-04-2013
Genómica 12-13 MJC
26
PUBLICAÇÃO DOS DADOS
8-04-2013
Genómica 12-13 MJC
27
Bases de dados de Genomas
Bases de dados globais
GeneBank  Ensembl
Bases de dados específicas
BeeBase
Gramene
Plant GDB
Phytozome
VectorBase
8-04-2013
Genómica 12-13 MJC
28
Depois da publicação….
Deve ser feita periodicamente a atualização
8-04-2013
Genómica 12-13 MJC
29
CONCLUSÕES
8-04-2013
Genómica 12-13 MJC
30
Em suma
• Sequenciação mais barata  Mais dados para
tratar
• Alteração dos paradigmas do número e estrutura
dos genes codificadores de proteínas para incluir
também estruturas como transposões, regiões
reguladoras, pseudogenes e ncRNAs.
• O controlo de qualidade é tb um obstáculo
• Não basta produzir os genomas é necessário
anotá-los e atualizar a sua anotação
periodicamente.
8-04-2013
Genómica 12-13 MJC
31
Bibliografia
• Artigo: “ A beginner’s guide to eukariotic
genome annotation”. Na pasta do molar.
8-04-2013
Genómica 12-13 MJC
32

similar documents