Anotação de genomas-bacterianos

Report
Genómica
Licenciatura em Ciências Biomédicas
Departamento de Ciências da Saúde,
UCP
Fevereiro 2013
Sumário
4. Anotação de genomas
Anotação e Montagem
4.1 Anotação dos genomas bacterianos
8-04-2013
Genómica 12-13 MJC
2
Genomas Bacterianos
• Bastante mais abundantes que os eucariotas:
– Preço
– Tamanho
– Desconhecimento
• Num único dia podem ser sequenciados vários
genomas microbianos. MAS…..
• A anotação demora bastante mais.
8-04-2013
Genómica 12-13 MJC
3
Anotação de genomas Microbianos
Sequenciação
NGS
• Produz os
contigs e
scaffolds
Pipeline
automática
• Anota os
genes
possíveis
Revisão
manual dos
resultados
8-04-2013
Genómica 12-13 MJC
• Verifica a anotação
automática adicionando
mais informação
geralmente com base em
genomas conhecidos
4
Informação adicional
• Ribosomal binding sites (RBSs)
• Zonas de término
• Motivos e Domínios conservados
São informações que refinam e retificam a
anotação automática de previsão de genes.
Assim a informação dos organismos próximos é
muito enriquecida.
8-04-2013
Genómica 12-13 MJC
5
Mais concretamente…
• Deve ser próximo
do tamanho médio
do gene para essa
espécie.
• Porquê?
UTRs
Splicing Alternativo
– Assim em média
metade dos genes
estão contidos num
único scafold.
8-04-2013
Genómica 12-13 MJC
6
Processo genético de anotação de genomas bacterianos
Que outras
características?
Richardson E J , and Watson M Brief Bioinform
2012;bib.bbs007
© The Author(s) 2012. Published by Oxford University Press.
Que outras características?
•
•
•
•
RBSs? Sequência Shine-Dalgarno
Zonas de termino independentes de Rho.
Domínios conservados de proteínas.
HGT (assimetrias em composição dos codões e
no conteúdo GC); transposases, integrases e
elementos IS (elementos de insersão).
• Repetições Clustered Regularly Inter-spaced
Short Palindromic Repeats e outras repetições
sequenciais.
8-04-2013
Genómica 12-13 MJC
8
Num mundo perfeito….
• A anotação estaria completa e correta. MAS….
– Muita da anotação é baseada em homologia de
sequências:
• Muitas das anotações existentes estão erradas e esses
erros são perpetuados.
–
–
–
–
–
8-04-2013
Inconsistências
Erros “ortográficos”
O mesmo nome do gene mas produtos genéticos diferentes
Proteínas hipotéticas
Distinção entre ortólogos e parólogos
Genómica 12-13 MJC
9
ANOTAÇÕES INCONSISTENTES
8-04-2013
Genómica 12-13 MJC
10
Espécies e estirpes anotadas por
grupos diferentes
• Principalmente a nível de genes
fusionados/separados
• Identificação de genes funcionais ou
pseudogenes.
• Nomenclatura dos genes muitas vezes é
diferente entre grupos.
8-04-2013
Genómica 12-13 MJC
11
Seis anotações diferentes do locus eutM/eutN de Salmonella.
Richardson E J , and Watson M Brief Bioinform
2012;bib.bbs007
© The Author(s) 2012. Published by Oxford University Press.
Anotação inconsistente em termos dos nomes dos genes em E.coli K12 MG1655 e E. coli
0157:H7 Sakai.
Richardson E J , and Watson M Brief Bioinform
2012;bib.bbs007
© The Author(s) 2012. Published by Oxford University Press.
Escolher os genomas de
referência. Usar “média”
quando possível e apropriado.
Erros ortográficos?
• 128 proteínas syntase em vez de synthase.
– Trivial? Não, se a procura for com o termo correto
há 128 que não aprecem nos resultados.
– Software que use a estratégia “did you mean..”
8-04-2013
Genómica 12-13 MJC
14
Mesmo nome (abreviatura) do gene e
diferente proteína
• 2696 genomas de
microrganismos e
plasmídeos têm
– 23843 genes com pelo
menos 2 produtos
diferentes:
• O gene tnp tem 151
produtos e o tnpA +97.
• Em salmonella o gene
int tem 12 produtos
diferentes, alguns “não
produtos”.
8-04-2013
Gene name
Product name
int
bacteriophage
integrase
int
int
Gifsy-1 prophage Int
hypothetical protein
int
Integrase
int
integrase (fragment)
phage integrase
family site specific
recombinase
putative cytoplasmic
protein
Putative integrase
putative integrase
protein
putative P4-type
integrase
putative phage
integrase protein
site-specific
recombinase, phage
integrase family
int
int
Int
int
int
int
int
Genómica 12-13 MJC
Accession
NC_003198,
NC_004631,
NC_015761
NC_006905
NC_006905
NC_003198,
NC_004631,
NC_006511,
NC_012125
NC_003198
NC_006905
NC_006905
NC_003384
NC_006905
NC_006905
NC_006905
NC_012125
15
Proteínas hipotéticas ou previstas
• “hypothetical protein” = gene previsto pelo
software mas para o qual não há homólogos e
não tem domínios funcionais. 53035
• “uncharacterized protein” = 5178212
• Erros de anotação ou proteínas cuja função se
desconhece?
• Ygenes genes cujo nome provem hipoteticamente
da distancia a que está dos genes conhecidos na
vizinhança.
• Nível de conhecimento que permite a anotação
de hipotética deveria ter um peso estatístico.
8-04-2013
Genómica 12-13 MJC
16
Proteínas e domínios desconhecidos
• Devem ser eliminados da anotação?
• O facto de serem desconhecidos não dá muita
informação
• Mas se um domínio ou proteína desconhecida
for muito abundante pode corresponder a
domínios conservados. Ou não?
8-04-2013
Genómica 12-13 MJC
17
Distinção entre ortólogos e parólogos
Richardson E J , and Watson M Brief Bioinform
2012;bib.bbs007
© The Author(s) 2012. Published by Oxford University Press.
Distinção entre ortólogos e parólogos
• Devem ser eliminados da anotação?
• O facto de serem desconhecidos não dá muita
informação
• Mas se um domínio ou proteína desconhecida
for muito abundante pode corresponder a
domínios conservados. Ou não?
8-04-2013
Genómica 12-13 MJC
19
REGRAS DAS BASES DE DADOS DE
SEQUÊNCIAS
8-04-2013
Genómica 12-13 MJC
20
Nomenclatura dos CDs
• Termos proibidos na nomenclatura das sequências:
– Binding, like, domain, motif, gene, homolog
• As bases a que se submete a anotação muitas vezes
têm programas de validação que detetam estes erros e
fazem sugestões de correção.
• Outras situações que são previstas como erros são:
– CDSs com o nome idêntico a um gene imediatamente ao
lado.
– Nomes de genes que aparecem mais que uma vez com
produtos genéticos diferentes.
– Zonas codificantes dentro de outras.
8-04-2013
Genómica 12-13 MJC
21
FUTURO DA ANOTAÇÃO DE
GENOMAS BACTERIANOS
8-04-2013
Genómica 12-13 MJC
22
Melhorias para o futuro
• Genomas Gold standard
– Melhoramento das regras de submissão para evitar alguns
erros e sua propagação:
•
•
•
•
Qualidade da evidência de previsão
Previsão automática ou manual
Tipo de dados de origem
Versão da anotação
– Ha genomas com mais dados e portanto podem ser
usados com mais confiança:
• E.coli, Pseudomonas aeruginosa e Bacillus subtilis
– Proteínas multifuncionais são um problema pois a função
muitas vezes não pode ser traduzida num nome. GO são uma
boa opção a juntar à anotação.
8-04-2013
Genómica 12-13 MJC
23
Melhorias para o futuro
• Melhorias na anotação automática
– Embora não seja possível nem desejável eliminar a
anotação manual. Há alguns passos que podem ser
melhorados na anotação automática:
• Deteção de erros ortográficos comuns por exemplo ou inclusão
de mais informação disponível ou anotação com os termos GO
• Novos tipos de dados
– Dados de expressão de micro-arrays e RNA-Seq.
– Melhorias nos sofwares que permitam a visualização e
integração de todos estes dados são fundamentais.
8-04-2013
Genómica 12-13 MJC
24
CONCLUSÕES
8-04-2013
Genómica 12-13 MJC
25
• Avanços em técnicas de sequenciação mas não
de anotação
• Anotação automática é essencial mas ainda está
muito aquém da manual e há muita propagação
de erros.
• Uso da informação adicional tb não é pacífica: o
que deve estar anotado e o que deve permanecer
em bases separadas?
• O uso de anotações GO melhora a descrição das
proteínas e reduz erros de sintaxe.
8-04-2013
Genómica 12-13 MJC
26
Referências
• “The automatic annotation of bacterial
genomes” artigo na pasta do molar.
8-04-2013
Genómica 12-13 MJC
27

similar documents