Filogenética Ppgban YuriLeite
Filogenética Ppgban YuriLeite
Filogenética Ppgban YuriLeite
Yuri Leite
nó interno
ramo ou galho
internó
raiz
UTO = Unidade Taxonômica Operacional: termo originalmente cunhado por Sneath &
Sokal (proponentes da Taxonomia Numérica) para denominar as unidades objeto da
análise. Hoje otermo é universalmente utilizado para denominar os táxons terminais de
uma árvore, podendo estes ser indivíduos, populações, espécies, gêneros, famílias, etc. (do
inglês OTU = Operational Taxonomic Unit).
Árvores filogenéticas são como “móbiles”. A ordem em que os táxons terminais aparecem
não importa. Importa quem é o ancestral comum mais recente (ACMR). Por exemplo, as
duas árvores abaixo são idênticas em termos de filogenia, houve somente quatro rotações
de ramos indicadas pelas setas. 1 = ACMR de A e B; 2 = ACMR de ABC; 3 = ACMR de D e
E; 4 = ACMR de A, B, C, D e E.
A B C D E E D C A B
1
3
=
2
A B C D E = (((E,D),(C,(A,B)))
Outras formas de representar as relações filogenéticas entre os táxons sem necessidade
desenhar a árvore são o diagrama de Venn (à esquerda na figura acima) e a notação
parentética (à direita na figura acima). São muito úteis em situações onde não é possível
utilizar figuras, como resumos de trabalhos científicos, por exemplo. Ambas indicam níveis
hierárquicos cada vez mais inclusivos para os táxons terminais.
Grupo irmão: grupos (ou OTU´s) que compartilham um ACMR são chamados de grupos
irmãos. Na figura acima, por exemplo: A e B são grupos irmãos (A é irmão de B e vice-
versa); C é grupo irmão de A+B; D e E são grupos irmãos; D+E são o grupo irmão de
C+(A+B). Grupo interno: é o grupo de estudo em uma análise filogenética. Todos os
táxons que o pesquisador pretende inferir as relações filogenéticas pertencem ao grupo
interno. Grupo externo: teoricamente é qualquer OTU que não pertença ao grupo interno.
Na prática são táxons próximos ao grupo interno, mas que não pertençam a ele e que
servirão de referência na polarização dos caracteres e no enraizamento da árvore (ver
abaixo).
= OU OU
Existem dois componentes importantes que podem ser utilizados quando comparamos duas
filogenias: a topologia, que indica a posição dos táxons na árvore, ou seja a relação entre
grupos-irmãos e os comprimentos dos ramos, que indicam a quantidade de mudanças
que ocorreram em cada ramo da árvore. Existem três formas básicas de se representar uma
filogenia: o cladograma, que mostra somente a topologia, o filograma (ou árvore aditiva)
que mostra a topologia e o comprimento dos ramos, e o dendrograma (ou árvore
ultramétrica), que mostra a topologia e o comprimento dos ramos na forma de tempo
absoluto. Essas três formas estão na figura abaixo em relação à filogenia real de três táxons
(A, B, C).
filogenia cladograma filograma dendrograma
A B C A B C B A B C
A 2
C
no. mudanças
tempo
tempo
1
2
1
mudança de caráter
A C A C
A B C D
B B D
local onde D
estava a raiz
os cinco possíveis
raiz pontos de enraizamento
para quatro táxons
Para cada árvore não enraizada com n táxons, existem 2n – 3 possíveis topologias
enraizadas. Por exemplo, com 4 táxons, existem 8 – 3 = 5 árvores enraizadas (vide figuras
abaixo); com 5 táxons existem 10 – 3 = 7 topologias possíveis, etc.
1 4
Árvore não-enraizada de 4 táxons (A, B, C, D) e os cinco A C possíveis
pontos de enraizamento (1-5):
B 2 3 5
D
1 2 3 4 5
Usando a terminologia de Hennig, em uma dada árvore, um caráter possui dois estados:
plesiomórfico (ancestral ou primitivo) e apomórfico (derivado). Quando um estado de
caráter pelsiomórfico é compartilhado por dois ou mais táxons, o chamamos de
simplesiomorfia. Quando um estado de caráter apomórfico é compartilhado por dois ou
mais táxons, chamamos de sinapomorfia. Quando somente um dos táxons na árvore
possui a condição apomórfica, chamamos de autapomorfia. Na figura abaixo, os círculos
brancos representam a condição primitiva e os pretos, a derivada.
Apomorfia Plesiomorfia
Sinapomorfia Autapomorfia Homoplasia
A B C D A B C D A B C D
A B C D A B C D
A B C D
A B C D A B C D
Os táxons ou grupos mais próximos da raiz na filogenia podem ser chamados de basais e
aqueles mais distantes, de apicais. Eles não devem ser chamados de primitivos ou
derivados, pois esses termos se aplicam a estados de caráter e não a táxons. Todos os
táxons são um mosaico de caracteres primitivos e derivados em diferentes níveis. Por
definição, todos os táxons são representados por nós terminais em um cladograma, mesmo
aqueles extintos, representados por fósseis, por exemplo. Os nós internos representam
sempre ancestrais hipotéticos, e não ancestrais reais. Em um cladograma, um táxon
extinto (que pode ser uma ancestral real) torna-se o grupo-irmão de todos os seus
descendentes. Todos os táxons (viventes ou extintos) possuem autapomorfias, que
somente podem existir para os táxons terminais em um cladograma. Na figura abaixo, por
exemplo, cinco possíveis árvores evolutivas são representadas por um mesmo cladograma.
Os táxons hipotéticos (ancestrais) estão representados por círculos brancos e os táxons
reais (ancestrais ou descendentes) por círculos pretos.
A B
A B C
cladograma
A B
A B C
C B A =
A B C C
B C A C
INTRODUÇÃO À PARCIMÔNIA
Suponha que tenha sido proposta a seguinte filogenia para essas espécies:
Caráter 1: ou
Note que as duas reconstruções acima são igualmente parcimoniosas para o caráter 1,
pois envolvem somente uma transformação, ou seja ,1 passo (indicado pela seta). Abaixo
estão as reconstruções mais parcimoniosas para cada um dos demais caracteres.
Caráter 2:
Caráter 3:
Caracteres 4 e 5:
Caráter 6:
No entanto, uma análise da distribuição dos caracteres sugere uma árvore alternativa,
mostrada abaixo à esquerda, que apresenta uma mudança a menos, necessitando de
somente 8 passos. Essa é uma das árvores mais parcimoniosas (AMP´s) para esse
conjunto de dados. O número mínimo hipotético de passos que poderíamos esperar para
esses dados seria 6, pois existem 6 caracteres com dois estados cada, ou seja, se cada
caráter sofresse somente uma transformação. A figura abaixo à direita apresenta uma
outra árvore igualmente parcimoniosa, ou seja com o mesmo número de mudanças de
estados (8 passos) da árvore à esquerda. Quando existe mais de uma árvore mais
parcimoniosa para um conjunto de dados, freqüentemente são utilizadas árvores de
consenso, resultando em politomias nos internós onde existem conflitos.
Na verdade, as duas árvores acima são idênticas se removermos a raiz. A figura abaixo
mostra a árvore não enraizada correspondente e as transformações dos caracteres.
caracteres
táxons
1 2 3 4 5
A
B
C
D
E
A A A A A
B B B B B
1 1 1 1 4 1 4
C C 3 C 3 C 3 C
5
D D D D
5
2 E 2 E 2 E 2 E
ANÁLISE DE CARACTERES
Uma análise filogenética pode ser dividida em três etapas: 1) seleção de táxons e
caraceteres, 2) análise de caracteres e 3) inferência filogenética. As duas primeiras serão
abordadas aqui.
Se a taxa de evolução for baixa demais em relação ao nível hierárquico estudado, não
haverá variabilidade entre as UTOs. Por exemplo, o número de membros locomotores é
um caráter adequado ao estudo da filogenia dos vertebrados e a evolução de quatro
membros é uma sinapomorfia dos Tetrapoda (anfíbios, répteis incluindo aves e
mamíferos). No entanto, esse mesmo caráter não seria adequado na inferência
filogenética entre espécies de primatas, pois todos possuem quatro membros, não
havendo portanto, nenhum polimorfismo.
Por outro lado, se a taxa de evolução de um dado caráter for alta demais ele não será
adequado. Por exemplo, se um gene apresentar uma taxa de mutação alta demais entre
as OTUs, haverá substituições múltiplas (“multiple hits”) em uma mesma posição do
gene, fazendo com que duas sequências apresentem a mesma base não devido à
ancestralidade comum (homologia), mas por “coincidência” (homoplasia), devido a alta
taxa de substituição, como mostrado abaixo.
ATAGAAT
ATACAAT ATAGAAT homologia
ATAGAAT
Em última instância, a variabilidade dentro de uma UTO (entre indivíduos de uma espécie,
por exemplo) deve ser menor do que entre UTOs (entre as espécies, por exemplo). As
transformações devem ser bem distribuidas ao longo da árvore e, dessa maneira, o sinal
filogenético não será obstruído pelo ruído filogenético.
Análise de caracteres
Portanto, não existem caracteres “bons” ou “ruins”. Existe uma escala contínua, onde
quanto menor o grau de sobreposição, mais adequado aquele caráter será para uma
análise filogenética.
Objetivo: codificar estruturas de forma útil, que reflita com acurácia nossas observações.
Existem várias estratégias para se converter dados brutos em códigos para uma análise
filogenética, como mostrado no exemplo abaixo:
Táxons: V W X Y Z
Atributos:
Uma mesma matriz pode incluir caracteres dos três tipos apresentados acima.
Diferentemente da estratégia utilizada por Hennig, geralmente os caracteres são
considerados não-ordenados e não-polarizados em uma análise filogenética atual. Eles só
são ordenados se houver alguma razão biológica para tal e raramente são polarizados a
priori. Além disso, a princípio todos os caracteres tem o mesmo peso na análise, mas
existem situações onde alguns caracteres tem peso maior que outros (em geral com
dados moleculares). Tanto a polaridade quanto a pesagem de caracteres serão tratadas
mais adiante. Os esquemas acima podem ser espressados na forma de matrizes de
custo de transformação de um estado para o outro par-a-par. Um exemplo clássico de
caracteres não-ordenados e não-polarizados são dados de seqüências de DNA, ou seja,
os nucleotídeos A, C, T e G:
A C T G
A C A . 1 1 1
= C 1 . 1 1
T G T 1 1 . 1
G 1 1 1 .
Para serem passíveis de análise filogenética, os caracteres de uma matriz precisam ser:
• homólogos
• herdáveis
• independentes
• variáveis
• descritíveis
• codificáveis
Para um dado caráter com dois ou mais estados no grupo interno, assume-se que o
estado que ocorre em grupos relacionados (grupos externos) é o plesiomórfico. No
entanto, quando os estados variam entre os grupos externos, pode ser encontrada uma
solução mais parcimoniosa local, mas não global. Para uma solução global, precisamos
determinar o estado do caráter no nó do grupo externo (NE) e não no nó do grupo
interno (NI). Essa determinação pode ser decisiva, quando podemos determinar o estado
por parcimônia, ou equívoca (= ambígua), se mais de um estado pode ocorrer no NE.
NI = nó do grupo interno
NE = nó do grupo interno
Decisivo = a Ambíguo = a ou b
NE
A partir desse algoritmo, podem ser deduzidas algumas regras, como:
• Primeira dupla: se o primeiro grupo externo tem o mesmo estado da primeira dupla,
esse é o estado no NE (A), caso contrário, a decisão é ambígua (B).
• Grupo externo alternado: se o primeiro e último têm o mesmo estado, esse é o
estado do NE (C), caso contrário, a decisão é ambígua (D).
• Efeito tampão da primeira dupla: grupos além dela (ou seja, mais basais), não terão
efeito na polaridade.
sem efeito sem efeito
Critério ontogenético
Outros critérios
Um dos principais problemas desse método é que assume a monofilia do grupo interno.
Uma alternativa é fazer a análise em uma etapa, onde tanto o grupo externo quanto
interno são analisados conjuntamente e a polaridade é definida ao final da análise por
parcimônia.
Essa análise pode ser chamada de parcimônia global, pois encontra a solução mais
parcimoniosa não só localmente, mas globalmente e testa a monofilia do grupo interno.
Nos cladogramas abaixo, as duas topologias do grupo interno são igualmente
parcimoniosas em A e B, mas quando consideramos o grupo externo, a árvore C é mais
parciomoniosa que a árvore D.
Esse método assume a polaridade a priori, ou seja, sabe-se de antemão qual é o estado
ancestral (plesiomórfico) e a mudança só ocorre em uma direção. No caso de dois
estados, 0 e 1, a mudança só pode acontecer de 0 para 1 e reversões são impossíveis.
As homoplasias têm, portanto, múltiplas origens e essa otimização favorece a
convergência. Raramente utilizado, pode ser empregado na evolução de pequenas
deleções de DNA, quando existem razões para se acreditar que elas não revertem
expontaneamente.
Esse método assume carcteres não polarizados, mas ordenados (=aditivos), de modo
que uma transformação do estado 0 para 2 deve passar pelo estado intermediário 1. O
custo de uma transformação de 0 para 2 é 2, ou seja, o dobro da transformação de 0 para
1, que é 1, por exemplo. A reversão dos caracteres é livre, fazendo com que o tamanho
do cladograma seja independente da posição da raiz. Essa otimização é aplicada com
freqüência em matrizes de dados morfológicos.
Fundamenta-se na Lei de Dollo (1893), que postula que uma vez que uma estrutura
complexa é atingida, não será novamente atingida na mesma forma. Ou seja, apomorfias
só são atingidas uma vez e todas as homoplasias devem ser atribuidas a perdas
secundárias (reversões). Assim como a otimização de Camin-Sokal, esse método
assume a polaridade a priori, ou seja, a transformação só ocorre em uma direção. Esse
cenário desfavorece a convergência evolutiva. Mais aplicado, geralmente em uma versão
“relaxada”, como um modelo de perda e ganho de sítios de restrição de DNA, onde há
baixa probabilidade de ganho e alta de perda de um sítio.
Parcimônia generalizada
(1) (0)
(0) (0)
ACCTRAN: reversão DELTRAN: paralelismo
Convergência x Paralelismo
Pesagem de caracteres
a) Pesagem a priori:
• entre posições ou inter-posicional (diferenças estruturais/funcionais):
9 posição do códon: pesagem seletiva para mudanças na primeira, segunda, ou
terceira posição em relação à redundância do código genético;
9 “troncos” e “alças”: pesagem seletiva para alças e troncos em função da
estrutura secundária de RNAs.
• em uma dada posição ou intra-posicional (viés mutacional):
9 transversões X transições (pesagem do viés transicional);
9 susbstituição relativa à composição de bases (12 substituições possíveis
pesadas de acordo com a freqüência das bases);
9 mudanças sinônimas X não-sinônimas (mudanças de aminoácidos em regiões
codificadoras.
b) Pesagem a posteriori:
• Aproximações sucessivas: pesagem de acordo com os níveis de homoplasia;
• Pesagem dinâmica: também de acordo com os níveis de homoplasia, inclui intra-
posicional e inter-posicional.
INFERÊNCIA FILOGENÉTICA
Busca exaustiva
Similar à busca exaustiva, mas muito mais rápida. À medida em que se percorre uma
“árvore” de árvores de busca, ajusta-se um limite (bound), descartando caminhos que não
apresentem nenhuma chance de chegar ou superar o ótimo. Com isso, economiza-se
muito tempo de computação, mas memso assim é uma busca demorada.
Busca heurística
1) àrvore inicial: pode obtida por adição sequencial de táxons (stepwise addition),
por agrupamento de vizinhos (neighbor-joining) – uma técnica baseada na
distância entre as UTO´s), ou pode ser arbitrária (informada pelo pesquisador). O
método mais comum é a adição sequencial aleatória, com multiplas replicações
(geralmente 10) para aumentar as chancesde se atingir o ótimo global (analogia
com escaladores).