Filogenética Ppgban YuriLeite

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 23

Filogenética (BIO 9525) – PPGBAN / UFES – Prof.

Yuri Leite

INTRODUÇÃO: TERMOS E CONCEITOS

Árvore filogenética, árvore evolutiva ou filogenia: representa as relações de ancestralidade


comum entre táxons ou grupos. Uma filogenia sempre representa uma hipótese de
relações entre grupos, inferida com base nos dados estudados, que podem ser caracteres
morfológicos, moleculares, etc. Essa hipótese está sujeita a ser confirmada ou refutada no
futuro, assim como qualquer hipótese dentro do método científico (hipotético-dedutivo).
Isso pode ocorrer caso sejam realizadas análises que incluam mais táxons ou mais
caracteres, por exemplo, e/ou que utilizem diferentes métodos de inferência filogenética.
Não há como confirmar se a filogenia obtida é igual a verdadeira árvore da vida ou quão
próxima ela está dela. A árvore da vida já “aconteceu” (e continua “acontecendo”) e é
portanto um evento histórico, sendo que a filogenia pode ser inferida, e não aferida.

Os principais termos utilizados estão indicados na figura abaixo.


A B C UTO ou
nó terminal táxon terminal

nó interno
ramo ou galho
internó
raiz

UTO = Unidade Taxonômica Operacional: termo originalmente cunhado por Sneath &
Sokal (proponentes da Taxonomia Numérica) para denominar as unidades objeto da
análise. Hoje otermo é universalmente utilizado para denominar os táxons terminais de
uma árvore, podendo estes ser indivíduos, populações, espécies, gêneros, famílias, etc. (do
inglês OTU = Operational Taxonomic Unit).

Árvores filogenéticas são como “móbiles”. A ordem em que os táxons terminais aparecem
não importa. Importa quem é o ancestral comum mais recente (ACMR). Por exemplo, as
duas árvores abaixo são idênticas em termos de filogenia, houve somente quatro rotações
de ramos indicadas pelas setas. 1 = ACMR de A e B; 2 = ACMR de ABC; 3 = ACMR de D e
E; 4 = ACMR de A, B, C, D e E.

A B C D E E D C A B

1
3
=
2

A B C D E = (((E,D),(C,(A,B)))
Outras formas de representar as relações filogenéticas entre os táxons sem necessidade
desenhar a árvore são o diagrama de Venn (à esquerda na figura acima) e a notação
parentética (à direita na figura acima). São muito úteis em situações onde não é possível
utilizar figuras, como resumos de trabalhos científicos, por exemplo. Ambas indicam níveis
hierárquicos cada vez mais inclusivos para os táxons terminais.

Grupo irmão: grupos (ou OTU´s) que compartilham um ACMR são chamados de grupos
irmãos. Na figura acima, por exemplo: A e B são grupos irmãos (A é irmão de B e vice-
versa); C é grupo irmão de A+B; D e E são grupos irmãos; D+E são o grupo irmão de
C+(A+B). Grupo interno: é o grupo de estudo em uma análise filogenética. Todos os
táxons que o pesquisador pretende inferir as relações filogenéticas pertencem ao grupo
interno. Grupo externo: teoricamente é qualquer OTU que não pertença ao grupo interno.
Na prática são táxons próximos ao grupo interno, mas que não pertençam a ele e que
servirão de referência na polarização dos caracteres e no enraizamento da árvore (ver
abaixo).

Politomia: diz-se quando não há dicotomia, ou seja, quando um ancestral comum dá


origem a mais de dois descendentes. Isso significa que qualquer relação de parentesco é
possível entre os táxons envolvidos. As politomias podem ser “macias” (soft polytomy), ou
seja, resultado de dados insuficientes ou conflitantes e portanto um artefato de técnica ou
“duras” (hard polytomy) que indicam um evento real de especiação praticamente simultânea
de mais de dois grupos, como no caso de uma radiação adaptativa, por exemplo. Quando
existem três grupos envolvidos é chamada de tricotomia, como mostrada na figura abaixo.
A B C A B C B C A A C B

= OU OU

Existem dois componentes importantes que podem ser utilizados quando comparamos duas
filogenias: a topologia, que indica a posição dos táxons na árvore, ou seja a relação entre
grupos-irmãos e os comprimentos dos ramos, que indicam a quantidade de mudanças
que ocorreram em cada ramo da árvore. Existem três formas básicas de se representar uma
filogenia: o cladograma, que mostra somente a topologia, o filograma (ou árvore aditiva)
que mostra a topologia e o comprimento dos ramos, e o dendrograma (ou árvore
ultramétrica), que mostra a topologia e o comprimento dos ramos na forma de tempo
absoluto. Essas três formas estão na figura abaixo em relação à filogenia real de três táxons
(A, B, C).
filogenia cladograma filograma dendrograma

A B C A B C B A B C

A 2
C
no. mudanças

tempo
tempo

1
2
1

mudança de caráter

Filogenética (BIO9525) – Yuri Leite – Introdução 2


Todas as árvores mostradas até o momento possuem uma raiz, o nó mais basal que vai
determinar a direção das transformações de caracteres. Uma árvore enraizada é como um
conjunto de balões presos por linhas e seguros nas mãos de uma pessoa, como na figura
abaixo. Se a pessoa soltar a linha, os balões flutuam se transformando em uma árvore não-
enraizada.

A C A C

A B C D
B B D
local onde D
estava a raiz
os cinco possíveis
raiz pontos de enraizamento
para quatro táxons

Para cada árvore não enraizada com n táxons, existem 2n – 3 possíveis topologias
enraizadas. Por exemplo, com 4 táxons, existem 8 – 3 = 5 árvores enraizadas (vide figuras
abaixo); com 5 táxons existem 10 – 3 = 7 topologias possíveis, etc.
1 4
Árvore não-enraizada de 4 táxons (A, B, C, D) e os cinco A C possíveis
pontos de enraizamento (1-5):
B 2 3 5
D

As cinco possíveis árvores enraizadas nos pontos de enraizamento mostrados acima:


C D B A C D A B B A C D C D A B D C A B

1 2 3 4 5

Usando a terminologia de Hennig, em uma dada árvore, um caráter possui dois estados:
plesiomórfico (ancestral ou primitivo) e apomórfico (derivado). Quando um estado de
caráter pelsiomórfico é compartilhado por dois ou mais táxons, o chamamos de
simplesiomorfia. Quando um estado de caráter apomórfico é compartilhado por dois ou
mais táxons, chamamos de sinapomorfia. Quando somente um dos táxons na árvore
possui a condição apomórfica, chamamos de autapomorfia. Na figura abaixo, os círculos
brancos representam a condição primitiva e os pretos, a derivada.

Apomorfia Plesiomorfia
Sinapomorfia Autapomorfia Homoplasia

As sinapomorfias são homologias especiais, pois agrupam todos os descendentes de um


ancestral comum. O grupo formado por todos os descendentes de um ancestral comum em
uma filogenia é chamado de monofilético. Esse grupo é caracterizado por sinapomorfias.
Caso o grupo não inclua todos os descendentes de um ancestral, ele é chamado de

Filogenética (BIO9525) – Yuri Leite – Introdução 3


parafilético. Esse grupo é caracterizado por simplesiomorfias. Um grupo que agrupa táxons
filogeneticamente distantes com base em homoplasias (características que evoluiram
independentemente por reversão ou paralelismo) é chamado de polifilético. A diferença
entre grupos para e polifiléticos nem sempre é clara. Alguns autores consideram os termos
homologia e sinapomorfia sinônimos, enquanto outros consideram tanto as sinapomorfias
quanto as simplesiomorfias como homologias, pois foram herdadas de um ancestral
comum.

Monofiléticos Parafiléticos Polifiléticos

A B C D A B C D A B C D

A B C D A B C D

A B C D

A B C D A B C D

Os táxons ou grupos mais próximos da raiz na filogenia podem ser chamados de basais e
aqueles mais distantes, de apicais. Eles não devem ser chamados de primitivos ou
derivados, pois esses termos se aplicam a estados de caráter e não a táxons. Todos os
táxons são um mosaico de caracteres primitivos e derivados em diferentes níveis. Por
definição, todos os táxons são representados por nós terminais em um cladograma, mesmo
aqueles extintos, representados por fósseis, por exemplo. Os nós internos representam
sempre ancestrais hipotéticos, e não ancestrais reais. Em um cladograma, um táxon
extinto (que pode ser uma ancestral real) torna-se o grupo-irmão de todos os seus
descendentes. Todos os táxons (viventes ou extintos) possuem autapomorfias, que
somente podem existir para os táxons terminais em um cladograma. Na figura abaixo, por
exemplo, cinco possíveis árvores evolutivas são representadas por um mesmo cladograma.
Os táxons hipotéticos (ancestrais) estão representados por círculos brancos e os táxons
reais (ancestrais ou descendentes) por círculos pretos.
A B
A B C
cladograma
A B
A B C
C B A =
A B C C

B C A C

Filogenética (BIO9525) – Yuri Leite – Introdução 4


Filogenética (BIO 9525) – PPGBAN / UFES – Prof. Yuri Leite

INTRODUÇÃO À PARCIMÔNIA

Um dos critérios de otimização mais utilizados é o da máxima parcimônia, onde a


filogenia preferida é aquela que envolve o menor número de transformações (ou
mudanças) de estado de caracteres, ou seja, o menor número global de passos dentre
todas as topologias possíveis. A árvore mais parcimoniosa é, portanto, aquela com o
menor tamanho (ou comprimento de ramos) quando reconstruímos os eventos evolutivos
que levaram à matriz de dados.

Exemplo 1: Para encontrarmos a árvore mais parcimoniosa, precisamos calcular quantas


mudanças de estado são necessárias para uma dada árvore. Vamos ilustrar com um
exemplo simples, onde os caracteres possuem dois estados possíveis (0 e 1). Serão
permitidas transformações de 0 → 1 e de 1 → 0. São 5 espécies (Alfa, Beta, Gama, Delta,
Epsilon) analisadas em relação a 6 caracteres (colunas 1 – 6) conforme a matriz abaixo.

Suponha que tenha sido proposta a seguinte filogenia para essas espécies:

Vamos agora procurar manualmente a melhor reconstrução da evolução de cada caráter


da matriz acima. O caráter número 1 apresenta duas reconstruções igualmente
parcimoniosas mostradas abaixo. O estado “0” é representado por ramos brancos e o
estado “1” pelos ramos pretos. O estado inicial na raiz pode ser 0 ou 1.

Caráter 1: ou
Note que as duas reconstruções acima são igualmente parcimoniosas para o caráter 1,
pois envolvem somente uma transformação, ou seja ,1 passo (indicado pela seta). Abaixo
estão as reconstruções mais parcimoniosas para cada um dos demais caracteres.

Caráter 2:

Caráter 3:

Caracteres 4 e 5:

Caráter 6:

Filogenética (BIO9525) – Yuri Leite – Introdução à parcimônia 2


Se somarmos o número mínimo de mudanças de cada caráter para essa topologia (ou
seja, o número de setas nas árvores acima), temos: 1+2+1+2+2+1 = 9 passos. A árvore
abaixo mostra a reconstrução de todas as mudanças de caráter ao mesmo tempo na
filogenia proposta. Foi feita uma escolha arbitrária no caso dos caracteres com mais de
uma reconstrução igualmente parcimoniosa.

No entanto, uma análise da distribuição dos caracteres sugere uma árvore alternativa,
mostrada abaixo à esquerda, que apresenta uma mudança a menos, necessitando de
somente 8 passos. Essa é uma das árvores mais parcimoniosas (AMP´s) para esse
conjunto de dados. O número mínimo hipotético de passos que poderíamos esperar para
esses dados seria 6, pois existem 6 caracteres com dois estados cada, ou seja, se cada
caráter sofresse somente uma transformação. A figura abaixo à direita apresenta uma
outra árvore igualmente parcimoniosa, ou seja com o mesmo número de mudanças de
estados (8 passos) da árvore à esquerda. Quando existe mais de uma árvore mais
parcimoniosa para um conjunto de dados, freqüentemente são utilizadas árvores de
consenso, resultando em politomias nos internós onde existem conflitos.

Na verdade, as duas árvores acima são idênticas se removermos a raiz. A figura abaixo
mostra a árvore não enraizada correspondente e as transformações dos caracteres.

Filogenética (BIO9525) – Yuri Leite – Introdução à parcimônia 3


Existem ambigüidades no mapeamento das transformações em uma filogenia, pois
existem alternativas igualmente parcimoniosas, como mostradas acima. Isso implica que
não podemos simplesmente contar o número de mudanças em cada ramo. Uma
alternativa é calcular a média de todas as possibilidades mais parcimoniosas para cada
caráter em caso de ambigüidade. Isso faz com que os números fiquem fracionados por
um lado, mas a soma dos comprimentos de todos os ramos é igual ao comprimento total
da árvore (ou seja o número de passos). Abaixo à esquerda está a filogenia inicial
proposta e à direita a filogenia não enraizada correspondente com os tamanhos dos
ramos.

Exemplo 2: No exemplo acima, os caracteres não estão polarizados a priori, ou seja,


não sabemos qual dos estados (0 ou 1) é plesiomórfico ou apomórfico para cada caráter.
No próximo exemplo com 5 táxons (A – E) e 5 caracteres (1 – 5), os caracteres são
polarizados, sendo “0” a condição plesiomórfica e “1”, a apomórfica.

caracteres
táxons
1 2 3 4 5
A
B
C
D
E

Podemos reconstruir a filogenia mais parcimoniosa passo-a-passo (da esquerda para a


direita na figura abaixo), começando pelo caráter 1 que indica o grupo ABC, o 2 que
indica DE, etc. Em relação ao caráter 1, o caráter 2 é consistente, pois não há táxons
comuns agrupados por eles. O caráter 3 também é consistente com o 1, pois indica um
subgrupo de ABC. Já o caráter 4 é congruente em relação ao 1, pois ambos indicam
exatamente o mesmo grupo (ABC). Já o caráter 5, é conflitante pois indica uma relação
entre CD que não foi indicada por nenhum outro caráter. Isso faz com que ele tenha que
sofrer duas transformações na filogenia, sendo portanto homoplástico.

A A A A A

B B B B B
1 1 1 1 4 1 4
C C 3 C 3 C 3 C
5
D D D D
5
2 E 2 E 2 E 2 E

Filogenética (BIO9525) – Yuri Leite – Introdução à parcimônia 4


Filogenética (BIO 9525) – PPGBAN / UFES – Prof. Yuri Leite

ANÁLISE DE CARACTERES

Uma análise filogenética pode ser dividida em três etapas: 1) seleção de táxons e
caraceteres, 2) análise de caracteres e 3) inferência filogenética. As duas primeiras serão
abordadas aqui.

Seleção de táxons e caracteres

A seleção de táxons e caracteres depende da pergunta que se pretende responder. As


UTOs escolhidas devem abranger uma amostra significativa dos táxons estudados. Mais
importante, os caracteres selecionados devem ser adequados ao nível hierárquico de
interesse. Em outras palavras, a taxa de evolução dos caracteres escolhidos deve ser
adequada às UTOs, como representado na figura abaixo.

taxa adequada taxa baixa demais taxa alta demais

Se a taxa de evolução for baixa demais em relação ao nível hierárquico estudado, não
haverá variabilidade entre as UTOs. Por exemplo, o número de membros locomotores é
um caráter adequado ao estudo da filogenia dos vertebrados e a evolução de quatro
membros é uma sinapomorfia dos Tetrapoda (anfíbios, répteis incluindo aves e
mamíferos). No entanto, esse mesmo caráter não seria adequado na inferência
filogenética entre espécies de primatas, pois todos possuem quatro membros, não
havendo portanto, nenhum polimorfismo.

Por outro lado, se a taxa de evolução de um dado caráter for alta demais ele não será
adequado. Por exemplo, se um gene apresentar uma taxa de mutação alta demais entre
as OTUs, haverá substituições múltiplas (“multiple hits”) em uma mesma posição do
gene, fazendo com que duas sequências apresentem a mesma base não devido à
ancestralidade comum (homologia), mas por “coincidência” (homoplasia), devido a alta
taxa de substituição, como mostrado abaixo.

ATAGAAT
ATACAAT ATAGAAT homologia
ATAGAAT

ATAAAAT ATACAAT ATATAAT ATAGAAT


homoplasia
ATATAAT ATAAAAT ATACAAT ATAGAAT

Em última instância, a variabilidade dentro de uma UTO (entre indivíduos de uma espécie,
por exemplo) deve ser menor do que entre UTOs (entre as espécies, por exemplo). As
transformações devem ser bem distribuidas ao longo da árvore e, dessa maneira, o sinal
filogenético não será obstruído pelo ruído filogenético.
Análise de caracteres

Tradicionalmente, a matriz de dados é formada por caracteres codificados de forma


discreta em colunas e táxons em linhas. Em geral, o número de caracteres é maior que o
número de táxons, fazendo com que a matriz seja retangular. Entre a descoberta inicial de
caracteres e o registro de sua variação na matriz de dados, são aplicados diversos filtros.
O filtro mais óbvio em uma análise filogenética é aquele que favorece caracteres
discretos e qualitativos sobre aqueles contínuos e quantitativos. Caracteres
quantitativos são difíceis de se descrever, requerendo médias, medianas e variâncias
para se estabelecer intervalos.

A distinção entre caracteres quantitativos e qualitativos é mais aparente do que real. Na


verdade os caracteres qualitativos são na verdade intervalos quantitativos separados por
grandes discontinuidades e uma terminologia qualitativa que esconde valores
quantitativos. Na matriz, dados originalmente quantitativos são representados por
expressões quantitativas. Já os termos contínuo e discreto referem-se a propriedades
matemáticas dos dados, sendo que no primeiro existe um número potencial infinito estre
dois estados de caráter (números decimais, por exemplo) que não existe no segundo
(números inteiros, por exemplo).

Na verdade, a propriedade crucial é o grau de sobreposição, como representado na


figura abaixo. Um caráter contínuo pode apresentar valores disjuntos (a) ou sobrepostos
(b), com uma escala contínua de variação entre eles, assim como um caráter discreto,
que também pode ser disjunto (c) ou sobreposto (d).
a b c d

Portanto, não existem caracteres “bons” ou “ruins”. Existe uma escala contínua, onde
quanto menor o grau de sobreposição, mais adequado aquele caráter será para uma
análise filogenética.

Caracteres diagnósticos são aqueles utilizados em chaves e que distinguem um táxon


de outros parecidos, enquanto que caracteres filogenéticos ou sistemáticos são
homólogos e sugerem relações de parentesco evolutivo. Alguns autores argumentam que
caracteres são hipóteses iniciais de homologia (homologia primária), sendo submetidos
às análises filogenéticas que testam sua congruência, podendo ou não serem
confirmados como sinapomorfia (homologia secundária).

Estruturas que são idênticas em forma, posição e desenvolvimento em dois ou mais


organismos são a mesma entidade e, portanto, potenciais caracteres para uma análise
filogenética. Caracteres são atributos de táxons e devem possuir pelo menos dois
estados de caráter, que são atributos dos organismos. A transformação de um estado
(plesiomórfico) para o outro (apomórfico) é o evento crucial para a fiogenia e sua
posição na árvore indica relações de parentesco entre os táxons (sinapomorfia).

Filogenética (BIO9525) – Yuri Leite – Análise de caracteres 2


Codificação de caracteres

Objetivo: codificar estruturas de forma útil, que reflita com acurácia nossas observações.
Existem várias estratégias para se converter dados brutos em códigos para uma análise
filogenética, como mostrado no exemplo abaixo:

Táxons: V W X Y Z
Atributos:

Quatro métodos de codificação para os atributos acima:


A. um caráter com estados múltiplos:
1. ausente (0); redondo e preto (1); redondo e branco (2); quadrado e preto (3);
quadrado e preto (4).
B. forma e cor tratados como dois caracteres independentes:
1. ausente (0); redondo (1); quadrado (2).
2. ausente (0); preto (1); branco (2).
C. codificação hierárquica com forma e cor tratados como dois caracteres
independentes e um caráter adicional para presença/ausência:
1. estrutura ausente (0); estrutura presente (1).
2. redondo (0); quadrado (1).
3. preto (0); branco (1).
D. codificação independente das variáveis em cinco caracteres:
1. estrutura ausente (0); estrutura presente (1).
2. forma redonda ausente (0); forma redonda presente (1).
3. forma quadrada ausente (0); forma quadrada presente (1).
4. pigmentação preta ausente (0); pigmentação preta presente (1).
5. pigmentação branca ausente (0); pigmentação branca presente (1).

Quatro matrizes numéricas resultantes dos métodos (A-D) acima:


táxons método
A B C D
V 0 00 0?? 00000
W 1 11 100 11010
X 2 12 101 11001
Y 3 21 110 10110
Z 4 22 111 10101

No método A, múltiplos estados minimizam a ligação entre caracteres, que é altamente


desejável pois os caracteres devem ser independentes uns dos outros em uma análise
filogenética. No método B, existe uma duplicação de ausências, corrigida no método C,
que usa caracteres binários. No método D, não há ligação entre os caracteres, que são
tratados de forma independente. Em geral, caracteres ligados e com múltiplos estados
(método A) são mais adequados em uma escala hierárquica mais inclusiva (famílias e
ordens, por exemplo) e caracteres binários independentes são mais aplicados em escalas
menos inclusivas (gêneros e espécies, por exemplo).

Filogenética (BIO9525) – Yuri Leite – Análise de caracteres 3


Ordenação, polaridade e pesagem de caracteres

Caracteres são ordenados quando a transfomação do estado 0 para o 2 requer a


passagem pelo estado 1, por exemplo. Eles são não-ordenados quando a transformação
direta de 0 para 2 é possível. Já a polaridade diz respeito à direção da transformação.
Caracteres são polarizados quando sabemos a priori qual condição é primitiva e qual é
derivada. Por exemplo, um caráter com quatro estados pode ser:
0 1
0↔1↔2↔3 0→1→2→3
2 3
não-ordenado e ordenado e ordenado e
não-polarizado não-polarizado polarizado

Uma mesma matriz pode incluir caracteres dos três tipos apresentados acima.
Diferentemente da estratégia utilizada por Hennig, geralmente os caracteres são
considerados não-ordenados e não-polarizados em uma análise filogenética atual. Eles só
são ordenados se houver alguma razão biológica para tal e raramente são polarizados a
priori. Além disso, a princípio todos os caracteres tem o mesmo peso na análise, mas
existem situações onde alguns caracteres tem peso maior que outros (em geral com
dados moleculares). Tanto a polaridade quanto a pesagem de caracteres serão tratadas
mais adiante. Os esquemas acima podem ser espressados na forma de matrizes de
custo de transformação de um estado para o outro par-a-par. Um exemplo clássico de
caracteres não-ordenados e não-polarizados são dados de seqüências de DNA, ou seja,
os nucleotídeos A, C, T e G:
A C T G
A C A . 1 1 1
= C 1 . 1 1
T G T 1 1 . 1
G 1 1 1 .

Dados perdidos (“missing data”)

Dados perdidos, geralmente designados como “ ? ”, “ – ” ou “ * ” em programas de


computador, são freqüentemente encontrados em matrizes de dados, principalmente
quando se trata de fósseis, conhecidos por pequenos fragmentos. Isso pode significar
situações distintas, como: 1) estado desconhecido: existe um estado, mas nós não
sabemos qual é, pois temos um espécime incompleto ou uma seqüência de DNA
incompleta, por exemplo; 2) estado inaplicável: se uma estrutura está ausente, não
podemos saber sua forma ou cor, como no exemplo da página anterior ou uma lacuna ou
(“gap”) em uma sequência de DNA; 3) polimorfismo: quando mais de um estado pode
ser encontrado entre os membros de uma mesma UTO. Alguns programas de
computador (como PAUP, por exemplo) são capazes fazer uma distinção entre
polimorfismos desses três tipos. Qualquer que seja a cause, valores perdidos em uma
matriz podem levar a um aumento do número de árvores mais parcimoniosas, diminuição
da resolução do cladograma ou seleção de um cladograma mais parcimonioso do que
seria permitido por uma evolução plausível de caracteres. Por outro lado, a adição de
táxons-chave, mesmo com poucos dados, geralmente compensa essas desvantagens.

Filogenética (BIO9525) – Yuri Leite – Análise de caracteres 4


Codificação de dados morfométricos

Para a utilização de dados contínuos em análises filogenéticas, é necessário re-codificar


esses dados transformando-os em estados discretos, uma metodologia conhecida, de
forma geral, como codificação de lacunas (“gap-coding”). Existem vários métodos com
vários nomes (pesagem de lacunas, codificação de intervalos, codificação de divergência,
etc.), mas todos tem uma coisa em comum: um algoritmo simples para criar lacunas de
modo a produzir códigos discretos a partir de valores contínuos ou sobrepostos.

Análises de caracteres moleculares

No caso de dados de seqüências de DNA, é importante escolher genes com taxa de


evolução adequada ao nível hierárquico estudado, como mencionado anteriormente. A
partir do momento que a seqüência é obtida, a etapa seguinte é o alinhamento das
seqüências, ou seja a determinação da homologia entre as posições dos nucleotídeos no
gene. Essa é uma etapa crucial na análise, pois um alinhamento incorreto pode levar a
uma inferência filogenética completamente equivocada.

Para genes codificadores de proteínas, principalmente aqueles sem íntrons (como os do


DNA mitocondrial), o alinhamento entre seqüências de táxons filogeneticamente próximos
é trivial e pode ser feita manualmente através de uma comparação par-a-par. Já quando
há grande divergência de seqüências e/ou os genes não codificam proteínas (rRNA, por
exemplo), o alinhamento é uma tarefa mais complexa, melhor desempenhada por um
programa de computador que pode fazer um alinhamento múltiplo de seqüências. A
idéia central dos algoritmos de alinhamento de sequências é minimizar as diferenças
entre elas, algumas vezes inserindo lacunas (“gaps”). O alinhamento, mesmo que
automático, deve ser conferido e alguns parâmetros podem ser ajustados, como por
exemplo o custo de se inserir uma lacuna ou de se estender (aumentar) uma dada lacuna.

Pré-requisitos dos caracteres

Para serem passíveis de análise filogenética, os caracteres de uma matriz precisam ser:

• homólogos
• herdáveis
• independentes
• variáveis
• descritíveis
• codificáveis

Filogenética (BIO9525) – Yuri Leite – Análise de caracteres 5


Filogenética (BIO 9525) – PPGBAN / UFES – Prof. Yuri Leite

GRUPOS EXTERNOS E POLARIDADE

Polarizar um caráter significa impor uma direção para a transformação do estado


plesiomórfico para o apomórfico. Na cladística Hennigiana, os caracteres são polarizados
antes da análise, ou seja, a priori. Já nos métodos de inferência filogenética atuais, a
polarização é feita após a análise, ou a posteriori. Existem dois critérios mais aceitos de
determinação da polaridade, a comparação com grupos externos e o ontogenético.

Comparação com grupos externos

Para um dado caráter com dois ou mais estados no grupo interno, assume-se que o
estado que ocorre em grupos relacionados (grupos externos) é o plesiomórfico. No
entanto, quando os estados variam entre os grupos externos, pode ser encontrada uma
solução mais parcimoniosa local, mas não global. Para uma solução global, precisamos
determinar o estado do caráter no nó do grupo externo (NE) e não no nó do grupo
interno (NI). Essa determinação pode ser decisiva, quando podemos determinar o estado
por parcimônia, ou equívoca (= ambígua), se mais de um estado pode ocorrer no NE.

grupo grupo grupo grupo


externo interno externo interno

NI = nó do grupo interno

NE = nó do grupo interno

A decisão pode ser feita por inspeção visual, usando a parcimônia:

Decisivo = a Ambíguo = a ou b

Ou utilizando o algoritmo do grupo externo de Maddison et al. (1984):

NE
A partir desse algoritmo, podem ser deduzidas algumas regras, como:
• Primeira dupla: se o primeiro grupo externo tem o mesmo estado da primeira dupla,
esse é o estado no NE (A), caso contrário, a decisão é ambígua (B).
• Grupo externo alternado: se o primeiro e último têm o mesmo estado, esse é o
estado do NE (C), caso contrário, a decisão é ambígua (D).

• Efeito tampão da primeira dupla: grupos além dela (ou seja, mais basais), não terão
efeito na polaridade.
sem efeito sem efeito

• Importância do primeiro GE e do membro mais basal de um GE heterogêneo: se eles


tem um estado único, o estado do NE só pode ser esse estado ou ambíguo.

Critério ontogenético

Tem suas raízes no século 19:


• Lei Biogenética de Haeckel: ontogenia recapitula a filogenia, ou seja, o
desenvolvimento ontogenético de uma espécie passa por estágios que os adultos de
seus ancestrais apresentavam.
• Regras de von Baer: (1) Durante a ontogenia, dois táxons seguem o mesmo curso do
desenvolvimento até o ponto em que eles divergem em linhagens separadas; (2) No
desenvolvimento, os carcteres gerais aparecem antes dos especiais.

A partir disso, podemos inferir que a condição geral é plesiomórfica e a especializada é


apomórfica (por exemplo, cartilagens e ossos nos vertebrados). No entanto, existem
deficuldades de interpretação e problemas com essa regra (pedomorfismo, por exemplo).
O critério ontogenético e os grupos externos podem ser encarados como
complementares, com papéis que não se sobrepõem. Portanto, o debate sobre qual seria
superior não faz muito sentido.

Outros critérios

Existem outros critérios baseados em modelos de como os estados dos caracteres se


transformariam. No entanto, esses critérios carecem de suporte teórico e empírico:

Filogenética (BIO9525) – Yuri Leite – Grupos externos e polaridade 2


• Freqüência no grupo interno: comum = primitivo.
• Estratigrafia: velho = primitivo.
• Biogeografia: mais distante = derivado (regra da progressão de Hennig).
• Função/valor adaptativo: especializado = derivado.

Polaridade a priori x a posteriori

A análise filogenética com determinação de polaridade a priori (como na argumentação


Hennigiana) é feita em duas etapas: (1) definição dos estados ancestrais para cada
caráter (usando grupo externo ou critério ontogenético) e (2) sinapomorfias são usadas
para construir o cladograma:
grupos externos grupo interno

Um dos principais problemas desse método é que assume a monofilia do grupo interno.
Uma alternativa é fazer a análise em uma etapa, onde tanto o grupo externo quanto
interno são analisados conjuntamente e a polaridade é definida ao final da análise por
parcimônia.

Essa análise pode ser chamada de parcimônia global, pois encontra a solução mais
parcimoniosa não só localmente, mas globalmente e testa a monofilia do grupo interno.
Nos cladogramas abaixo, as duas topologias do grupo interno são igualmente
parcimoniosas em A e B, mas quando consideramos o grupo externo, a árvore C é mais
parciomoniosa que a árvore D.

Filogenética (BIO9525) – Yuri Leite – Grupos externos e polaridade 3


Na análise simultânea, é construida uma matriz de dados para todos os táxons (grupos
interno e externo), sem definição de polaridade a priori. O cladograma resultante é
enraizado entre o grupo interno e o externo e a polaridade é inferida a partir do
cladograma.

Existem outros métodos de enraizamento, como por exemplo:


• Um ancestral hipotético é incluido na matriz com todos os caracteres na condição
supostamente plesiomórfica.
• Enraizamento de Lundberg: 1) infere-se a árvore mais parciomoniosa não enraizada
do grupo interno; 2) um ancestral hipotético com todos os caracteres com estados
plesiomórficos é colocado no ponto que menos aumenta o tamanho da árvore como
um todo.
• Enraizamento no ponto central: raiz é colocada no ponto central do ramo mais longo
da árvore não enraizada.

No entanto, a análise simultânea dos grupos externo e interno com o posterior


enraizamento entre esses grupos é o melhor e mais usado método em inferência
filogenética.

Filogenética (BIO9525) – Yuri Leite – Grupos externos e polaridade 4


Filogenética (BIO 9525) – PPGBAN / UFES – Prof. Yuri Leite

OTIMIZAÇÃO E PESAGEM DE CARCTERES

O critério de otimização a ser utilizado em uma inferência filogenética define o que


estamos buscando na análise, ou seja o que esperamos como “ótimo”. Existem três
critérios mais comuns de otimização:
• parcimônia, que busca a árvore com menor número total de passos;
• distância, que busca a árvore que melhor represente uma matriz de distâncias;
• verossimilhança, que busca a árvore com maior probabilidade de ter dado origem
à matriz de caracteres a partir de um modelo evolutivo.
Mesmo dentro da parcimônia, existem variações, como as detalhadas abaixo. A definição
do critério de otimização deve ser feita a priori, ou seja, antes da análise.

Otimização de Camin-Sokal (1965)

Esse método assume a polaridade a priori, ou seja, sabe-se de antemão qual é o estado
ancestral (plesiomórfico) e a mudança só ocorre em uma direção. No caso de dois
estados, 0 e 1, a mudança só pode acontecer de 0 para 1 e reversões são impossíveis.
As homoplasias têm, portanto, múltiplas origens e essa otimização favorece a
convergência. Raramente utilizado, pode ser empregado na evolução de pequenas
deleções de DNA, quando existem razões para se acreditar que elas não revertem
expontaneamente.

Otimização de Wagner (Farris, 1970)

Esse método assume carcteres não polarizados, mas ordenados (=aditivos), de modo
que uma transformação do estado 0 para 2 deve passar pelo estado intermediário 1. O
custo de uma transformação de 0 para 2 é 2, ou seja, o dobro da transformação de 0 para
1, que é 1, por exemplo. A reversão dos caracteres é livre, fazendo com que o tamanho
do cladograma seja independente da posição da raiz. Essa otimização é aplicada com
freqüência em matrizes de dados morfológicos.

Otimização de Fitch (1971)

Similar à de Wagner, mas os caracteres não polarizados e não ordenados (=não


aditivos). Ou seja, o custo de qualquer transformação (0 para 1 ou 0 para 3 ou 2 para 5,
etc.) é sempre o mesmo: 1. A reversão também é livre fazendo e o tamanho do
cladograma seja independente da posição da raiz. Essa é a otimização tradicionalmente
utilizada em dados de seqüências de DNA. É importante salientar que, quando os
caracteres são binários, a parcimônia de Fitch é idêntica à de Wagner.

Otimização de Dollo (Le Quesne, 1974)

Fundamenta-se na Lei de Dollo (1893), que postula que uma vez que uma estrutura
complexa é atingida, não será novamente atingida na mesma forma. Ou seja, apomorfias
só são atingidas uma vez e todas as homoplasias devem ser atribuidas a perdas
secundárias (reversões). Assim como a otimização de Camin-Sokal, esse método
assume a polaridade a priori, ou seja, a transformação só ocorre em uma direção. Esse
cenário desfavorece a convergência evolutiva. Mais aplicado, geralmente em uma versão
“relaxada”, como um modelo de perda e ganho de sítios de restrição de DNA, onde há
baixa probabilidade de ganho e alta de perda de um sítio.
Parcimônia generalizada

As otimizações acima podem ser tratadas como formas especiais de um método de


otimização generalizada onde um custo é aplicadao a cada transformação de estados na
forma de uma matriz de custo. As matrizes de custo referentes às otimizações acima
para um caráter com quatro estados (a – d) seriam:
Fitch Wagner Camin-Sokal Dollo
a b c d a b c d a b c d a b c d
a - 1 1 1 a - 1 2 3 a - 1 1 1 a - M 2M 3M
b 1 - 1 1 b 1 - 1 2 b ∞ - 1 1 b 1 - M 2M
c 1 1 - 1 c 2 1 - 1 c ∞ ∞ - 1 c 1 1 - M
d 1 1 1 - d 3 2 1 - d ∞ ∞ ∞ - d 1 1 1 -

Na parcimônia generalizada, existe flexibilidade total na definição do custo das


transformações, que pode ser diferenciada para cada transformação em cada caráter. Por
exemplo, em uma análise de seqüências de DNA, as transições podem ter um custo
diferente das transversões (ver Pesagem de caracteres, abaixo).

Transformação acelerada X atrasada

Freqüentemente, existem opções igualmente parcimoniosas para a reconstrução das


transformações dos estados de um caráter. Essas opções correspondem a
transformação acelerada (accelerated transformation ou ACCTRAN) e transformação
atrasada (delayed transformation ou DELTRAN). ACCTRAN favorece a aquisição de um
estado, onde as homoplasias subsequentes são devidas a reversão. Já a DELTRAN
favorece o ganho independente de estados, onde as homoplasias são devidas à
convergência.
(0) (1) (1) (0) (0) (0) (1) (1) (0) (0)
A B C D E A B C D E

(1) (0) (0) (0)

(1) (0)

(0) (0)
ACCTRAN: reversão DELTRAN: paralelismo

Convergência x Paralelismo

Em termos filogenéticos, podemos distinguir dois aspctos evolutivos relacionados e


muitas vezes confundidos: a convergência e o paralelismo. Na convergência, um mesmo
estado apomórfico de caráter é atingido independentemente poir dois ou mais táxons a
partir de estados plesiomórficos diferentes. Já no paralelismo, o mesmo estado
apomórfico é atingido independentemente por dois ou mais táxons a partir de um mesmo
estado plesiomórfico.

Filogenética (BIO9525) – Yuri Leite – Otimização e pesagem de caracteres 2


convergência paralelismo
(3) (1) (1) (2) (3) (2) (1) (1) (1) (2)

Pesagem de caracteres

Além da ordenação e polaridade, outra característica de um caráter é o seu valor em


relação aos demais numa análise filogenética, ou seja, o seu “peso”. Essa pesagem dos
caracteres pode ser feita antes da análise (a priori) ou após a análise (a posteriori). É
mais amplamente utilizada em dados de sequüência de DNA, sendo as principais
aplicações:

a) Pesagem a priori:
• entre posições ou inter-posicional (diferenças estruturais/funcionais):
9 posição do códon: pesagem seletiva para mudanças na primeira, segunda, ou
terceira posição em relação à redundância do código genético;
9 “troncos” e “alças”: pesagem seletiva para alças e troncos em função da
estrutura secundária de RNAs.
• em uma dada posição ou intra-posicional (viés mutacional):
9 transversões X transições (pesagem do viés transicional);
9 susbstituição relativa à composição de bases (12 substituições possíveis
pesadas de acordo com a freqüência das bases);
9 mudanças sinônimas X não-sinônimas (mudanças de aminoácidos em regiões
codificadoras.
b) Pesagem a posteriori:
• Aproximações sucessivas: pesagem de acordo com os níveis de homoplasia;
• Pesagem dinâmica: também de acordo com os níveis de homoplasia, inclui intra-
posicional e inter-posicional.

Filogenética (BIO9525) – Yuri Leite – Otimização e pesagem de caracteres 3


Filogenética (BIO 9525) – PPGBAN / UFES – Prof. Yuri Leite

INFERÊNCIA FILOGENÉTICA

A inferência filogenética, ou seja a obtenção de uma filogenia a partir de uma matriz de


dados, pode ser feita utilizando-se técnicas de busca ou de agrupamento (alguns
cladistas não consideram técnicas de agrupamento como sendo filogenéticos). As
técnicas de busca empregam algoritmos que procuram árvores em um universo de
árvores possíveis para um determinado conjunto de UTO´s. Essas buscas podem ser
classificadas em dois tipos: exatas, que garantem a otimização e são geralmente
demoradas e aproximadas, que não garantem a otimização, mas são rápidas. Dentre as
exatas, discutiremos a busca exaustiva e branch-and-bound e dentre as aproximadas,
existem vários algorítimos de busca heurística.

Busca exaustiva

São investigadas todas as topologias não-enraizadas possíveis para um determinado


conjunto de UTO´s. Mesmo com poucas UTO´s, o número de árvores possíveis fica
astronômico em uma busca exaustiva:

no. de táxons no. árvores não-enraizadas no. árvores enraizadas


2 1 1
3 1 3
4 3 15
5 15 105
6 105 945
7 945 10.935
8 10.395 135.135
9 135.135 2.027.025
10 2.027.025 34.459.425
: : :
20 221.643.095.476.699.771.875 ~8 x 1021
: : :
63 >10100 0

A fórmula para o número de árvores bifurcadas enraizadas de n táxons é:

Um valor ótimo (dependendo do critério de otimização) é associado a cada uma dessas


topologias e aquela(as) que melhor atender(em) o critério, é(são) escolhida(s). No caso
da parcimônia, o tamanho da árvore é calculado para cada uma das possíveis topologias,
e a(s) menor(es) é (são) escolhida(s).

Essa técnica garante atender o critério de otimização, mas gastamuito tempo de


computação, tornando-se inviável. No PAUP*, por exemplo, somente matrizes de até 12
UTO´s podem ser analisadas com busca exaustiva. A inferência filogenética se encaixa
no que os cientistas da computação chamam de problemas NP-completos, onde mesmo
com um N pequeno, o tempo de computação é muito alto.
Busca branch-and-bound

Similar à busca exaustiva, mas muito mais rápida. À medida em que se percorre uma
“árvore” de árvores de busca, ajusta-se um limite (bound), descartando caminhos que não
apresentem nenhuma chance de chegar ou superar o ótimo. Com isso, economiza-se
muito tempo de computação, mas memso assim é uma busca demorada.

Busca heurística

Sem dúvida, os algoritmos de busca


heurística são os mais empregados em
inferência filogenética. O universo de árvores
possíveis é muito grande e pode ser
representado por uma paisagem de árvores
onde as várias topologias se encontram
distribuidas. Como é praticamente impossível
percorrer toda essa paisagem, as buscas
heurísticas utilizam estratégias para percorrer
algumas partes de modo a se atingir o ótimo.
Um dos grande problemas ocorre em função da topografia dessa paisagem, que não é
plana. Ou seja, existem “ilhas” de árvores localmente ótimas, que não são globalmente
ótimas.

Os algoritmos de busca heuristica partem de uma estrutura inicial e fazem alterações


nessa estrutura de modo a atingir o ótimo. Ou seja, ela consiste de duas etapas: 1)
computação de uma árvore inicial e 2) rearranjo dos galhos (branch-swapping)
buscando a otimização.

1) àrvore inicial: pode obtida por adição sequencial de táxons (stepwise addition),
por agrupamento de vizinhos (neighbor-joining) – uma técnica baseada na
distância entre as UTO´s), ou pode ser arbitrária (informada pelo pesquisador). O
método mais comum é a adição sequencial aleatória, com multiplas replicações
(geralmente 10) para aumentar as chancesde se atingir o ótimo global (analogia
com escaladores).

Filogenética (BIO9525) – Yuri Leite – Inferência Filogenética 2


2) rearrajo de galhos: é geralmente feito de três formas:
a. Nearest-neighbor interchange (NNI)

b. Subtree prunning and regrafting (SPR)

c. Tree bisection and reconnection (TBR)

Filogenética (BIO9525) – Yuri Leite – Inferência Filogenética 3

Você também pode gostar