05 - La Reconstruccion Filogenetica FGC
05 - La Reconstruccion Filogenetica FGC
05 - La Reconstruccion Filogenetica FGC
Este concepto de árbol ramificado está sustentado por la estructura del registro fósil, el cual no aparece
lineal sino ramificado. Pero, además, así como en un árbol existen ramas que dejan de crecer y son sustituidas
por otras nuevas, más vigorosas, también en el árbol de la vida algunos linajes se extinguen y son sustituidos
por otros más aptos. En las propias palabras de Darwin: "..pues los seres orgánicos parece que siempre se
ramifican y subramifican como las ramas de un árbol a partir de un tronco común, donde los brotes vigorosos y
divergentes destruyen los menos vigorosos y las ramas perdidas y muertas representan las familias y los géneros
extintos. La idea de la extinción, como ya se indicó en el tema 1, se oponía frontalmente a la perfección de la
creación de las especies porque suponía una falta de diseño adaptativo por parte del creador. Sin embargo, a
principios del siglo XIX las evidencias fósiles de organismos extintos, muy diferentes de los actuales, era
innegable y también de que los organismos evolucionaban ramificándose y no en una escala contínua líneal. El
registro fósil contribuyó, por consiguiente, a sustentar el concepto de árbol de la vida. En este tema centraremos
nuestra atención en los conceptos y métodos desarrollados en la reconstrucción de la historia evolutiva,
especialmente de las relaciones filogenéticas entre las especies y demás unidades taxonómicas a partir del
estudio de caracteres compartidos, estudiando con detalle las diferencias entre caracteres homólogos y
análogos.
En la reconstrucción filogenética hay un principio más fundamental que los caracteres compartidos.
Una filogenia es más plausible si requiere menos, en vez de más, cambios evolutivos en los estados de los
1
Tema 4. La reconstrucción filogenética.
caracteres. Este es el principio de parsimonia. La mejor estima de una filogenia real es aquella que precise el
menor cambio evolutivo. Veamos la siguiente figura.
Figura 4.1. Posibles relaciones filogenéticas entre las amebas, los chimpancés, los hombres y las magnolias. Los
diagramas (a), (b) y (c) son árboles sin raíz; especifican las ramificaciones, pero no las relaciones de
ancestralidad. Las sumas de sucesos evolutivos implicados en cada uno de ellos son, considerando 1000
caracteres compartidos por las cuatro especies, 10 únicos para cada especie y 100 caracteres compartidos por
hombres y chimpancés.
La filogenia en (a) sugiere que el hombre comparte su ancestro más reciente con las magnolias, en (b)
con las amebas y en (c) con los chimpancés. Las tres filogenias son árboles sin raíz. Un árbol sin raíz especifica
las relaciones de ramificación entre las especies, pero no dónde se encuentra el precursor de todas ellas. El
ancestro podría estar en cualquier punto del árbol sin raíz. Muchas filogenias completas, en las que especifican
las relaciones de ancestralidad, son compatibles con alguno de los árboles sin raíz.
Supongamos que tenemos una lista de 1000 caracteres que muestran semejanzas entre un grupo de
especies. Entre ellos habrá tanto caracteres homólogos como análogos. ¿Cómo podemos distinguirlos? Si una
carácter compartido es una homología real (i.e., heredada de un ancestro común), debe ser el mismo carácter
en las dos especies, lo que podemos comprobar examinando el carácter con detalle en los distintos grupos.
Primero, si es un carácter homólogo debe tener la misma estructura fundamental. Las alas de los pájaros y de
los murciélagos, por ejemplo, son semejantes superficialmente, pero están construidas de materiales distintos y
apoyadas en dígitos diferentes de la mano: probablemente, evolucionaron de forma independiente y no de un
ancestro común alado. Segundo, las homologías deben tener la misma relación con los caracteres circundantes;
los huesos homólogos, por ejemplo, deben conectar de forma semejante con los otros huesos que los rodean.
Tercero, deben tener el mismo desarrollo embrionario en los distintos grupos. Un carácter que parece semejante
en las formas adultas pero que se desarrolla en una serie de etapas diferentes es poco probable que sea
homólogo.
2
Tema 4. La reconstrucción filogenética.
Figura 4.2. Las alas de aves y murciélagos son analogías. Son estructuralmente diferentes: el ala de las aves
está soportada por el segundo dígito, mientras que las de los murciélagos por los dígitos 2 a 5. También, el ala
de las aves está cubierta por plumas mientras que las de los murciélagos lo está por pelos.
Los ejemplos clásicos de caracteres convergentes se han descubierto principalmente empleando estos
criterios. Hay algunos criterios adicionales que no determinan de forma concluyente si un carácter es una
homología o analogía, pero que pueden dar lugar a sospechas. Por ejemplo, debido a que la convergencia se
origina por la selección natural, es improbable que los caracteres neutrales, sobre los que no actúa la selección
natural, formen analogías. Muchos caracteres moleculares pueden ser neutrales y, aunque hace unos años se
pensaba que los morfológicos también lo podían ser, en la actualidad este criterio se utiliza muy poco para estos
últimos. Un argumento más convincente se halla en la posibilidad de que algunos caracteres estén adaptados a
un rango más amplio de condiciones ambientales: cuanto más ampliamente adaptados menos cambiarán los
caracteres y más probablemente serán homologías. Una adaptación que constituye una parte profunda de la
estructura de un organismo puede ser evolutivamente más conservada que una adaptación más superficial. Por
ejemplo, la columna vertebral es una adaptación muy amplia, que es funcional en casi todos los ambientes de
los vertebrados; en el otro extremo, los patrones de coloración cambian rápidamente en la evolución según las
necesidades de camuflaje y selección sexual. Una columna vertebral compartida es un carácter mucho más
probablemente homólogo que una patrón de coloración compartido. Por último, puede utilizarse evidencia de
otros grupos emparentados de especies. Si se sabe que cierto carácter es fiable en un grupo de especies bien
estudiado, alguien que empiece a estudiar un nuevo grupo emparentado con el anterior puede muy bien empezar
por ese carácter.
El propio análisis filogenético por medio de parsimonia nos puede dar una indicación de qué caracteres
son con mayor probabilidad homólogos. Pero esto no significa que la filogenia final tenga que definirse sólo por
el criterio de parsimonia. Podría ser que la lisa original de caracteres señalase una filogenia y que un conjunto
más amplio de caracteres fiables en la lista final señalase otra. En consecuencia, es crucial para el resultado final
estudiar los caracteres para determinar cuales de ellos son fiables.
3
Tema 4. La reconstrucción filogenética.
¿Cuántos sucesos evolutivos precisa cada uno de los árboles sin raíz? Supongamos que sabemos que
las cuatro especies comparten 1000 caracteres, que cada especie tiene 10 caracteres propios particulares y que
los humanos y los chimpancés comparten 100 caracteres adicionales. No se conocen más caracteres evolutivos
por lo que podemos pasar a valorar los tres árboles sin raíz posibles. En (a) los 100 caracteres comunes podrían
haber evolucionado una vez en el ancestro común a las cuatro especies y haber sido retenidos desde entonces:
esto implicaría 1000 sucesos evolutivos, uno por la aparición de cada carácter. Los 10 caracteres únicos de cada
especie pueden haber evolucionado en el linaje que lleva a cada una de ellas, lo que hace un total de 40
caracteres. Los 100 caracteres compartidos por humanos y chimpancés son más complicados. El número más
pequeño de sucesos evolutivos que produciría la distribución observada de caracteres es 200. Podrían haber
evolucionado independientemente en el linaje humano y en el del chimpancé (lo que haría un total de 200
cambios, 100 en cada rama) o, suponiendo que la magnolia es el ancestro común del grupo de cuatro especies,
podrían haber evolucionado una vez en el ancestro común de amebas, chimpancés y humanos y haberse perdido
en el linaje que lleva a la ameba, lo que de nuevo llevaría a 200 cambios. En consecuencia, el número mínimo
de cambios evolutivos en (a) es 1240.
Si se realiza el mismo cálculo para el árbol (b) también se llega a la cifra de 1240 cambios. En cambio,
en (c) los 100 caracteres compartidos por humanos y chimpancés sólo necesitan haber evolucionado una vez,
en el ancestro común de humanos y chimpancés, sin que se hubiesen perdido posteriormente. En consecuencia
(c) precisa sólo de 1140 sucesos evolutivos. Es el árbol más parsimónico. En esquema, esta es la razón para
pensar que hombres y chimpancés comparten un antecesor más próximo entre sí que con las amenas o las
magnolias.
¿Cómo se justifica el principio de parsimonia? ¿Por qué una filogenia que precisa de menos sucesos
evolutivos es una inferencia más plausible que una que necesita más? El principio de parsimonia es justificable
porque el cambio evolutivo es improbable. Supongamos que sabemos que una especie moderna y uno de sus
ancestros tienen el mismo estado para un carácter. La parsimonia sugiere que todos los estadios intermedios en
el linaje continuo entre el ancestro y la especie actual poseían el mismo estado del carácter. Pero podría haberse
producido un número infinitamente grande de cambios entre ambos extremos. Sin embargo, el que se produzca
un cambio y luego revierta es improbable. Cada cambio precisa que surja un gen (o un grupo de genes) por
mutación y que sea sustituido, por deriva o por selección; ambos procesos son improbables y que se produzcan
en dos ocasiones todavía más. Es mucho más probable que el mismo estado del carácter haya sido transmitido
ininterrumpidamente.
Hasta el momento hemos visto dos principios de inferencia filogenética, y volveremos a encontrarnos
con ellos.
1. Parsimonia. Las especies se disponen en una filogenia de forma que se minimice el número de
cambios evolutivos necesarios.
2. Distancia. Las especies se disponen en una filogenia de forma que cada especie esté agrupada con
aquella otra con la que comparte un mayor número de caracteres.
4
Tema 4. La reconstrucción filogenética.
En el caso que acabamos de contemplar, el argumento de que los hombres y los chimpancés
comparten un ancestro común más reciente porque se parecen más entre sí utiliza implícitamente medidas de
distancia. Contar el número de sucesos evolutivos en los tres árboles sin raíz de hombres, chimpancés,
magnolias y amebas utiliza el principio de parsimonia.
En los casos sencillos, como en el anterior, los principios de distancia y de parsimonia dan el mismo
resultado, y podría parecer que no importa cuál se emplea. Pero en otros casos difieren. El principio de
parsimonia (como veremos) es en esos casos más fiable, porque tiene una justificación teórica mejor. Sin
embargo, los estadísticos de distancia son un método importante de inferencia filogenética, porque hay
circunstancias en las que son tan fiables como la parsimonia y a menudo pueden ser evaluados con más rapidez.
Hay ocasiones en las que los caracteres no concuerdan en la reconstrucción de una misma filogenia,
como sucedía en el ejemplo anterior. Supongamos, por ejemplo, que además de los 100 caracteres compartidos
entre hombres y chimpancés (y ausentes tanto de amebas como de magnolias) hay 50 caracteres compartidos
por magnolias y humanos (y ausentes de chimpancés y amebas). Ahora los caracteres no concuerdan en una
sola filogenia, pues si prestamos atención a estos últimos 50 caracteres, la filogenia (a) de la figura sería la
correcta.
Los conflictos entre caracteres son habituales en los problemas filogenéticos reales. ¿Qué hacer en
estas situaciones? Una posibilidad es simplemente atenerse al principio de parsimonia. Si humanos y
chimpancés comparten 100 caracteres y 50 son comunes a hombres y magnolias, la filogenia que junta hombres
y chimpancés será en conjunto más parsimónica que cualquier otra, si bien necesitará de más cambios evolutivos
(100 más) que en el caso anterior. Pero existe un segundo método. Se puede analizar con más detalle los
caracteres para ver si algunos son indicadores más fiables de relaciones filogenéticas que otros. Los 150
caracteres compartidos por hombres, chimpancés y magnolias pueden ser analizados y ver si alguno de ellos se
elimina. En el mejor de los casos podría poderse eliminar los 50 de una clase (o los 100 de la otra) dejando un
conjunto de evidencia sin ambigüedades. En consecuencia, un método completo tiene dos fase: (a) analizar los
caracteres para identificar los más fiables para el propósito de la inferencia filogenética, y luego (b) aplicar
técnicas estadísticas, como la parsimonia o una medida de distancia, a este nuevo subconjunto de caracteres
fiables. En la práctica, el análisis de los caracteres se emplea más con la inferencia morfológica y los estudios
filogenéticos clásicos con caracteres morfológicos emplean el método de dos etapas, mientras que la
reconstrucción filogenética con evidencia molecular procede directamente a la etapa estadística.
Para ver cómo se realiza este análisis de la fiabilidad de los caracteres debemos recordar que todo
carácter compartido entre dos especies pertenece a una de tres categorías posibles. Si estaba presente en el
ancestro común de ambas especies es una homología; si no lo estaba, y por tanto evolucionó por convergencia,
es una analogía. A su vez, las homologías pueden ser ancestrales y derivadas. Una homología ancestral estaba
presente en el ancestro común de ambas especies pero evolucionó antes y también es compartido por otra
especie menos relacionada. Una homología derivada es aquella que apareció en el ancestro común y no es
compartida con ninguna otra especie más distante. De los tres tipos de caracteres, sólo las homologías derivadas
compartidas son evidencia de que las dos especies comparten un ancestro común más próximo que con
5
Tema 4. La reconstrucción filogenética.
cualquier otra especie. Las analogías y las homologías ancestrales compartidas pueden ser compartidas por
especies que no forman grupos monofiléticos.
Figura 4.3. Los caracteres se dividen en analogías, homologías ancestrales y homologías derivadas. Las
analogías (a) y las homologías ancestrales (b) no indican que compartan un ancestro común reciente. Las
homologías derivadas compartidas (c) sí lo indican.
El hecho de que las analogías y las homologías ancestrales puedan ser compartidas por especies que
no comparten un ancestro común lleva a una conclusión importante. La similitud fenética no indica de forma fiable
relación filogenética. Consideremos un ejemplo clásico de convergencia en los dos grupos principales de
mamíferos, los marsupiales y los placentarios. Los carnívoros de dientes de sable marsupiales y placentarios
evolucionaron caninos largos y cortantes y hay semejanzas sorprendentes entre la forma del esqueleto y el
cuerpo en los lobos marsupiales y placentarios. Si considerásemos la filogenia del lobo marsupial, del lobo
placentario y del canguro, los dos lobos son fenéticamente más parecidos, pero el lobo marsupial está
filogenéticamente más próximo al canguro que al lobo placentario. Que las similitudes fenéticas confunden es
algo bastante evidente, pero las homologías ancestrales originan el mismo problema y de forma más sutil. Vimos
un ejemplo cuando estudiamos que un cocodrilo se parece más a un lagarto que a un pájaro, pero está
filogenéticamente más próximo a éste que a aquél. Cocodrilos y lagartos comparten homologías ancestrales,
caracteres que estaban presentes en el ancestro común de pájaros, lagartos y cocodrilos, pero que se han
perdido en el linaje de los pájaros, caracterizado por una rápida tasa de evolución.
6
Tema 4. La reconstrucción filogenética.
Figura 4.4. Convergencia entre carnívoros placentarios y marsupiales. (a) Cuerpos reconstruidos y cráneos de
Thylacosmilus, un carnívoro marsupial con dientes de sable que habitó en Sudamérica en el Plioceno y de
Smilodon, un carnívoro placentario de dientes de sable del Pleistoceno en Norteamérica. (b) Prothylacynus
patagonicus, un marsupial boriénido del Mioceno temprano de Argentina; Thylacinus cynocephalus, el extinguido
marsupial lobo de Tasmania y Canis lupus, el lobo placentario moderno.
7
Tema 4. La reconstrucción filogenética.
Figura 4.5. Cada especie en una clasificación biológica es un miembro de un grupo en una sucesión de niveles
jerárquicos cada vez más inclusivos. Aquí se muestra una clasificación bastante completa del lobo gris Canis
lupus. Esta forma de clasificar los seres vivos fue inventada por el biólogo sueco del siglo XVIII Carolus Linnaeus.
En Biología se emplean dos métodos principales para clasificar las especies en grupos: los métodos
fenético y filogenético. En el método fenético las especies se agrupan según sus atributos fenéticos (fenotípicos).
Las especies que son físicamente más semejantes se reúnen en un grupo y las menos parecidas se colocan en
grupos distintos. Puede usarse casi cualquier atributo físico. Los vertebrados fósiles pueden clasificarse
fenéticamente por la forma de sus huesos y las especies actuales de mosca de la fruta por el patrón de venación
de las alas. Las especies pueden agruparse según el número, forma o patrón de bandeo de sus cromosomas,
por la similitud inmunológica de sus proteínas o por cualquier otra propiedad fenotípica medible.
8
Tema 4. La reconstrucción filogenética.
El principio filogenético, por contra, es evolutivo. Sólo aquellas entidades que tienen relaciones
evolutivas pueden clasificarse de acuerdo con este principio. Su forma de clasificar las especies es según cuanto
tiempo hace que han compartido un ancestro común. Así, dos especies que hace poco tuvieron un ancestro
común se clasificarán en un mismo género y otras que lo tuvieran hace algo más de tiempo estarán en distintos
géneros pero dentro de una misma familia y así sucesivamente.
Figura 4.6. Los principios fenéticos y filogenéticos de clasificación pueden coincidir (a) o diferir (b y c).
9
Tema 4. La reconstrucción filogenética.
Figura 4.7. Las diferentes clases de carácter y grupo taxonómico. Las homologías son caracteres compartidos
entre especies que estaban presentes en el ancestro común. Pueden ser derivadas o ancestrales. (a) Las
homologías compartidas derivadas se encuentran en todos los descendientes del ancestro común y se
distribuyen en grupos monofiléticos. (b) Las homologías compartidas ancestrales se encuentran en algunos pero
no en todos los descendientes del ancestro común y se distribuyen en grupos parafiléticos. (c) Las analogías
(caracteres convergentes) son caracteres compartidos entre especies que no estaban presentes en el ancestro
común. Las analogías conforman grupos polifiléticos.
Los grupos de las clasificaciones cladísticas son monofiléticos en el sentido de que contienen todos los
descendientes de un ancestro común. El cladismo rechaza los grupos parafiléticos y polifiléticos. Un grupo
10
Tema 4. La reconstrucción filogenética.
parafilético contiene algunos, pero no todos, los descendientes de un antecesor común. Los miembros que son
incluidos son los que han cambiado poco del estado ancestral. Los grupos polifiléticos se forman cuando dos
linajes evolucionan estados semejantes de caracteres convergentemente. La diferencia clave entre grupos
parafiléticos y polifiléticos es que los primeros contienen a su antecesor común y los segundos no.
Los tres tipos de grupos están definidos por las distintas clases de caracteres. Las homologías derivadas
compartidas caen en los grupos monofiléticos, las homologías ancestrales compartidas caen tanto en los
monofiléticos como en los parafiléticos y las analogías en los polifiléticos. El entomólogo alemán Willi Hennig
introdujo en los años 50 la aproximación cladista para la reconstrucción filogenética, basada exclusivamente en
la utilización de las homologías derivadas, porque a su juicio sólo este tipo de semejanza podía dar con las
relaciones filogenéticas auténticas entre los taxones. Hennig estableció una nomenclatura para los distintos tipos
de caracteres (véanse las figuras 2.20 y 2.21), actualmente de uso generalizado en el campo de la sistemática.
La utilización de similaridades distintas a las homologías derivadas puede conducir a reconstrucciones
filogenéticas erróneas.
Figura 4.8. Cladograma de tres especies hipotéticas. En la parte inferior derecha se muestran los caracteres
usados (A: forma de la cabeza; B: número de alas) con sus estados primitivos (A 1; B1) y derivados (A2; B2).
11
Tema 4. La reconstrucción filogenética.
A B
Y Y X X Y X X X
Y X
X X
X X
C D
Y Y X X Y X X Y
Y X
X X
X X
Figura 4.9. Árboles mostrando diferentes tipos de estados de caracter según la terminología cladista. A. El
estado primitivo, X, es plesiomórfico, y el Y, derivado, apomórfico. B. Y, estado derivado único, es una
autapomorfía. C. Y, estados derivados compartidos, son sinapomorfías. D. El estado Y, que aparece
independientemente en dos taxones, es un ejemplo de homoplasia.
Los grupos monofiléticos se forman por la conversión cladística de un árbol filogenético en una
clasificación. Se definen sin ambigüedad por sus relaciones de ramificación: contienen todas las ramas por
debajo de cierto ancestro. Nada se tiene que decir (o incluso saberse) sobre la evolución fenética de las especies
dentro de cada rama. Pero con el fin de definir los grupos parafiléticos y polifiléticos necesitamos saber algo de
la similitud fenética. Tenemos que decidir qué especies incluir y cuáles excluir y esto se hace incluyendo en los
grupos para o polifiléticos sólo especies fenotípicamente similares. Dada la subjetividad de las medidas de
similitud fenética el árbol de la vida no puede dividirse sin ambigüedad en grupos parafiléticos o polifiléticos.
El problema de los grupos parafiléticos fue reconocido por Hennig claramente y podemos ver cómo
crece como problema con ayuda del anterior ejemplo de los reptiles.
12
Tema 4. La reconstrucción filogenética.
Figura 4.10. Filogenia de los principales grupos de vertebrados. Los reptiles son un grupo parafilético formado
por tortugas, lagartos, serpientes y cocodrilos en esta representación.
Las relaciones filogenéticas de los vertebrados son probablemente las de la figura anterior. En las
clasificaciones convencionales, mamíferos, aves y reptiles reciben igual rango taxonómico como clases. Lo que
ha sucedido es que dos grupos, mamíferos y aves, han sufrido de forma independiente una evolución fenética
rápida, diferenciándose mucho de los reptiles. Los linajes de estos han cambiado más lentamente y se parecen
más entre sí que a pájaros o mamíferos. Los grupos parafiléticos se convierten en un peligro cuando uno o más
subgrupos han evolucionado con relativa rapidez y han dejado atrás a sus parientes anteriores. Si se acepta la
filosofía cladista hay que descartar los grupos parafiléticos, que se definen fenéticamente (por caracteres
ancestrales compartidos) por lo que su reconocimiento es inevitablemente subjetivo.
El sistema de Lineo es adecuado para representar las relaciones cladistas para grupos de especies
que han evolucionado vía un árbol filogenético. Pero hay dos casos en los que esta condición puede ser violada:
en la hibridación y en la transferencia horizontal de genes.
La hibridación es especialmente común en el reino vegetal. Según algunas estimas, más de la mitad
de especies actuales se han originado por hibridación. Esta, per se, no plantea demasiados problemas si las
especies parentales pertenecen a un mismo género, pero sí lo hace cuando los parentales pertenecen a grupos
distintos a este o superior nivel: las relaciones filogenéticas de los híbridos no pueden representarse en un
sistema Lineano.
Aunque no se conocen casos de hibridación completa entre miembros de grupos superiores diferentes
sí se conocen casos de transmisión de genes. Esto es especialmente común entre bacterias, pero también hay
casos documentados entre organismos de taxones más complejos. Si sólo es una pequeña minoría de genes de
una especie los que tienen este origen, el árbol filogenético no está necesariamente dañado. Pero en el momento
13
Tema 4. La reconstrucción filogenética.
en el que el proceso se hace común, puede alterarse de forma sustancial. Las relaciones entre especies ya no
son simplemente jerárquicas: parte de la ancestralidad de una especie proviene de una rama y parte de otra(s).
En el caso extremo, un gran número de especies (incluso todas las bacterias) podrían estar comportándose como
una gigantesca especie. La transferencia génica entre bacterias es casi completamente de genes plasmídicos:
los genes del cromosoma pueden transferirse, pero las frecuencias son realmente bajas. En consecuencia, es
razonable tratar las distintas especies bacterianas como especies con relaciones cladísticas como los restantes
seres vivos.
Con el conocimiento de las homologías morfológicas podemos avanzar un poco más. Se puede
producir un árbol sin raíz para una serie de formas. Por ejemplo, se sabe por el registro fósil que los mamíferos
han evolucionado a partir de los reptiles a través de una serie de intermediarios que se conocen como reptiles
tipo mamífero (mammal-like reptiles). La transición tuvo lugar en una serie de etapas graduales y el registro fósil
puede disponerse en una fila, desde las formas más parecidas a los reptiles hasta las más parecidas a los
mamíferos.
14
Tema 4. La reconstrucción filogenética.
pregunta es dónde se encontraba la raíz. En este caso la respuesta es sencilla. La raíz está donde los fósiles
más antiguos, en el pie de la figura.
Los árboles sin raíz se infieren a partir de las semejanzas homólogas de las especies. Un árbol sin raíz
es filogenéticamente informativo en sí mismo, pero lo es más si podemos identificar la especie ancestral.
Figura 4.12. Radiación evolutiva de los reptiles tipo-mamífero. Hubo tres fases principales: pelicosaurios
(esfenacodóntidos y ofiacodóntidos en este dibujo); terápsidos y cinodontos. Dentro de cada fase había muchos
linajes evolutivos menores. Se ilustran algunas formas fósiles. Nótese la evolución de una mandíbula más
poderosa y de mayor precisión y el cambio de la postura reptante en Dimetrodon a la erecta en Probelosodon.
15
Tema 4. La reconstrucción filogenética.
Figura 4.13. Filogenia de 103 especies de mosca del vinagre (Drosophila) de Hawai, pertenecientes al grupo de
alas pintadas. El árbol sin raíz fue inferido a partir de los patrones de inversiones cromosómicas. El árbol puede
radicarse a partir de la geocronología de las islas y de una comparación con las moscas de la fruta de Sudamérica
que están estrechamente emparentadas. Algunos detalles del árbol fueron inferidos por la Biogeografía más que
por los patrones de inversión. Las especies mostradas como ancestros pueden en realidad ser descendientes
del (ahora perdido) ancestro.
16
Tema 4. La reconstrucción filogenética.
métodos principales para ello: la comparación con un outgroup (grupo externo), el criterio embriológico y el
registro fósil.
Supongamos que sabemos que los amniotas (reptiles, aves y mamíferos) comparten un antecesor
común único, pero que no sabemos las relaciones entre los distintos amniotas. Supongamos que hemos
establecido homologías en varios caracteres, incluyendo la fisiología de la reproducción. Un canguro y un ratón
son vivíparos, mientras que un pájaro del paraíso, un ruiseñor, un cocodrilo y una tortuga, por ejemplo, son
ovíparos. ¿Se reproducía el antecesor de las seis especies vivíparamente, en cuyo caso las dos primeras
especies han retenido el carácter ancestral y las otras lo han perdido, u ovíparamente, donde sucedería lo
contrario? Con el método de la comparación con outgroup la respuesta se halla mirando a una especie
estrechamente emparentada, que se sabe que está fuera del grupo de especies en estudio. Es probable que el
estado del carácter en el outgroup sea ancestral en el grupo considerado.
En este caso podríamos mirar una salamandra, una rana o incluso un pez. Todos ellos son parientes
próximos de los amniotas pero sin ser uno de ellos. Estas especies outgroup se reproducen ovíparamente, por
lo que consideramos que está condición es la ancestral en nuestro grupo de especies y que la viviparidad es un
carácter derivado.
En abstracto, podría haber dos especies, 1 y 3, que comporten la homología a y otras dos, especies 2
y 4, con la homología a'. Queremos identificar si a se deriva de a' o viceversa. Para ello miramos en otra especie
emparentada e inferimos cual el estado ancestral del carácter. Si el outgroup tenía a, debemos inferir que las
especies 2 y 4 comparten un ancestro común más próximo entre ellas que con cualquiera de las otras dos
especies. Las relaciones entre 1 y 3 todavía son inciertas, a falta de más información.
Figura 4.14. (a) Las especies 1-4 tienen los estados de caracteres dados. Deseamos conocer si a o a’ eran el
estado de su ancestro común. (b) Estudiamos una especie estrechamente emparentada, el “outgroup. Tiene el
estado a, e inferimos que este era el estado en el ancestro de 1-4. Las líneas punteadas para las especies 1 y
3 indican que las relaciones de ramificación son dudosas.
17
Tema 4. La reconstrucción filogenética.
La comparación con outgroup funciona bajo el supuesto de que la evolución es parsimónica, ya que al
hacer ancestral el estado del carácter en el outgroup se minimiza el número de cambios evolutivos necesarios.
Al igual que todas las técnicas de inferencia filogenética, la comparación con outgroup es falible. A menudo un
posible outgroup sugerirá que cierto estado de un carácter es ancestral, pero otro outgroup diferente sugerirá
otro estado. El resultado dependerá de cual es el outgroup que estimamos más fiable. El método es más fiable
cuando las especies estrechamente emparentadas que podrían emplearse como outgroups sugieren todas la
misma inferencia, pero es perfectamente posible ser despistado por la aplicación de este método en casos
particulares. Las inferencias deben tratarse con precaución y ser contrastadas de nuevo con otras evidencias.
Figura 4.15. Dos posibles inferencias para seis especies amniotas. Una vez sabemos que el canguro y el ratón
son los parientes más próximos, todavía no sabemos nada sobre las relaciones de las otras cuatro especies.
Tampoco sabemos si el ratón y el canguro (a) comparten una rama separada, o (b) se ramificaron a partir de
alguno de los otros taxones. Otras muchas filogenias serían compatibles con la evidencia.
El embriólogo predarwinista Karl Ernst von Baer describió, a partir de observaciones al microscopio, el
curso del desarrollo en varios grupos animales. Resumió sus observaciones en sus leyes embriológicas. Para la
inferencia filogenética la primera de ellas es la más importante. Afirma "las características generales de un grupo
grande de animales aparecen antes en el embrión que las características especiales". Los cartílagos, por
ejemplo, se encuentran en todos los peces, tanto en los cartilaginosos, como tiburones y rayas, como en los
óseos. El cartílago es un carácter general, el hueso es un carácter especial, que se encuentra sólo en los peces
18
Tema 4. La reconstrucción filogenética.
óseos. La ley de Von Baer predice que, en un pez óseo, el cartílago aparecerá temprano en el desarrollo individual
y que luego se transformará en hueso y esto es lo que de hecho ocurre.
Se puede dar una interpretación evolutiva a la ley de Von Baer y hacer uso filogenético de ella. Los
caracteres que Von Baer denominó generales son en términos evolutivos ancestrales y sus caracteres especiales
son, evolutivamente, caracteres derivados. Con el criterio embriológico se infiere que el cartílago es un estado
ancestral y que el hueso es derivado. En general, si tenemos una lista de caracteres y un grupo de especies
entonces, si son el tipo de caracteres que se desarrollan, se pueden derivar los estados ancestrales y derivados
de los caracteres a partir de su orden en el desarrollo.
El criterio embriológico funciona sólo cuando la ley de Von Baer es correcta. Nunca se ha estudiado
sistemáticamente el rango de aplicación de la ley, pero se acepta que tiene parte de verdad y es por esta razón
por lo que puede emplearse en la inferencia filogenética. Pero también se conocen excepciones, por lo que sólo
debe aplicarse cuando hay una confianza razonable en su validez.
En la evolución desde los reptiles hasta los mamíferos cambiaron muchos caracteres. La postura
evolucionó a una posición más elevada, las articulaciones mandibulares cambiaron y también se modificó la
fisiología del sistema circulatorio. Algunos, aunque no todos, de estos caracteres dejan un registro fósil y
podemos inferir qué estados de caracteres eran ancestrales y cuales derivados a base de estudiar los fósiles
más antiguos. Este es el criterio paleontológico de la polaridad de los caracteres.
Figura 4.16. (a) El estado ancestral de un carácter debe haber evolucionado antes que su estado derivado. Si el
registro fósil es completo (b), el estado ancestral se conservará en los fósiles más tempranos, pero si es
incompleto (c) el estado derivado puede tanto como preservarse anteriormente al ancestral.
El razonamiento no podía ser más sencillo. El estado ancestral de un carácter debe preceder a los
derivados, por lo que lo más probable es que el estado más antiguo en el registro fósil sea el ancestral. En el
ejemplo anterior el criterio es fiable porque el registro fósil es relativamente completo. Si el registro fósil no fuese
tan completo se podría preservar un estado derivado antes que su ancestral y la inferencia paleontológica sería
la opuesta a la real.
19
Tema 4. La reconstrucción filogenética.
En ocasiones se puede estudiar el mismo grupo de especies por más de un método. Cuando coinciden
la inferencia es mucho más fuerte, pero también pueden diferir. En este caso el procedimiento a seguir es el
mismo que para los caracteres conflictivos: se puede resolver la disputa por el principio de parsimonia o dejar el
juicio en suspenso.
A veces se ha defendido una tercera posibilidad. Si se pudiera demostrar que alguno de los criterios es
más fiable que otros, entonces si se produce un conflicto se podría descartar la evidencia menos fiable.
Consideremos de nuevo el ejemplo de los tetrápodos. Si ignoramos el registro fósil y consideramos sólo la
filogenia de los tetrápodos modernos hay bastante evidencia de que los mamíferos comparten un ancestro común
más reciente con las aves que con cualquier grupo de reptiles. Aves y mamíferos tienen sangre caliente y hay
muchos cambios asociados con la homeotermia. El resultado exacto depende de cómo se dividan los caracteres.
Gardiner, el abogado más influyente del parentesco aves-mamíferos, consideró 47 caracteres en su forma
moderna y argumentó que la mayoría favorecían su controvertida propuesta. Un crítico podría replicar que los
caracteres compartidos por aves y mamíferos están casi todos relacionados con la homeotermia, por lo que no
son realmente independientes, pudiendo ser necesaria sólo una convergencia para ellos. Sin embargo, la
anatomía comparada de las formas modernas no sugiere que mamíferos y aves estén emparentados a grupos
diferentes de reptiles.
La evidencia fuerte contra el grupo aves-mamíferos viene del registro fósil. Hay una buena secuencia
de intermediarios fósiles entre los reptiles y los mamíferos, sin que aparezcan para nada las aves en esta
secuencia. De hecho, la famosa ave fósil Archaeopteryx está estrechamente emparentada con los dinosaurios,
un grupo de reptiles bastante separado. Si se incluye toda la evidencia fósil entonces la parsimonia apoya los
agrupamiento tetrápodos tradicionales. Sin embargo, el problema no esta resuelto, pues hay evidencia molecular
tanto a favor como en contra del agrupamiento aves-mamíferos.
En resumen, hay considerable conflicto entre la anatomía moderna comparada y el registro fósil. Si una
clase de evidencia fuese intrínsecamente menos fiable, como se ha propuesto en ocasiones sobre el registro
fósil, podría resolverse el conflicto a base de ignorarlo. Sin embargo, no hay base científica para excluir clases
completas de evidencia. La inferencia filogenética es de por sí lo bastante difícil como para lastrarnos
innecesariamente mediante la exclusión de una posible línea de evidencia.
La primera proteína para la que se determinó la secuencia de aminoácidos fue la insulina, por Sanger
en 1954. En la actualidad, los procesos de secuenciación tanto de proteínas como, y sobre todo, de ácidos
nucleicos están automatizados en gran medida, lo que ha provocado la disponibilidad de un gran número de
secuencias.
La evidencia molecular es, en principio, igual que la evidencia morfológica, pero los problemas
generales que aparecen con la morfología parecen diferentes con las moléculas. Por ejemplo, no tiene sentido
que se estudie con más profundidad una determinada secuencia para ver si cierto estado es ancestral o derivado,
como cabría hacer con un carácter morfológico. Igualmente, no es posible evaluar la fiabilidad de diferentes
piezas de evidencia molecular a base de pensar cómo podría haber actuado la selección naturales sobre ellas,
20
Tema 4. La reconstrucción filogenética.
dado que para eso es necesario entender la relación entre la estructura y la función, y esto no se conoce en
general para las moléculas.
Las secuencias tienen otras propiedades particulares. Por un lado, proporcionan una gran cantidad de
evidencia pues una molécula proteica, como el citocromo c, tiene 104 aminoácidos, constituyendo cada uno de
ellos una pieza de evidencia. Además, las mutaciones en cada uno de estos sitios son (en principio)
independientes, por lo que cada posición es una pieza de evidencia independiente del resto. El tercer aspecto
es que la evolución en los distintos sitios es fácilmente comparable: un cambio en un sitio es equivalente a un
cambio en otro.
Estas cuatro propiedades de los datos de secuencias (imposibilidad de un análisis más profundo del
carácter, gran cantidad de evidencia, reconocimiento de unidades independientes y comparabilidad de la
evidencia) ha estimulado el desarrollo de técnicas estadísticas para la inferencia de filogenias. El principio
fundamental de estas técnicas es la parsimonia, entendida como el supuesto de que el cambio evolutivo es
improbable.
El arte de utilizar moléculas para inferir relaciones filogenéticas consiste en elegir una molécula que
evolucione a una tasa apropiada para el grupo de especies en cuestión. Diferentes proteínas y segmentos de
DNA evolucionan a distintas velocidades, pudiendo utilizarse como relojes con manecillas que giran a distinta
tasa. No es posible emplear una molécula que evolucione aprisa para inferir filogenias de grupos antiguos, pues
cada manecilla habrá dado varias vueltas sobre la posición actual. De igual forma, no tiene sentido emplear una
molécula de evolución lenta para hacer inferencias sobre especies de reciente divergencia.
El DNA mitocondrial y el RNA ribosómico son dos extremos (figura 4.17). El DNA presente en las
mitocondrias evoluciona rápidamente: tiene una elevada tasa de mutación, quizá porque las mitocondrias no
poseen los enzimas de reparación del DNA presentes en los núcleos celulares. Es útil para establecer relaciones
filogenéticas entre especies que han divergido hace menos de 15 millones de años, por lo que se emplea para
estudiar, por ejemplo, las relaciones entre los humanos y los restantes primates. El RNA ribosómico es el otro
extremo. Evoluciona tan lentamente que es inútil para el estudio de los grandes monos, pero es una poderosa
evidencia para establecer relaciones entre las bacterias y los grandes grupos de los reinos animal y vegetal.
21
Tema 4. La reconstrucción filogenética.
Figura 4.17. (a) (superior)El DNA mitocondrial evoluciona rápidamente. No se detecta más divergencia tras 15-
20 millones de años de separación. Los diferentes puntos son para mamíferos, sobre todo primates. Se frena
aproximadamente hacia el 33% porque hay cuatro nucleótidos. La línea de puntos en la parte inferior representa
la tasa de evolución en el DNA nuclear. Evoluciona mucho más lentamente. Esta gráfica es para estudios con
enzimas de restricción de la totalidad del DNAmt. (a) (inferior) Relaciones entre Homo sapiens según el DNA
mitocondrial. Cada uno de los 135 nodos terminales es un tipo de DNA mitocondrial. Los 135 tipos proceden de
189 individuos. La filogenia sugiere que los humanos se originaron en África y que ha habido varias
colonizaciones sucesivas desde allí. La filogenia se basa en secuencias de la región control del DNAmt, que
evoluciona entre 4 y cinco veces más rápida que el promedio del DNAmt completo. Los procedimientos de cálculo
del árbol más parsimónico de las 135 unidades son imperfectos y sólo se muestra una posibilidad de entre varias.
(b) (superior) El RNA ribosómico evoluciona lentamente. La divergencia del 33% se alcanza entre taxones con
un ancestro común hace 600 millones de años. (b) (inferior) Relaciones entre los principales grupos animales
inferidas a partir del RNA ribosómico.
22
Tema 4. La reconstrucción filogenética.
Por el momento sólo vamos a mencionar dos de las numerosas dificultades que se tiene que hacer
frente al estudiar una reconstrucción filogenética a partir de secuencias moleculares. En primer lugar, cuando
transcurre suficiente tiempo en la escala evolutiva se producen cambios superpuestos con creciente probabilidad.
Estos cambios no serían demasiado importantes si pudiésemos tener un registro de cuáles y cuándo se han
producido, pero el análisis filogenético molecular parte de secuencias contemporáneas, y el proceso de
sustitución de una base o un aminoácido por otro no deja huellas identificables. En consecuencia, cuando
comparamos las diferencias entre dos secuencias se produce una subestima de los cambios que realmente se
han producido entre ambas (Fig. 1). Por tanto, cuando se evalúa la divergencia evolutiva a partir de las diferencias
observadas entre dos secuencias es necesario corregir esta discrepancia, para lo cual se emplean distintas
correcciones (ver Medida de la distancia genética). Si el tiempo de divergencia entre ambas secuencias es
suficientemente grande, puede alcanzarse un nivel de divergencia tal que el parecido entre las mismas no sea
mayor que el que cabría esperar entre dos secuencias tomadas al azar (alrededor del 25% para secuencias
nucleotídicas de composición equivalente de las cuatro bases). En ese punto se alcanza un nivel de saturación,
en el cual ya no es posible realizar correcciones adecuadas (Fig. 2).
A C T A G C
C T
A C A GA C
A C
A A A
C C T T A A
C T A C A
A C A C T
A C A C
A A A
Figura 4.18. Seis tipos de sustitución nucleotídica. En cada caso el nucleótido ancestral era A.
En todos ellos, excepto en el caso de la sustitución única (a), el número de sustituciones
realmente producidas es mayor que el que se observa en la comparación entre las dos
secuencias descendientes. En los tres casos inferiores los nucleótidos son iguales en ambas
secuencias hijas, pero esta similitud no ha sido heredada directamente de la secuencia ancestral.
Esta similitud se denomina homoplásica.
23
Tema 4. La reconstrucción filogenética.
D ife re n c ia e s p e ra d a
D ife r e n c ia e n tr e s e c u e n c ia s
C o rre c c ió n
S a tu ra c ió n
D ife re n c ia o b s e rv a d a
T ie m p o
Figura 4.19. Necesidad de corregir las diferencias observadas entre secuencias. La cantidad de
diferencias observadas no es lineal con el tiempo, lo que esperaríamos si la tasa de evolución
molecular es aproximadamente constante, sino curvilínea, debido a las sustituciones múltiples.
El objetivo de los métodos de corrección de las distancias es recuperar la cantidad de cambio
evolutivo que han sobreescrito los cambios y 'corregir' las distancias por los cambios no
observados. Los métodos intentan reducir la línea que representa la diferencia entre las
distancias observadas y las realmente producidas.
Hasta este momento hemos considerado que todo el cambio evolutivo en las secuencias se produce
mediante la sustitución de un nucleótido (o un aminoácido) por otro. Pero los procesos de evolución molecular
son mucho más complejos y no es infrecuente que se produzcan inserciones o deleciones, que provocan
diferencias en el tamaño de las secuencias comparadas, o procesos de homogenización de zonas más o menos
extensas del genoma que afectan de forma simultánea a un número amplio de posiciones. Estas situaciones
provocan nuevas necesidades, algunas de las cuáles están en cierta medida resueltas y otras no. Así, la
presencia de inserciones/deleciones (indels, en lo sucesivo) tiene una desagradabilísima consecuencia adicional,
la pérdida de la homología entre todas las bases o aminoácidos de las secuencias estudiadas. Los principios de
la reconstrucción filogenética, tanto con secuencias moleculares como cualquier otro tipo de carácter, exigen la
comparación de caracteres homólogos. La determinación de las verdaderas homologías suele ser más sencilla
entre los genes que se presentan en una copia única, que en aquellos presentes en dos o más (en cuyo caso
hay que distinguir entre secuencias ortólogas y parálogas), pero los problemas no acaban aquí. Si entre dos
secuencias homólogas se han producido suficientes indels junto con las habituales sustituciones nucleotídicas,
entonces nos podemos hallar en dificultades realmente serias para comparar posiciones homólogas, pues en el
análisis filogenético molecular, cada base o cada aminoácido es un carácter, y la aplicación del principio antes
mencionado exige su verificación no sólo en el gen a comparar sino también en cada una de las posiciones del
mismo.
24
Tema 4. La reconstrucción filogenética.
Por esta razón, uno de los puntos clave en el análisis filogenético es el determinar el correcto
alineamiento de las secuencias a estudiar.
25
Tema 4. La reconstrucción filogenética.
P R O G R E S IV O S
Local G lo b a l
SB
S B p im a m u lta l
NJ
c lu s ta lx
ML c lu s ta lw
UPGMA
m u lta lig n
M L p im a p ile u p 8
c lu s ta lv
A L G O R IT M O S HMMs
G E N É T IC O S
hm m t
d ia lig n saga
IT E R A T IV O S
Figura 4.20. Esquema mostrando la relación entre diferentes programas y algoritmos de alineamiento.
Dadas dos secuencias, una pregunta obvia es ¿cuánto cambio evolutivo se ha producido entre ambas?
Contestar esta cuestión aparentemente sencilla ha dado lugar a una gran cantidad de medidas de diferencias
entre secuencias. Como ya hemos comentado, estas medidas de distancia tienen el objetivo común de inferir la
cantidad de cambio evolutivo realmente producido entre dos secuencias (habitualmente, y a efectos prácticos,
contemporáneas, aunque en otros apartados de reconstrucción filogenética se consideran explícitamente casos
en que no todas las secuencias lo son) a partir de la comparación del número de posiciones homólogas en que
ambas difieren en el estado del carácter (sea la base en los ácidos nucleicos o el aminoácido en las proteínas).
Ya hemos mencionado que, salvo para secuencias que hayan divergido recientemente, ambas cantidades no
suelen coincidir, representando la segunda una subestima de la primera. Para ello se recurre a simplificar el
proceso evolutivo a escala molecular, con la esperanza de corregir al máximo la desviación ya apuntada.
Aunque formalmente podríamos desarrollar métodos comunes para estimar la divergencia con ácidos nucleicos
y proteínas, la evolución de las secuencias peptídicas se produce como consecuencia de cambios subyacentes
en las secuencias de nucleótidos que las codifican, sin que todos los cambios producidos en este nivel se
correspondan con variaciones en el otro. Además, una parte considerable del genoma no codifica proteínas,
pudiendo ser, no obstante, empleada en el análisis filogenético. Todo ello, junto con una mayor facilidad técnica
26
Tema 4. La reconstrucción filogenética.
para obtener la secuencia de nucleótidos que la de aminoácidos y una mejor comprensión de las "leyes" que
rigen el cambio a nivel nucleotídico, ha supuesto un desarrollo mucho más detallado y preciso de las medidas
de distancia basadas en secuencias nucleotídicas que en peptídicas, por lo que iniciaremos por aquellas
nuestro estudio. Para ello empezaremos a estudiar los métodos que son de igual aplicación a secuencias
codificantes de proteínas como a secuencias no codificantes, pasando, posteriormente, a la exposición de
algunos métodos que se han desarrollado específicamente para secuencias codificantes. Por último nos
ocuparemos de la medida de la distancia a partir de secuencias peptídicas pues, a pesar de lo antes expuesto,
son numerosas las ocasiones en que las secuencias aminoacídicas son tanto o más informativas que las
nucleotídicas que las codifican, en especial cuando se comparan genes/proteínas de considerable divergencia.
Los diferentes métodos de estima de la distancia genética a partir de secuencias nucleotídicas pueden
ordenarse, aunque no de forma completamente lineal, en función de su complejidad, definiendo ésta como la
relajación creciente en los supuestos que regulan el proceso de evolución. Formalmente, esta relajación se
traduce en un incremento en el número de los parámetros que describen el sistema, lo que conlleva a dos
consecuencias, un mayor realismo y una menor precisión en las estimas de los parámetros. Por tanto, no
siempre es deseable adoptar el modelo más realista, pues es fácil que contenga un número de parámetros que
no puedan ser estimados a partir de los datos disponibles con suficiente fiabilidad, sin que su estima revierta en
una significativamente mejor estimación del grado de divergencia entre las correspondientes secuencias.
Para entender tanto la mecánica del cálculo correctivo como para ir de modelos de menor a mayor complejidad
es conveniente comenzar por los modelos más sencillos e ir posteriormente complicando el trabajo.
Empezaremos, pues, por el modelo de cambio que sólo depende de un parámetro, el modelo o distancia de
Jukes-Cantor (Jukes and Cantor C.R. 1969).
El modelo de Jukes-Cantor (JC) adopta la siguiente serie de supuestos sobre el cambio evolutivo a escala
molecular:
1) La probabilidad de cambio de un nucleótido a cualquier otro es la misma para todos los pares posibles.
2) La probabilidad de cambio es la misma para todas las posiciones consideradas.
3) Los cambios producidos en cualquier posición son independientes de los producidos en cualquier otra.
4) La frecuencia de los cuatro nucleótidos no se altera a lo largo de la evolución y es igual para todos ellos
(por tanto igual a 0.25).
Las sucesivas reconsideraciones de estos supuestos nos llevarán a otros modelos. Ahora bien, si
consideramos el segundo supuesto, podemos echar a andar considerando lo que sucede en una única posición
para, a continuación, ampliar el resultado a todas las posiciones utilizadas en el análisis. Podemos entender el
proceso de forma inversa, partiendo del modelo más general posible de cambio en una posición y a medida
que introducimos restricciones ver como se simplifican los modelos correspondientes. Este modelo general
recibe el nombre de Modelo reversible general y nos servimos de él para introducir la matriz de transición que
describe la probabilidad de que un nucleótido i en la posición considerada cambie al nucleótido j durante una
unidad de tiempo evolutivo. Para el modelo reversible general, la matriz instantánea de tasas es
a C b G c T a C b G c T
g A g A d G e T d G e T
Q
h A j C h j C f T f T
A
i A k C l G i k C l G
A
27
Tema 4. La reconstrucción filogenética.
(Hay varias formas alternativas de formular estas expresiones. La seguida aquí es la empleada en Swofford et
al. (1996) en la que se considera la probabilidad de cambio de un nucleótido a otro en una unidad de tiempo
evolutivo, definida esta como el tiempo promedio para que se produzca un cambio. Esta definición lleva a que
la suma de los elementos de cada fila sea nula y se diferencia de la definición alternativa, quizá más frecuente
en los procesos Markovianos, en el que las probabilidad se definen como tasas instantáneas, infinitesimales
por tanto, de probabilidad de cambio de un nucleótido por otro. En este caso la suma de esos elementos debe
ser 1, lo que explica la diferencia en los elementos de la diagonal principal entre ambas formulaciones).
Dado que la probabilidad de que se produzca un cambio de un estado i a un estado j en el sitio considerado es
independiente de la historia previa en ese sitio, la anterior matriz define un proceso de Markov, el cual, si
consideramos adicionalmente que la matriz Q permanece constante a lo largo de todo el proceso evolutivo, es
un proceso de Markov homogéneo. Los elementos de la matriz Q son las tasas (sustituciones por sitio por
unidad de tiempo evolutivo) con las que cada nucleótido es reemplazado por otro. Los parámetros que definen
este modelo son los siguientes. La tasa de sustitución instantánea, , que define la probabilidad con que se
produce una mutación cualquiera; los parámetros de tasas relativas (a, b, c, ..., l), que corresponden a cada
posible transformación de una base en otra, y los parámetros de frecuencia (A, C, G, T) de cada una de
las bases. Fíjense en que se asume que las frecuencias de las cuatro bases permanecen constantes (es decir,
están siempre en equilibrio) y que la tasa de cambio a cada base es proporcional a la frecuencia en equilibrio
de la misma pero independiente de la frecuencia de la base inicial. Los elementos de la diagonal se eligen de
manera que la suma de los elementos de la fila respectiva sea igual a cero. Por otra parte, en ocasiones
conviene descomponer la matriz Q en dos matrices, R y , donde
a b c ) a b c A 0 0 0
g g d e) d e 0 C 0 0
R y
h i f h i) f 0 0 G 0
j k l j k l ) 0 0 0 T
Los elementos exteriores a la diagonal principal de la matriz Q son iguales a los elementos exteriores a la
ya indicado. Es posible definir matrices análogas para secuencias de proteínas, pero de dimensión 20 x 20 en
vez de 4 x 4.
Otro supuesto incorporado habitualmente en los modelos de evolución molecular es que la tasa global de
cambio de la base i a la base j es igual a la tasa de cambio de la base j a la i. Se dice que tales modelos son
reversibles temporalmente, y el modelo que, a partir del anterior, incluye esta restricción se conoce como
modelo general reversible en el tiempo (GTR, general time reversible), obteniéndose del anterior si g = a, h = b,
i = c, j = d, k = e y l = f. Un subproducto de esta reversibilidad es que la verosimilitud de un árbol generalmente
no depende de su orientación (de cuál es su raíz). En consecuencia, al igual que para la mayoría de los
métodos de parsimonia, la estimación por máxima verosimilitud suele limitarse a la de árboles sin raíz, teniendo
que recurrirse a otros supuestos para convertir los árboles resultantes en árboles enraizados. En consecuencia,
si se consideran sólo matrices de la forma
28
Tema 4. La reconstrucción filogenética.
a b c a b c
a a d e d e
R
b d b d f f
c e f c e f
el modelo general de reversibilidad temporal (GTR) está representado por
a C b G c T a C b G c T
a A g A d G e T d G e T
Q
b A d C h j C f T f T
A
c A e C f G i k C l G
A
Como anticipo de las relaciones entre distintos modelos de distancia genética, en la Figura 3 se reflejan las
correspondientes a los más habituales.
R e la c io n e s e n tre a lg u n o s m o d e lo s d e s u s titu c ió n
M o d e lo g e n e ra l re v e rs ib le
3 tip o s d e s u s titu c ió n :
1 tra n s ic ió n y B a s e s e q u ifre c u e n te s
2 tra n s v e rs io n e s
T a m u ra -N e i Z h a rk ik h 9 4
T a m u ra 9 2
K im u ra 3 P
H KY 85
F e ls e n s te in 8 4
B a s e s e q u ifre c u e n te s 2 tip o s d e s u s titu c ió n :
1 tip o d e tra n s ic io n e s y
s u s titu c ió n tra n s v e rs io n e s
T a jim a -N e i 8 4 K im u ra 2 P
F e ls e n s te in 8 1
B a s e s e q u ifre c u e n te s 1 tip o d e
s u s titu c ió n
J u k e s - C a n to r
Figura 4.21. Relación entre casos especiales de la familia de modelos de sustitución general
reversibles en el tiempo.
La matriz de tasas instantáneas Q especifica las tasas de cambio entre pares de nucleótidos por instante de
tiempo dt, pero, con el fin de calcular las verosimilitudes (ver también más adelante), necesitamos las
probabilidades de cambio de un estado a cualquier otro a lo largo de una rama de longitud t. La matriz de
probabilidades de sustitución , P, se calcula como P e Qt .
El exponencial puede evaluarse a partir de la descomposición de la matriz de tasas instantáneas Q en su
autovalores y sus autovectores (valores y vectores propios, respectivamente). Como veremos a continuación,
29
Tema 4. La reconstrucción filogenética.
para varios modelos se dispone de expresiones sencillas de los autovalores que permiten un cálculo directo de
los elementos de la matriz de probabilidades de transición.
Modelo de Jukes-Cantor (JC)
Considera que la tasa de sustitución de un nucleótido por cualquier otro es única e igual a , por lo que la
matriz de tasas instantánea que lo define es
3 1
1
1
4 4 4 4
1 3
1
1
Q 4 4 4 4
1
1
3
1
4 4 4 4
1 1
1
3
4 4 4 4
Se suelen combinar la frecuencia de cada base (=1/4) y la tasa de sustitución () en un único parámetro, =
/4, lo que lleva a la forma más sencilla y habitual
3
3
Q
3
3
Tomemos una posición que en el instante t tiene el nucleótido A con probabilidad pA(t). La probabilidad de que
una posición concreta tenga ese nucleótido en el instante t+1 viene dada por
p A ( t 1 ) p A ( t ) 1 3 1 p A ( t )
luego
p A ( t 1 ) p A ( t ) 3 p A ( t ) 1 p A ( t )
o
p A ( t ) 4 p A ( t )
4 t
p A(t ) 1
4
3
4
e
Ahora bien, pA(t) puede ser interpretado también como la frecuencia de A en una secuencia de DNA.
Dada la equivalencia de todos los nucleótidos bajo el modelo JC, podemos considerar una probabilidad
general, pij(t), que es la probabilidad de que un sitio esté ocupado por el nucleótido j en el instante t dado que
el nucleótido inicialmente presente en el mismo era i. En ese caso
p ij ( t ) 1
4
1 e 4 t
, p ii ( t ) 1
4
3
4
e
4 t
Bajo este modelo la frecuencia de equilibrio de los cuatro nucleótidos es igual a 1/4. A partir de los dos puntos
posibles de partida ya indicados, la aproximación al punto de equilibrio se produce de forma lineal para valores
30
Tema 4. La reconstrucción filogenética.
Una vez hemos derivado una expresión para la probabilidad de que un nucleótido sea sustituido por otro al
cabo de t unidades de tiempo, estamos en condiciones de estimar los parámetros relevantes del modelo a
partir de datos empíricos. Consideremos un par de secuencias, normalmente pero no exclusivamente
pertenecientes a especies diferentes, que divergieron de su ancestro común hace t unidades de tiempo. Si
consideramos que los cambios acumulados por cada una de ellas desde ese instante son independientes para
ambos linajes, el total de cambios producidos entre ambas secuencias corresponde a los cambios producidos a
lo largo de 2t unidades de tiempo (t unidades en cada linaje). Por tanto, la probabilidad de que las dos
secuencias sean distintas en cierta posición nucleotídica en el instante t viene dada por
p
3
1 e 8 t
4
que equivale a
4p
8 t ln 1
3
No se suele conocer el tiempo de divergencia t entre dos secuencias (o especies), por lo que no es posible
obtener una estima de . En cambio, podemos estimar K, el número de sustituciones por sitio realmente
producidas desde la divergencia entre ambas especies. En el modelo de Jukes-Cantor, K = 2(3t), donde 3t
es el número esperado de sustituciones por sitio en un linaje. Sustituyendo K en la expresión anterior,
tendremos
3 4p
K ln 1
4 3
donde se asumimos que p es igual a la proporción observada de diferencias nucleotídicas entre las dos
secuencias.
La distancia de Jukes-Cantor puede calcularse si p < 0.75; en caso contrario no es aplicable pues el argumento
del logaritmo es negativo. La distancia da buenas estimaciones del número de sustituciones nucleotídicas si (1)
la frecuencia de cada nucleótido se aproxima a 0.25, (2) no hay sesgo transiciones/transversiones, es decir, el
cociente S/V se aproxima a 0.5, y (3) si K no es muy grande, digamos K < 0.1. Sin embargo, cuando el número
de nucleótidos examinados es pequeño, del orden de L < 100, la distancia de Jukes-Cantor tiende a dar una
sobreestima del número real de sustituciones nucleotídicas (Tajima 1993).
31
Tema 4. La reconstrucción filogenética.
Los métodos de búsqueda de árboles descritos hasta el momento son adecuados cuando puede
evaluarse cierto criterio de optimalidad para cualquier árbol. Entonces el problema se reduce a encontrar el árbol
óptimo dado ese criterio. Los métodos descritos a continuación no cuadran con esta definición, bien porque están
definidos sólo en base a un algoritmo, bien porque no es posible separar el criterio de evaluación del de búsqueda
del árbol óptimo.
El análisis de agrupaciones (cluster análisis) es una familia de técnicas para representar datos de
similitud o distancia en forma de un árbol ultramétrico (Sneath y Sokal 1973). Si los propios datos son
ultramétricos, entonces su representación en el árbol será exacta. Obviamente, si las distancias no son
ultramétricas, entonces no pueden ajustar con precisión en un árbol de este tipo, por lo que se introducirá algún
tipo de error.
El método es conceptualmente sencillo. Los datos de partida se disponen en una matriz de distancias
para todos los pares de taxones. Sea dij la distancia entre i y j. El arbol se construye uniendo los taxones que se
encuentran a menor distancia, y a continuación los siguientes taxones o grupos de taxones. Al principio cada
taxón constituye su propio cluster, pero a medida que avanza el proceso dos clusters se fusionan en uno sólo,
por lo que el número total de clusters disminuye en uno. El proceso concluye cuando los dos últimos clusters se
unen en uno que contiene a todos los taxones originalmente presentes en el conjunto de datos. Los pasos en
detalle del método son como sigue:
1) Dada una matriz de distancias emparejadas, buscamos los clusters (taxones) i y j tales que dij
es el valor menor de la tabla.
3) Si i y j eran las dos últimos clusters, entonces el árbol está completo. Si no es así, creamos un
nuevo cluster llamado u.
4) Definimos la distancia de u a cada uno de los restantes clusters (k, con k i,j) como un promedio
entre las distancias dki y dkj.
5) Volvemos al paso 1 con un cluster menos, pues se han eliminado los clusters i y j y se ha creado
el cluster u.
Los distintos métodos suelen diferir en los detalles del paso 4. El método más frecuente de agrupación
es el UPGMA (unweighted pair group method using arithmetic averages, o método de agrupaciones emparejadas
no ponderadas usando medias aritméticas), en el que al promediar las distancias en el paso 4 se considera el
número total de taxones en los clusters. Esto es, si el cluster i contiene Ti taxones y el cluster j contiene Tj,
32
Tema 4. La reconstrucción filogenética.
entonces dku = (Ti dki + Tj dkj) / (Ti + Tj). Si en cambio se emplea el promedio sencillo, dku = (dki + dkj) / 2, la
técnica se conoce como WPGMA (weighted PGMA). Otros variantes incluyen la distancia máxima o ligamiento
completo, dku = max (dki, dkj), y la distancia mínima o ligamiento sencillo, con
dku = min (dki, dkj). Todas estas alternativas dan el mismo resultado cuando los datos son ultramétricos,
pero pueden diferir si los datos no son ideales.
Cabe destacar que el análisis de agrupamiento no puede unir dos taxones (también denotados como
OTUs, o unidades taxonómicas operativas) a menos que una distancia emparejada las una. Por tanto, cuando
faltan datos dentro de un grupo puede llevar a la exclusión de uno o más miembros del mismo en el árbol que se
infiera.
Estos métodos han gozado de mucha popularidad por varias razones. Aunque el supuesto de que los
datos son ultramétricos es muy fuerte, es más fácil asumir una única condición fuerte que una larga lista de
condiciones más relajadas. En segundo lugar, la idea de agrupar en cada etapa los dos taxones más semejantes
(separados por una menor distancia), tiene un atractivo intuitivo. El extremo en esta concepción es la perspectiva
fenética en la que nada importa biológicamente excepto el grado de parecido y que considerar el orden histórico
en que se han producido las bifurcaciones en el proceso cladogenético no tiene más que un interés secundario.
Una tercera razón es la disponibilidad de muchos programas para hacer este tipo de agrupaciones y la
considerable rapidez de los cálculos, lo que permite trabajar con muchos taxones.
Sin embargo, el análisis tiene sus pegas. Primero, es simplemente un algoritmo (o una familia de
algoritmos), sin una definición objetiva de lo que constituye un árbol óptimo cuando los datos no son ideales
(ultramétricos). En particular, dado que los genes no divergen uniformemente en todos los organismos u
orgánulos, es probable que se introduzcan errores sistemáticos en las reconstrucciones por análisis de
agrupamientos. Por último, existen métodos rápidos que funcionan con todos los árboles aditivos, no sólo los
ultramétricos, y de ellos nos ocuparemos a continuación.
El método neighbor-joining
Se han propuesto diversos métodos algorítmicos relacionados con el análisis de agrupaciones que
reconstruyen correctamente árboles aditivos, tanto si los datos son ultramétricos como si no. Estos métodos
pueden clasificarse en tres categorías principales. Los de la primera transforman cualquier matriz de distancias
aditivas en una matriz de distancias ultramétricas y a continuación emplean el análisis de agrupamientos sobre
ella. Entre estos están el método de la distancia transformada de Li (1981), el método del ancestro actual de
Klotz y Blanken (1981) y, aunque de una forma menos obvia, el método de neighbor-joining de Saitou y Nei
(1987). La segunda categoría comprende los métodos que forman las agrupaciones consistentes con la mayor
fracción de cuartetos de taxones, usando una definición de aditividad relajada para un árbol de cuatro taxones
(Sattah y Tversky, 1977; Fitch, 1981). Los métodos de la tercera clase, que incluyen el método de la distancia de
Wagner (Farris 1972), construyen una representación aditiva del árbol por adición secuencial de taxones. Todas
las aproximaciones de distancia transformada tienen una complejidad computacional que es proporcional a T3.
33
Tema 4. La reconstrucción filogenética.
Por tanto, cualquier problema que sea tratable con el análisis de agrupaciones estándar, también es tratable con
estos métodos.
A diferencia del análisis de agrupaciones, lo métodos de árboles aditivos dan árboles sin raíz., que son
adecuados para ciertos objetivos. Pero si hay que colocar una raíz, debe basarse en algún criterio externo.
Normalmente se incluyen en el análisis uno o más taxones externos al grupo monofilético que nos interesa. El
punto donde estos taxones se unen al árbol define la raíz respecto al grupo interno. Otro de los métodos, el
enraizamiento en el punto intermedio, depende de suponer uniformidad en las tasas, lago ligeramente más débil
que suponer un reloj molecular por todo el árbol: si los dos linajes más divergentes han evolucionado a la misma
tasa, entonces la raíz adecuada está en el punto medio de la ruta que une a estos dos taxones.
1) Dada una matriz de distancias emparejadas (d), para cada nodo terminal i calcula su divergencia
neta (ri) de todos los restantes taxones usando la fórmula , donde N es el número de taxones terminales en la
matriz actual.
2) Creamos una matriz de distancias corregidas por la tasa (M) cuyos elementos se definen como
3) Definimos un nuevo nodo u cuyas tres ramas unen los nodos i, j, y el resto del árbol. Definimos
las longitudes de las ramas de u a i y j como
4) Definimos la distancia de u a cada uno de los otros nodos terminales (los que no son i y j)
34
Tema 4. La reconstrucción filogenética.
6) Si quedan más de dos nodos, volvemos al paso 1. Si no, el árbol esta completamente definido a
excepción de la longitud de la rama que une los dos nodos restantes (i y j). Hacemos esta rama vij = dij. Cada
paso ha generado un nodo interno y ha estimado las longitudes de las dos ramas conectadas a ese nodo. Ahora
podemos dibujar el árbol.
Dado que el algoritmo de neighbor-joining pretende representar los datos mediante un árbol aditivo,
puede llegar a asignar una longitud negativa a una rama. Kuhner y Felsenstein (1995) modificaron el algoritmo
de manera que cuando se presentaba una rama con longitud negativa se le asignara una longitud cero, y la
diferencia se transfiriese a la longitud de la rama adyacente, de manera que no se viera afectada la la distancia
total entre un par de nodos terminales adyacentes. Este cambio no altera la topología del árbol hallada por el
algoritmo, sólo garantiza la no negatividad de las ramas.
35
Tema 4. La reconstrucción filogenética.
Los métodos basados en caracteres emplean un criterio de optimalidad para elegir entre los árboles
posibles, siendo, por tanto, del segundo grupo de métodos según la clasificación comentada previamente. El
criterio de optimalidad se emplea para asignar a cada árbol una puntuación o rango que es una función de la
relación entre el árbol y los datos. Los métodos de optimación tienen la gran ventaja de precisar de una función
explícita que relaciones los datos y el árbol (por ejemplo un modelo de cómo evolucionan las secuencias). En
consecuencia, estos métodos nos permiten evaluar la cantidad de cualquier árbol y comparar cómo ajustan a los
datos hipótesis competidoras de relaciones filogenéticas. El talón de Aquiles de estos métodos es su elevado
coste de computación.
Un método de optimalidad plantea dos problemas: primero, dado un conjunto de datos y cierto árbol,
¿cuál es el valor del criterio de optimalidad para ese árbol?; segundo, ¿cuál de los árboles posibles tiene un valor
máximo según este criterio? El primer problema es bastante sencillo, de resolución inmediata, pero el segundo
es bastante más complicado, perteneciendo a una clase de problemas conocidos como NP-completos por los
informáticos. Mientras que para números reducidos de secuencias (<20 habitualmente) es posible encontrar el
árbol(es) óptimo(s), en muchos casos no es posible, habiendo que recurrir a procedimientos heurísticos. Estos
son estrategias diseñadas para explorar cierto subconjunto de todos los árboles posibles, con la esperanza de
que ese subconjunto contenga el árbol óptimo. Una estrategia heurística típica consiste en empezar con un árbol
(obtenido, por ejemplo, con un procedimiento algorítmico rápido) y reordenarlo, manteniendo cualquier
reordenación que produzca un árbol mejor. Estos algoritmos suelen conocerse como de ‘escalada’ (hill climbing).
Máxima parsimonia
36
Tema 4. La reconstrucción filogenética.
Figura 4.22. Cómo contar el número mínimo de cambios entre un conjunto de especies. Aquí se presentan
cinco especies de las que se ha secuenciado un fragmento homólogo de DNA, encontrándose cinco bases
variables entre ellas. El primer paso es escribir todos los árboles sin raíz posibles; aquí sólo se muestran tres
de los 15 posibles. Tomemos el árbol mostrado en (a) como ejemplo. El procedimiento es el siguiente: (a)
tomar cualquier especie como el punto de partida (p.e., la especie 3). Retrocedamos su linaje hasta el nodo
anterior. Este es el nodo 1. Deducir la posible secuencia en ese nodo que minimizaría el número de cambios
bajo el nodo. Por tanto, si una base coincide para las especies 3 y 4, escribiremos esa base en el nodo: p.e., el
sitio 1 tiene A para ambas especies y escribimos A para el sitio 1 en el nodo 1. Si un sitio cambia, escribiremos
ambas alternativas en el nodo: p.e., el sitio 3 tiene C y T y escribiremos C y T en el nodo porque cualquiera de
los dos cambios podría haberse producido. (2) Retrocedemos hasta el nodo siguiente. Es el nodo 2. Utilizando
la secuencia de la especie 5 y la del nodo 1, deducir la secuencia del nodo 2 que precisaría de menor número
de cambios. De nuevo, si un sitio no varía, escribiremos esa base en el nodo; si varía, escribiremos ambas
alternativas. También, si un sitio es variable en el nodo 1 y una de las alternativas está en la especie 5,
tacharemos la otra alternativa en el nodo 1: p.e., la T en el sitio 3 de la especie 5 significa que el nodo 1 debe
tener T y no C en esa posición. (3) Deducir el nodo 3 a partir de las secuencias en los nodos 2 y 3 para tachar
las alternativas cuando hay una base común a ambos: p.e., el sitio 3 del nodo 3 podría ser A o T a partir de las
especies 1 y 2, pero es T en el nodo 2, por lo que tachamos la A en el nodo 3. Ahora tenemos las secuencias
37
Tema 4. La reconstrucción filogenética.
más parsimónicas por todo el árbol y podemos contar el número de pasos requeridos. Se escriben como líneas
atravesadas en las ramas y hay 6. Los mismos cálculos para los árboles (b) y /c) dan lugar a 8 y diez cambios,
respectivamente. De hecho, (a) es el árbol que menor número de cambios precisa de todos los árboles
posibles para las cinco especies: (a) es el árbol sin raíz correcto. La raíz puede hallarse mirando la secuencia
en un “outgroup”. Aquí el “outgroup” tiene la secuencia AATTT, lo que implica la filogenia de la parte inferior. En
principio, el “outgroup” podría haber localizado la raíz en cualquier lugar del árbol sin raíz.
Máxima verosimilitud
De entre las técnicas disponibles para la construcción de árboles filogenéticos, los métodos máximo
verosímiles son especiales por su simplicidad conceptual y por tener una base estadística bien definida. En
principio, un análisis de máxima verosimilitud consta de tres partes. En la primera se especifica un modelo de
cambio evolutivo para los nucleótidos o aminoácidos. A continuación, y basándonos en el modelo previo, se
evalúan distintas hipótesis sobre la historia evolutiva en términos de la probabilidad de que la historia propuesta
(hipotetizada) de lugar a los datos observados. Por último, se selecciona la hipótesis que de la probabilidad más
alta. La máxima verosimilitud suele proporcionar estimas con menores varianzas que otros métodos y
frecuentemente es el método de estimación menos afectado por los errores muestrales. Además, la máxima
verosimilitud parece bastante robusta frente a violaciones de los supuestos empleados en los modelos
subyacentes (Huelsenbeck 1995). Esto es parte de la potencia de este enfoque. Además, muchos de los modelos
de evolución de secuencias que asumen distribuciones idénticas para los distintos sitios, también pueden asumir
con garantías que los procesos de sustitución reales en esos sitios tienen mucho en común, incluso aunque no
sean completamente idénticos.
No obstante, los métodos máximo verosímiles tienen también inconvenientes. El más importante es
que son muy caros computacionalmente. Esto puede atribuirse a dos factores principales. Primero, con el fin de
encontrar la solución óptima es necesario evaluar un gran número de hipótesis alternativas. Ya hemos visto que
el número de árboles filogenéticos crece exponencialmente con el número de taxones incluidos, lo que hace que
sea imposible comparar todos los árboles posibles incluso para un número moderado de especies (ver Búsqueda
de árboles óptimos). Segundo, la complejidad de calcular la probabilidad de cierta hipótesis también puede ser
prohibitiva.
38