Moreno-Sedano, F. (2023). Tres algoritmos bioinspirados para el problema de plegado de proteínas. Tesis de licenciatura. CDMX, UNAM

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 92

UNIVERSIDAD NACIONAL AUTÓNOMA

DE MÉXICO

FACULTAD DE CIENCIAS

TRES ALGORITMOS BIOINSPIRADOS PARA EL


PROBLEMA DE PLEGADO DE PROTEÍNAS

T E S I S

QUE PARA OBTENER EL TÍTULO DE:

ACTUARIO

PRESENTA:

FRANCISCO MORENO SEDANO

TUTORA

DRA. KATYA RODRÍGUEZ VÁZQUEZ

CIUDAD UNIVERSITARIA, CD. MX., 2023


UNAM – Dirección General de Bibliotecas
Tesis Digitales
Restricciones de uso

DERECHOS RESERVADOS ©
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL

Todo el material contenido en esta tesis esta protegido por la Ley Federal
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México).

El uso de imágenes, fragmentos de videos, y demás material que sea


objeto de protección de los derechos de autor, será exclusivamente para
fines educativos e informativos y deberá citar la fuente donde la obtuvo
mencionando el autor o autores. Cualquier uso distinto como el lucro,
reproducción, edición o modificación, será perseguido y sancionado por el
respectivo titular de los Derechos de Autor.
1. Datos del alumno
Moreno
Sedano
Francisco
55 60 68 85 18
Universidad Nacional Autónoma de México
Actuarı́a
312106946

2. Datos del tutor


Dra.
Katya
Rodrı́guez
Vázquez

3. Datos del sinodal 1


Dra.
Claudia Orquı́dea
López
Soto

4. Datos del sinodal 2


Dra.
Marı́a de Luz
Gasca
Soto

5. Datos del sinodal 3


M. en C.
David Chaffrey
Moreno
Fernández

6. Datos del sinodal 4


Dr.
Canek
Peláez
Valdés

7. Datos del trabajo escrito


Tres algoritmos bioinspirados para el problema de plegado de proteı́nas
81 p
2023
Dedicado a mi mamá y a mi hermana.
Agradecimientos

Todo mi agradecimiento a mi mamá y a mi hermana, por todo su esfuerzo en todos estos años para
que yo pudiera llegar hasta aquı́, sin ustedes eso no habrı́a sido posible y no habrı́a valido la pena. Aún
no sabemos que nos depara el futuro, pero lo que venga lo afrontaremos, por fin, juntos.
A la familia V. R. por la paciencia que nos han tenido todo este tiempo.
A la Doctora Katya por sus enseñanazas, por su motivación y comprensión y por permitirme usar el
laboratorio de CEB para completar este trabajo.
A mi madrina por todas las veces que me apoyó y a mi ma por cuidar a mi hermana todos estos años.
A los amigos con los que me he cruzado, gracias por los buenos momentos.
A mis cuatro sinodales por todas sus observaciones que me ayudaron a mejorar mucho este trabajo.
A la UNAM por sus enseñanzas, espero contribuir con mi granito de arena para hacer de este paı́s un
mejor lugar.

III
Índice general

Lista de Figuras VII

Lista de Tablas IX

Introducción 1

1. Proteı́nas 5
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Estructura de las proteı́nas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1. Estructura primaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.2. Estructura secundaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.3. Estructura terciaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.4. Estructura cuarternaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3. Modelo hidrofóbico-polar en una malla de dos dimensiones . . . . . . . . . . . . . . . . 10
1.4. Planteamiento matemático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2. Algoritmos bioinspirados 16
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2. Algoritmos Genéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1. Conceptos biológicos detrás de los operadores del algoritmo genético . . . . . . 18
2.2.2. Algoritmo genético simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.3. Población inicial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.4. Codificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.5. Mapeo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.6. Función de aptitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

IV
ÍNDICE GENERAL V

2.2.7. Selección . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.8. Recombinación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.9. Mutación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.10. Reemplazo de la población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.11. Criterio de paro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3. Inteligencia de enjambre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4. Optimización por enjambre de partı́culas . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4.1. Velocidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.4.2. Actualización de posición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4.3. Ajustes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.5. Optimización por colonia de hormigas. . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.5.1. Algoritmos de construcción y búsqueda local . . . . . . . . . . . . . . . . . . . 31
2.5.2. Ant System . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5.3. Inicialización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5.4. Construcción de soluciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5.5. Información heurı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5.6. Implementación de búsqueda local . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5.7. Actualización global de feromona . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.5.8. Variantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3. Metodologı́a 38
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2. Algoritmos genéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.1. Mutación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.2. Recombinación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.3. Función objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.4. Función de aptitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2.5. Selección . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2.6. Algoritmo genético . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.3. Optimización por enjambre de partı́culas . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.3.1. Velocidades y actualización de posición . . . . . . . . . . . . . . . . . . . . . . 49
3.4. Colonia de hormigas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
ÍNDICE GENERAL VI

3.4.1. Información heurı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51


3.4.2. Poblaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4.3. Feromona . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4. Resultados 54
4.1. Resultados para algoritmos genéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2. Resultados para optimización por enjambre de partı́culas . . . . . . . . . . . . . . . . . 63
4.3. Resultados para optimización por colonia de hormigas (ACO) . . . . . . . . . . . . . . 68

Conclusiones 78
Índice de figuras

1.1. Estructura primaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8


1.2. Estructura secundaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3. Estructura terciaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4. Estructura cuarternaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5. Representación gráfica para S19 tomando en cuenta el orden definido por x1 . . . . . . . . 13

3.1. Gráficas de las configuraciones x1 , x2 , x3 y x4 . . . . . . . . . . . . . . . . . . . . . . . . 39


3.2. Regiones en R2 para optimización por enjambre de partı́culas. . . . . . . . . . . . . . . 50
3.3. Gráfica sobre la que caminan las hormigas. . . . . . . . . . . . . . . . . . . . . . . . . 51

4.1. Evolución de AG considerando probabilidad de mutación de 1/19 y probabilidad de


selección de 0.97. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2. Convergencia de la población en algoritmos genéticos considerando la secuencia S1 . . . . 61
4.3. Evolución del plegado en algoritmos genéticos considerando la secuencia S1 . . . . . . . 62
4.4. Evolución del plegado en algoritmos genéticos considerando la secuencia S1 . . . . . . . 63
4.5. Evolución de PSO considerando c1 = 0.7,c2 = 0.1 y w = 0.5. . . . . . . . . . . . . . . . 65
4.6. Diagrama de caja de optimización por enjambre de partı́culas considerando c1 = 0.7,c2 =
0.1 y w = 0.5 en la primera repetición . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.7. Evolución grafica de PSO para la secuencia S4 . . . . . . . . . . . . . . . . . . . . . . . 67
4.8. Evolución del plegado usando PSO para la secuencia S1 . . . . . . . . . . . . . . . . . . 68
4.9. Evolución de optimización por colonia de hormigas considerando α = 2, β = 4, ρ =
0.001 y ∆ = 0.0002 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.10. Diagrama de caja para optimización por colonia de hormigas considerando α = 2, β = 4,
ρ = 0.001 y ∆ = 0.0002 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

VII
ÍNDICE DE FIGURAS VIII

4.11. Un ejemplo de la evolución del plegado en ACO . . . . . . . . . . . . . . . . . . . . . . 72


4.12. Mejor plegado reportado para la secuencia S1 . . . . . . . . . . . . . . . . . . . . . . . 73
4.13. Mejor plegado reportado para la secuencia S2 . . . . . . . . . . . . . . . . . . . . . . . 74
4.14. Mejor plegado reportado para la secuencia S3 . . . . . . . . . . . . . . . . . . . . . . . 75
4.15. Plegado con energı́a de −18 para la secuencia S4 . . . . . . . . . . . . . . . . . . . . . 76
4.16. Plegado con energı́a de −43 para la secuencia S5 . . . . . . . . . . . . . . . . . . . . . 77
Índice de Tablas

1.1. Clasificación de aminoácidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3.1. Construcción de la ruta en R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.1. Tiempo y resultados de algoritmos genéticos. . . . . . . . . . . . . . . . . . . . . . . . 55


4.2. Resultados variando la mutación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3. Resultados variando la probabilidad de recombinación. . . . . . . . . . . . . . . . . . . 56
4.4. Resultados variando la penalización. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.5. Resultados variando el tamaño de población. . . . . . . . . . . . . . . . . . . . . . . . . 57
4.6. Resultados para el resto de secuencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.7. Resultados de selección universal estocástica para las cinco secuencias. . . . . . . . . . 58
4.8. Resultados por Torneo para las cinco secuencias . . . . . . . . . . . . . . . . . . . . . . 59
4.9. Resultados variando parámetros de optimización por enjambre de partı́culas. . . . . . . . 64
4.10. Resultados de optimización por enjambre de partı́culas para las cinco secuencias. . . . . 66
4.11. Resultados variando los parámetros de ACO . . . . . . . . . . . . . . . . . . . . . . . . 69
4.12. Resultados de ACO para las cinco secuencias . . . . . . . . . . . . . . . . . . . . . . . 73

IX
Introducción

Las proteı́nas desarrollan un papel fundamental dentro de la vida en la Tierra, pues están involucra-
das en muchos procesos que se llevan a cabo dentro del organismo de los seres vivos, están formadas
por moléculas conocidas como aminoácidos, los cuales comparten una estructura que es similar, los
aminoácidos se unen mediante enlaces peptı́dicos, en donde el grupo amino de uno se une al grupo car-
boxilo del otro, liberando en el proceso una molécula de agua. Se ha descubierto que el funcionamiento
de una proteı́na está estrechamente relacionado con la estructura que adopta.
Bajo las condiciones habituales de pH 1 y temperatura, una misma secuencia de aminoácidos adoptará
siempre la misma estructura, que es conocida como estado nativo. Este es un proceso que se lleva a cabo
dentro de los ribosomas, y toma un tiempo en escalas menores que segundos, lo sorprendente detrás de
esto es que existen miles de millones de posibles formas que puede adoptar la secuencia de aminácidos, y
en caso de que la secuencia fuera adoptando una por una todas las posibles conformaciones se tomarı́a un
tiempo que podrı́a ser incluso mayor que la edad actual del universo, esto es conocido como la paradoja
de Levinthal, por lo que deben existir reglas que por el momento desconocemos y que rigen el proceso del
plegado de proteı́nas, bajo la hipótesis de Anfinsen se sabe que el estado nativo es aquella conformación
en la que la energı́a libre de Gibbs es mı́nima.

Motivación

Predecir la estructura final de una proteı́na es de mucha importancia ya que en caso de que se presenten
plegados erróneos dentro de las células, puede provocar enfermedades como el cáncer y Alzheimer. Si se
logra conocer la estructura que debe adoptar una proteı́na se puede contar con herramientas para hacer
frente a estas enfermedades. Aunque en la actualidad se conoce el estado nativo de varias proteı́nas,
hacerlo en laboratorios mediante los métodos que existen, como la difracción por rayos X o la resonancia
1 ElpH, que significa potencial de hidrógeno, es una escala que indica la concentración de iones de hidrógeno, esta escala
va de 0 a 14, de esta manera se puede expresar la acidez o alcalinidad de una sustancia. [3]

1
ÍNDICE DE TABLAS 2

magnética nuclear, es muy costoso e involucra grandes cantidades de tiempo por su nivel de complejidad,
pero gracias a las herramientas computacionales con las que se cuentan actualmente y que mejoran más
cada dı́a, es posible hacer uso de la computación para poder simular la estructura que debe adoptar
una secuencia de aminoácidos, lo cual puede llevarse a cabo en menos tiempo y requiriendo menores
cantidades de dinero.
Existen muchos modelos que intentan describir la estructura de las proteı́nas, dentro de los cuales
se encuentra el modelo HP propuesto por Dill [4]. En este modelo, cada aminoácido es clasificado de-
pendiendo de su interacción con el agua, los aminoácidos hidrofóbicos (H) tienen repulsión al agua,
mientras que los aminoácidos polares (P) son afines al agua. En este modelo, de dos dimensiones, los
aminoácidos son acomodados dentro de una malla en R2 que no permite empalmes, cada aminoácido
se acomoda a la derecha (1) arriba (2), a la izquierda (3) o por debajo (4) del aminoácido que ocupa
una posición previa dentro de la secuencia lineal de aminoácidos que forman a la proteı́na. Para una
secuencia con n aminoácidos, bajo este modelo, esta estructura puede adoptar un total de 4n−1 posibles
conformaciones distintas, aunque no todas son factibles.
En el modelo HP, la energı́a se calcula como el total de interacciones hidrofóbicas dentro de los
aminoácidos que la conforman. Se presenta una interacción hidrofóbica cuando dos aminoácidos hi-
drofóbicos no consecutivos están acomodados a una unidad de distancia entre sı́, de esta interacción se
desprende una energı́a de −1, mientras que de las demás interacciones no se desprende energı́a, además,
para evitar caer en plegados que no son factibles se agrega una penalización por cada posible empalme.
El modelo propuesto por Dill forma parte de los problemas de optimización combinatoria, por lo que se
pueden usar metaheurı́sticas para poder predecir la estructura final de una proteı́na. De entre todas las me-
taheurı́sticas diseñadas en este trabajo se usarán tres que toman inspiración directamente de situaciones
observadas en la naturaleza.
El algoritmo genético forma parte los algoritmos evolutivos y basados en poblaciones, está directa-
mente inspirado en la teorı́a de la evolución propuesta por Darwin, pues se simulan conceptos como son
los genes, la morfogénesis, la recombinación del material genético de los individuos más aptos, la pre-
sencia de mutaciones, y la preservación del buen material genético que lleva a que las poblaciones vayan
adoptando rasgos evolutivos que les permiten desarrollarse de manera óptima dentro de su ambiente.
Por otra parte, al observar el comportamiento, que a simple vista parece errático, de las parvadas y
los bancos de peces, llevó a algunos cientı́ficos proponer un modelo conocido como optimización por
enjambre de partı́culas (PSO). Este modelo trata de imitar dichos comportamientos, que permiten a las
aves y a los peces poder huir de depredadores, minimizando el número de pérdidas, o encontrar un lugar
ÍNDICE DE TABLAS 3

con una cantidad suficiente de comida para toda la parvada.


El último algoritmo que se usó en este trabajo es optimización por colonia de hormigas (ACO), el cual
se inspira en la forma en que las hormigas pueden encontrar el camino más corto desde su hormiguero
hacia las fuentes de comida. Las hormigas depositan una sustancia llamada feromona, cuyo rastro les
permite compensar su poca visión. Como las hormigas que encuentran la ruta más corta regresan más
rápido al hormiguero, el rastro de feromona es reforzado más rápido que en los caminos más largos, por
lo que al final el resto de hormigas tienden a optar por seguir el camino que tiene un mayor rastro de
feromona.

Estructura de la tesis

Este trabajo consta de cuatro capı́tulos. En el primer capı́tulo se abordan distintos conceptos quı́micos
sobre los aminoácidos y las proteı́nas que pueden ayudar a entender el proceso de plegado de proteı́nas,
se presenta el modelo propuesto por Dill, la visualización gráfica y una propuesta de modelo matemático.
En el segundo capı́tulo se mencionan algunos fenómenos observados en la naturaleza que dieron
inspiración a los tres algoritmos bioinspirados que se utilizaron, ademas de que se presenta el trabajo de
diversos autores sobre cada uno de los tres algoritmos, se explica cada uno de los parámetros involucrados
en su implementación y se mencionan algunas variantes.
En el tercer capı́tulo se explica la metodologı́a usada en cada uno de los tres algoritmos, las modifi-
caciones propuestas para cada uno de ellos, además de que se incluye la documentación del código de
programación utilizado.
En el último capı́tulo se muestran los resultados a los que se llegó, se evalúan los distintos parámetros
para seleccionar los mejores valores para dichos parámetros. Se hace uso de varias gráficas para mostrar
la convergencia de los algoritmos, cómo cambia el valor mı́nimo encontrado a lo largo de las iteraciones
y por último se muestra cómo evoluciona el mejor plegado encontrado por cada algoritmo.
Finalmente se presentan las conclusiones a las que se llegó, además de que se plantean algunas ideas
que podrı́an ayudar a mejorar el desempeño de los tres algoritmos en un futuro.
ÍNDICE DE TABLAS 4

Objetivos

Los objetivos trazados en este trabajo son:

Realizar los ajustes adecuados para poder implementar Algoritmos genéticos, Optimización por
cúmulo de partı́culas y Optimización por colonia de hormigas en el problema de plegado de pro-
teı́nas bajo el modelo propuesto por Dill, para algunas secuencias que son conocidas dentro de
otros trabajos.

Minimizar el tiempo de ejecución de los algoritmos en medida de lo posible.

Ajustar los distintos parámetros de cada algoritmo de manera que se evite el estancamiento de ser
posible.

Plantear ideas que puedan ayudar a abordar este problema en trabajos posteriores con mejores
herramientas.
Capı́tulo 1

Proteı́nas

1.1. Introducción

En este capı́tulo se presentan los conceptos más importantes dentro del campo de la quı́mica que
sirven como sustento para describir la estructura de las proteı́nas, se presenta el modelo Hidrofóbico-
Polar propuesto por Dill para describir dicha estructura y finalmente se presenta una propuesta de modelo
matemático que servirá para utilizar tres algoritmos bionspirados que serán presentados en el Capı́tulo 2
Las proteı́nas son las unidades encargadas de dar soporte a la estructura de los seres vivos pues:

“Están involucradas en casi todos los procesos que ocurren en la célula. El ADN es la me-
moria que contiene la información genética, y los ARN son las macromoléculas decodifica-
doras, ya que son capaces de convertir la información codificada en los ácidos nucleicos en
la información secuencial de las proteı́nas. ” [3]

Esta información indica las proteı́nas que generan las células de cada organismo, lo que finalmente otorga
las caracterı́sticas que lo definen.
A pesar de que las distintas proteı́nas pueden realizar funciones tan distintas que van desde la cata-
lización de procesos y reacciones quı́micas, hasta la protección inmunológica [5], todas están formadas
por los mismos componente básicos: los aminoácidos. Éstos aminoácidos comparten la misma estruc-
tura, pues están compuestos por un átomo central de carbono (C) un grupo amino (NH2 ) en uno de los
extremos de la molécula, un grupo carboxilo (COOH), además de un grupo lateral R (residuo) que es el
que distingue a un aminoácido de otro [3].
Existen 20 aminoácidos distintos que pueden formar proteı́nas y que por su grado de interacción
con el agua pueden ser clasificados como: aminoácidos no polares (hidrofóbicos), aminoácidos pola-

5
CAPÍTULO 1. PROTEÍNAS 6

res, aminoácidos ácidos y aminoácidos básicos [3]. Dentro del grupo de los no polares se encuentran
la glicina, alanina, valina, leucina, isoleucina, fenilalanina, triptófano, metionina, cisteı́na y la prolina,
éstos tienen una función importante para determinar la estructura final de la proteı́na por su repulsión al
agua. Los aminoácidos polares son: serina, treonina, tirosina, asparagina, glutamina y éstos son afines
al agua debido a las caracterı́stica de su grupo funcional, pues tienen la capacidad de formar enlaces de
hidrógeno. Los aminoácidos ácidos son el aspartato y el glutamato, por últimos los aminoácidos básicos
son la lisina, arginina e histidina.

Hidrofóbicos Polares
Glicina (G) Serina (S)
Alanina (A) Treonina (T)
Valina (V) Tirosina (Y)
Leucina (L) Asparagina (N)
Isoleucina (I) Glutamina (Q)
Fenilalanina (F) Aspartato (D)
Metionina (M) Glutamato (E)
Prolina (P) Lisina (K)
– Histidina (H)
– Arginina (R)
– Cisteı́na (C)
– Triptófano (W)

Tabla 1.1: Clasificación de aminoácidos

En este trabajo y tomando como base el modelo propuesto por Dill, que es explicado más adelante, los
aminoácidos serán clasificados como polares o no polares (hidrofóbicos). También es importante trabajar
con las abreviaturas con una sola letra de los aminoácidos porque en bases de datos como la del Protein
Data Bank las secuencias de aminoácidos que conforman a las proteı́nas que se tienen registradas vienen
representadas únicamente con su abreviatura en una letra. Clasificar los aminoácidos como hidrofóbicos
o polares es de gran utilidad, ya que se sabe que el agua ocupa aproximadamente el ochenta por ciento
de las células. Esta clasificación se muestra en la tabla 1.1.
El proceso de sı́ntesis se lleva a cabo cuando los aminoácidos se unen formando cadenas largas, dicha
unión recibe el nombre de enlace peptı́dico. Para que pueda realizarse este tipo de enlace, el extremo
CAPÍTULO 1. PROTEÍNAS 7

amino de uno de los aminoácidos (quien terminará perdiendo un átomo de hidrógeno) se combina con el
extremo carboxı́lico del otro aminoácido (quien pierde un grupo hidroxilo) creándose un enlace covalente
entre ellos. En esta unión se pierde una molécula de agua y surgen los péptidos. Dependiendo el número
de aminoácidos involucrados los péptidos reciben por nombre bipéptidos, tripéptidos, polipéptidos. Por
lo general, se considera que las proteı́nas están formadas por más de 50 aminoácidos [12]. Aunque la
diferencia entre proteı́nas y polipéptidos puede tomarse también de acuerdo al peso molecular, en donde
las proteı́nas tienen un peso molecular al menos de 5, 000.

1.2. Estructura de las proteı́nas

Cuando se realiza el proceso de sı́ntesis, la proteı́na se pliega en una estructura tridimensional, que es
conocida como conformación nativa, pero esto se logra bajo las condiciones habituales de temperatura y
pH dentro de la célula. La importancia de poder predecir esta estructura, radica en que una configuración
incorrecta en el plegado puede provocar que la estructura creada tenga propiedades que puedan perjudicar
la salud. En los humanos, por ejemplo, puede provocar cáncer y Alzheimer, por esto, y debido a que las
herramientas experimentales que se usan son muy costosas y requieren una gran inversión de tiempo,
por ejemplo difracción por rayos X [5], es de gran utilidad usar metaheurı́sticas entre las que están los
algoritmos bioinspirados.
La evolución también se ve reflejada en el proceso de plegado de proteı́nas pues las secuencias de
proteı́nas “han sido seleccionadas por el proceso evolutivo para alcanzar una estructura reproducible y
estable” [5]. Además como afirma McKee, si se toma en cuenta que son veinte los aminoácidos que
pueden formar proteı́nas, y que éstas pueden estar formadas por largas secuencias de aminoácidos, al
considerar, por ejemplo, una proteı́na compuesta por 100 de ellos, existen 20100 posibles conformaciones,
pero no todas las conformaciones forman proteı́nas útiles para los organismos vivos. Las caracterı́sticas
del plegado de las proteı́nas que podrı́an explicar esto son [12]:

El plegado de proteı́nas es un proceso que es rápido y exitoso.

La presencia de sitios de unión especı́ficos para una molécula.

La estructura final debe encontrar un balance entre rigidez y flexibilidad de forma que siga mante-
niendo el funcionamiento.

La superficie debe tener caracterı́sticas adecuadas para el sitio en el que la proteı́na va a realizar
sus funciones.
CAPÍTULO 1. PROTEÍNAS 8

Las proteı́nas pueden sufrir degradación cuando sufren algún daño o dejan de ser útiles.

Existen cuatro formas de describir la estructura de las proteı́nas y cada una toma en consideración la
información obtenida en los niveles estructurales previos.

1.2.1. Estructura primaria

Se refiere al conjunto de aminoácidos que forman a la proteı́na y al orden en que se encuentran [12].
No contiene ningún tipo de información geométrica. Tiene repercusión en la forma tridimensional que
adoptará la proteı́na, pues la estructura depende en gran medida de la polaridad de los aminoácidos. Se
ha observado que proteı́nas que tienen una función similar también comparten una estructura primaria
similar, además de que el análisis de la estructura primaria de proteı́nas que realizan funciones muy pa-
recidas en organismos de diferentes especies ha ayudado a encontrar relaciones genéticas entre ellos.

Figura 1.1: Estructura primaria. Obtenida en [5].

1.2.2. Estructura secundaria

En la década de 1930 haciendo uso de los resultados obtenidos por la difracción de Rayos X, Linus
Pauling dedujo la existencia de dos estructuras comunes para las moléculas de proteı́nas [12], éstas son:
la estructura hélice-α y lámina plegada-β . La estructura secundaria consta de la presencia de éstos dos
tipos de estructura en algunas partes de la cadena.
La estructura hélice-α, es estabilizada por la presencia de enlaces de hidrógeno intramoleculares entre
los grupos amino y carboxilo lo que da lugar a una estructura en forma de barra. El grupo carboxilo se une
mediante enlaces por puentes de hidrógeno al grupo amino del residuo que se encuentra a cuatro residuos
CAPÍTULO 1. PROTEÍNAS 9

en la secuencia. La estructura lámina plegada-β como su nombre lo indica se asemeja a una lámina,
pues la cadena está prácticamente extendida, se presentan muchos enlaces por puentes de hidrógeno
intermoleculares pero estos están presentes entre las cadenas y sus cadenas vecinas.

Figura 1.2: Estructura secundaria. Obtenida en [5].

1.2.3. Estructura terciaria

Es la forma que toma la cadena en tres dimensiones, haciendo uso de distintas estructuras secunda-
rias, estabilizado por fuerzas de dispersión, enlaces por puentes de hidrógeno y algunas otras fuerzas
moleculares [12]. La diferencia con respecto a la estructura secundaria consiste en que los aminoácidos
que intervienen en la formación de esta estructura están alejados dentro de la secuencia. En la figura
1.3 se muestra una proteı́na en la que los segmentos en color rojo muestran aminoácidos que forman
una estructura de hélice-α mientras que los segmentos de color amarillo son aminoácidos que forman
estructuras en lámina plegada-β .

Figura 1.3: Estructura terciaria. Obtenida en [5].


CAPÍTULO 1. PROTEÍNAS 10

1.2.4. Estructura cuarternaria

Solamente existen en proteı́nas que están formadas por más de una cadena polipeptı́dica enlazadas por
medio de puentes de hidrógeno entre ellas, por lo que en esta estructura se puede analizar las interaccio-
nes entre dichas cadenas [12].

Figura 1.4: Estructura cuarternaria. Obtenida en [5].

1.3. Modelo hidrofóbico-polar en una malla de dos dimensiones

A pesar de que, dada una secuencia de aminoácidos, la proteı́na puede adoptar una gran cantidad
de estructuras distintas, el plegado de proteı́nas se lleva a cabo de manera rápida y exitosa [12]. Sin
embargo, si la proteı́na adoptara todas las posibles conformaciones hasta llegar a la conformación nativa,
le llevarı́a años encontrarla, incluso si pudiera adoptar cada posible configuración a una gran velocidad.
Esto es conocido como la paradoja de Levinthal [2]. El estado nativo se refiere a la estructura idónea
que forma la proteı́na bajo ciertas caracterı́sticas de temperatura y pH. La hipótesis de Anfinsen sugiere
que “la estructura nativa tridimensional de una proteı́na en su ambiente fisiológico es aquella en donde
la energı́a libre de Gibbs es menor en todo el sistema” [1].
Para entender el concepto de energı́a libre de Gibbs es necesario definir algunos conceptos previos.
La termodinámica es la rama de la fı́sica encargada del estudio de la energı́a, sus transformaciones e
interacciones con la materia, entendiendo que la energı́a es la capacidad de un cuerpo para realizar un
trabajo [9].
La presión es un concepto que hace referencia a la fuerza ejercida por un cuerpo ejercida sobre una
superficie o área, por otro lado, la temperatura (T ) se refiere a una magnitud que expresa el grado de frı́o
CAPÍTULO 1. PROTEÍNAS 11

o calor de los cuerpos. La entalpı́a representada como h es una magnitud termodinámica definida como
[9]:
h = u+P·v (1.1)

En donde la variable u hace referencia a la energı́a interna, P representa a la presión y v al volumen


ocupado por el cuerpo.
Por otra parte, el concepto de entropı́a es una medida del desorden de un sistema, tomando como
ejemplo las moléculas de agua, éstas tienen una menor entropı́a cuando forman hielo que cuando forman
vapor. Esta magnitud queda representada por la letra S.
De esta manera la función de Gibbs o energı́a libre de Gibbs está dada por la ecuación [9]:

g = h−T ·S (1.2)

En este caso g representa la energı́a libre de Gibbs. Una reacción es espontánea cuando se realiza sin
necesidad de llevar a cabo un aporte de energı́a, por ejemplo la oxidación de un metal. Cuando se tiene
que g < 0 la reacción es espontánea. Por lo tanto, si se cumple la hipótesis de Anfinsen, y se tiene que g
alcanza un valor mı́nimo y este es negativo, entonces se tendrá que el proceso de plegado de proteı́nas es
un proceso espontáneo.
Tanto la hipótesis de Anfinsen como la clasificación de los aminoácidos de acuerdo a su polaridad
sirven como base para el modelo hidrofóbico-polar propuesto por Dill. En este modelo se reduce el
alfabeto con que se representan los aminoácidos que forman parte de la proteı́na, pues se pasa de 20
caracteres distintos para los aminoácidos, a representarlos sólo con 2 letras, los aminoácidos polares
quedan representados por la letra P, mientras que los hidrofóbicos con la letra H. Posteriormente los
aminoácidos se acomodan a la izquierda (1), arriba (2), derecha (3) o por debajo (4) del aminoácido
anterior.
Se define el espacio conformacional como el conjunto de todas las posibles conformaciones que
puede adoptar una secuencia dada de aminoácidos [4]. Bajo el modelo propuesto por Dill este tiene
una dimensión de zn−1 . En el caso de este trabajo se tiene que z = 4 (debido a que hay cuatro posiciones
que puede ocupar un aminoácido con respecto a su antecesor) y n es el número de aminoácidos que
forman la secuencia. Se debe tener en consideración que hay secuencias que son exactamente iguales a
otras, porque pueden verse como una reflexión o una rotación de otra posible solución. En su trabajo Dill
estimó que el número de posibles conformaciones distintas es aproximadamente de 2.71n−1 para el caso
CAPÍTULO 1. PROTEÍNAS 12

especı́fico en que z = 4.
De cumplirse la hipótesis de Anfinsen, entonces la conformación nativa de una secuencia de aminoáci-
dos debe ser aquella que tiene la menor energı́a libre. Se hace uso del término energı́a libre, debido a que
no se está tomando en cuenta la influencia que tiene la temperatura en este tipo de contacto.
Bajo este modelo, la configuración de una secuencia de aminoácidos se entiende como un recorrido
sobre una red cuadrada bidimensional que no permite empalmes. Si se cambiara el modelo por otro de
una red cúbica, la única diferencia serı́a en el total de posibles conformaciones ya que el número de
aminoácidos vecinos aumenta. Pero considerando que el propósito de Dill era simplificar la manera de
describir la estructura final que adopta una proteı́na dada la secuencia de aminoácidos que la conforman
no es necesario cambiar el modelo en dos dimensiones por uno de tres.
Es importante señalar que, si bien en este modelo un aminoácido tiene como vecinos al aminoácido
anterior y al siguiente, en caso de que los dos sean aminoácidos del tipo H, no se cuenta como interacción
de energı́a libre. La energı́a liberada por la interacción entre aminoácidos no polares adyacentes será de
ε < 0, en el presente trabajo se considera ε = −1. En cualquier otra interacción la energı́a libre es de
ε =0
Dado lo anterior, para ejemplificar como funciona el modelo propuesto por Dill se considera la se-
cuencia S1 formada por 19 aminoácidos. Esta secuencia está descrita de la siguiente forma:

S19 = H2 PHPH2 P2 H3 P2 H2 P2 H

En donde cada subı́ndice indica cuántos aminoácidos consecutivos hay en la secuencia que son del tipo
H o del tipo P. Cuando no se indica un subı́ndice se entiende que en realidad el subı́ndice que deberı́a ir
indicado es un 1. Si se considera una posible solución:

x1 = (1, 1, 2, 3, 3, 3, 3, 4, 1, 4, 3, 3, 4, 1, 1, 1, 4, 3).

Entonces la estructura de la proteı́na se puede ilustrar cómo se ve en la figura 1.5. En donde los puntos
negros representan a los aminoácidos polares, mientras que los puntos en color rojo representan a los
aminoácidos hidrofóbicos. Las interacciones hidrofóbicas están representadas mediante lı́neas punteadas
en color rojo. Para facilitar la visualización de las estructuras el primer aminoácido de la secuencia es de
mayor tamaño que el resto.
CAPÍTULO 1. PROTEÍNAS 13

Figura 1.5: Representación gráfica para S19 tomando en cuenta el orden definido por x1 .

1.4. Planteamiento matemático

En este problema el valor en la función objetivo de cada solución depende directamente de la secuencia
de aminoácidos que se está analizando y también de la forma en que esta secuencia esté acomodada para
formar a una proteı́na. Tomando en cuenta que en el modelo de Dill, se le da mayor importancia a las
interacciones entre aminoácidos hidrofóbicos se harán primero algunas definiciones.
Sea S = s1 s2 . . . sn la secuencia de aminoácidos que conforman a la proteı́na R.
En donde si = H o si = P para i = 1, 2, . . . , n.
Las posiciones de la secuencia S que contienen aminoácidos hidrofóbicos están contenidas en el con-
junto:
H(S) = {i ∈ 1, 2, . . . , n |si ∈ S ∧ si = H}.

Sea h ∈ H. Se define al conjunto de los posibles vecinos factibles del aminoácido hidrofóbico sh como:

V (sh ) = {hi ∈ H | hi > h + 1 ∧ hi − h = 2k − 1 para alguna k ∈ N}.


CAPÍTULO 1. PROTEÍNAS 14

Es importante notar que el conjunto H contiene únicamente los ı́ndices de la secuencia S donde se
tienen aminoácidos hidrofóbicos. El conjunto de posibles vecinos factibles está construido de esa forma
por los siguientes motivos.

1. Al considerar la restricción hi > h + 1 se evitará contar dos veces las interacciones entre aminoáci-
dos, por ejemplo, una posible interacción entre el aminoácido s1 , con el aminoácido s8 solamente
será contada al considerar los posibles vecinos factibles del primer aminoácido. Además, también
se evita contar las interacciones entre dos aminoácidos hidrofóbicos consecutivos.

2. Al tener que hi −h = 2k −1 para alguna k ∈ N, se busca que si h es un número impar, el aminoáci-


do sh solamente puede tener interacciones hidrofóbicas con aminoácidos que ocupen posiciones
pares dentro de la secuencia de aminoácidos S y viceversa.

De esta forma, se puede plantear el problema de plegado de proteı́nas para una malla de dos dimen-
siones de la siguiente manera.
Sea x ∈ {1, 2, 3, 4}n−1 el orden en que están acomodados los aminoácidos que forman parte de la
secuencia S.
La energı́a libre, bajo el modelo de Dill, donde las interacciones entre aminoácidos hidrofóbicos no
consecutivos desprenden una energı́a eg y en donde los empalmes tiene una penalización f p se puede
calcular de la siguiente manera:

" #
v−1 v−1 v−1 v−1
E(x, S) = ∑ ∑ eg ∗ 11 ∑ 11 (x j ) − ∑ 13 (x j ) + ∑ 12 (x j ) − ∑ 14 (x j ) + f p . (1.3)
hi ∈H(S) v∈V (hi ) j=hi j=hi j=hi j=hi
i:1,...,|H(S)|

En donde el factor de penalización f p se calcula de la siguiente manera:

n−i
n−2 ⌊ 2 ⌋
" #
i+2 j−1 i+2 j−1 i+2 j−1 i+2 j−1
fp = ∑ ∑ k ∗ 10 ∑ 11 (xq ) − ∑ 13 (xq ) + ∑ 12 (xq ) − ∑ 14 (xq ) . (1.4)
i=1 j=1 q=i q=i q=i q=i

En este modelo en particular se considera k = 10 , aunque es recomendable aumentar su valor cuando se


tiene secuencias más largas de aminoácidos. En este trabajo se trabajará considerando eg = −1. A partir
de este planteamiento matemático, se pueden hacer algunas observaciones.

1. En E(x, S) el término | ∑v−1 v−1


j=hi 11 (x j )− ∑ j=hi 13 (x j )| indica cuántas unidades hacia la izquierda o de-
CAPÍTULO 1. PROTEÍNAS 15

recha el aminoácido hidrofóbico sv está alejado del aminoácido shi . De manera análoga el término
| ∑v−1 v−1
j=hi 12 (x j ) − ∑ j=hi 14 (x j )| indica qué tan alejados están de forma vertical, porque al indicar la

posición 2 y 4 se indica si se está arriba o abajo.

2. Se está considerando que la suma de los valores absolutos debe tomar el valor de 1 porque esto
implicarı́a que debido a que la función valor absoluto es no negativa, uno de los dos sumandos
debe tomar el valor de 1 y el otro deberá valer 0. Esto indica que el aminoácido vecino está
solamente a una unidad de distancia de forma vertical u horizontal respecto al aminoácido al que
se le están buscando vecinos con interacción hidrofóbica. Si se cumple esta condición se tiene
una interacción hidrofóbica con energı́a eg , ya que por la construcción de los posibles vecinos no
se están considerando como interacción a los aminoácidos hidrofóbicos que ocupan posiciones
consecutivas dentro de la secuencia lineal.

3. El razonamiento es análogo al momento de calcular f pen . Porque si la suma de los valores absolutos
tiene un valor de cero, quiere decir que hay un empalme.

4. En f pen la primera suma llega hasta n − 2 porque los últimos dos aminoácidos no se pueden em-
palmar. En la segunda suma se usa la función piso para no contar dos veces un empalme y debido
a que en este caso los empalmes se dan entre aminoácidos que ocupan posiciones pares con otros
aminoácidos que también ocupan posiciones pares dentro de la secuencia, y sucede lo mismo si
ocupan posiciones impares.
Capı́tulo 2

Algoritmos bioinspirados

2.1. Introducción

Es este capı́tulo se presentan brevemente los tres algoritmos bioinspirados con los que se abordará en
este trabajo el problema de plegado de proteı́nas bajo el modelo hidrofóbico-polar. Existen algoritmos
que han sido desarrollados tomando inspiración en lo observado en la naturaleza, un grupo de ellos son
los algoritmos evolutivos, los cuales toman inspiración de la evolución. Uno de los algoritmos evolutivos
más conocidos es el algoritmo genético que es el que será utilizado en el presente trabajo, en el caso
de este algoritmo es posible notar algunas acciones observadas en la naturaleza como es la presencia de
mutaciones y la combinación del material genético de los individuos que mejor se desempeñan dentro
de su entorno, el uso de los distintos operadores lleva a la evolución de las poblaciones.
Los otros dos algoritmos utilizados pertenecen a la rama denominada inteligencia de enjambre, que
abarca algoritmos inspirados en el comportamiento colectivo de grandes conjuntos de animales como
pueden ser las parvadas o los cardúmenes, que, a pesar de no considerar operaciones demasiado sofisti-
cadas para las acciones llevadas a cabo por cada uno de los individuos, al considerar el comportamiento
de todo el grupo es posible apreciar un nivel de inteligencia más avanzado. De los algoritmos perte-
necientes a la inteligencia de enjambre se considerarán la optimización por enjambre de partı́culas y
la optimización por colonia de hormigas, los cuales toman inspiración en el vuelo sincronizado de las
parvadas y en el comportamiento de las hormigas en busca de comida, respectivamente.

16
CAPÍTULO 2. ALGORITMOS BIOINSPIRADOS 17

2.2. Algoritmos Genéticos

La publicación de El origen de las especies por Charles Darwin en 1859, fue un parteaguas que cambió
la perspectiva de la forma en que se entendı́a la vida dentro del planeta y más de cien años después ins-
piró el desarrollo de una nueva herramienta computacional: los algoritmos genéticos, cuyos mecanismos
tienen inspiración en la selección natural que se planteó, pues trata de imitar acciones como la selección
de los individuos más aptos, además de otros comportamientos que se mencionan más adelante.
El algoritmo genético trata de imitar de la mejor forma posible el comportamiento de la evolución
de los seres vivos, como se refleja en la siguiente idea: “Dentro de la naturaleza, cada individuo del
ecosistema compite contra los otros por los recursos disponibles, como el alimento, pero a la vez, hay
una competencia entre individuos de la misma especie por reproducirse. Es por esto que los individuos
que tengan menor aptitud para desarrollarse en su ambiente tendrán menos capacidad para poder llegar
a reproducirse y transmitir sus genes a las siguientes generaciones” [15].
Las caracterı́sticas que distinguen a los algoritmos genéticos de otros métodos de optimización son
[8]:

Trabajan con la codificación del conjunto de parámetros, no los parámetros en sı́. Pues los opera-
dores de cruza y mutación se aplican sobre el cromosoma de los individuos.

Buscan desde un conjunto de puntos, no usando un solo punto. Esto se refiere a que trabaja sobre
una población.

Usan el valor en función objetivo, no derivadas ni información adicional. Este punto es importante
ya que da a los algoritmos genéticos flexibilidad para trabajar en una gran variedad de problemas.

Usan reglas de transición probabilı́sticas, no determinı́sticas. Todos los operadores que se realizan
no siguen un patrón fijo y siempre son al azar.

Durante cada generación, se crea un nuevo conjunto de “criaturas artificiales” [8]. El tiempo que
tarda el proceso de evolución en los organismos vivos puede variar, dependiendo de la complejidad del
organismo, como se puede ver en las bacterias que no tardan en ser inmunes a antibióticos y pueden
presentarse casos en que la transición dure miles de años. En el algoritmo genético las poblaciones
cambian de caracterı́sticas de una generación a otra, pero los cambios más significativos pueden llegar
en muchas generaciones o en pocas.
CAPÍTULO 2. ALGORITMOS BIOINSPIRADOS 18

Aunque el origen de los conceptos que dieron origen a los algoritmos genéticos puede remontarse
años atrás, no fue hasta los años sesenta en que John Holland desarrolló su trabajo en la Universidad de
Michigan [11] en su libro Adaption in natural and artificial systems, en donde desarrolló las ideas para
adaptar este comportamiento en sistemas artificiales.

2.2.1. Conceptos biológicos detrás de los operadores del algoritmo genético

Cada ser vivo tiene caracterı́sticas que lo hacen diferente de otros seres vivos, aún de los de su misma
especie. Estas caracterı́sticas vienen determinadas por las proteı́nas que él mismo produce; esta informa-
ción está codificada dentro de cada una de sus células. Este mapeo es una función que va de todas las
posibles secuencias de aminoácidos a todos los posibles individuos. La secuencia codificada de aminoáci-
dos es lo que llamamos genotipo, mientras que la manifestación fı́sica de esta codificación es lo que se
conoce como fenotipo [11].
El proceso de morfogénesis es el proceso biológico que determina la forma que tendrá un ser vivo,
marca el paso del genotipo al fenotipo. De acuerdo a la aptitud de los seres vivos, su probabilidad de
reproducirse será más grande; esto es, si sus condiciones fı́sicas les dan un mejor desempeño dentro de
su entorno, es más probable que se reproduzcan. Pero para realizar esto también es necesario hacer una
comparación con respecto al desempeño de los demás individuos de la población. Para individuos que
forman parte de la cima de la cadena alimenticia se podrı́a medir, por ejemplo, su capacidad para cazar,
o bien, para los animales que viven en los lugares más inhóspitos del planeta su capacidad para resistir
cambios en el clima.
Una vez que dos seres vivos se reproducen se lleva a cabo un intercambio de información genética
de ambos padres, por lo que los hijos heredan caracterı́sticas de sus ancestros y dado que los mejores
individuos son quienes se reproducen, los descendientes tienen la posibilidad de tener mejores carac-
terı́sticas. Mientras se hace este intercambio de material genético, puede presentarse una falla en la
ADN-polimerasa, que puede llevar al nuevo descendiente a tener caracterı́sticas diferente al resto de la
población, lo que se conoce como mutación.

2.2.2. Algoritmo genético simple

La idea del algoritmo genético simple fue dada por Goldberg [8] y gran parte de sus fundamentos
está apoyada en la teorı́a de esquemas. La población consta de elementos codificados, que serán las
soluciones candidatas. Dichas codificaciones representan soluciones para el problema de optimización a
CAPÍTULO 2. ALGORITMOS BIOINSPIRADOS 19

resolver. Para la codificación se tiene una lista de sı́mbolos, el algoritmo genético simple usa un sistema
de codificación binario, compuesto por cadenas de ceros y unos. Esta lista de sı́mbolos que se utilizan
para la codificación tiene influencia en los operadores de cruza y mutación. El mecanismo de cruza que
se aplica es la cruza en un punto, y selección por ruleta. En la siguientes secciones se profundiza más
sobre los distintos mecanismos del algoritmo genético.

2.2.3. Población inicial

El algoritmo genético trabaja sobre un conjunto de individuos, para inicializar el proceso es necesario
crear la población inicial la cual debe ser aleatoria, esto se debe a que por lo general no se tiene conoci-
miento sobre la parte del dominio en la que se encuentra la solución óptima [14]. Algunas caracterı́sticas
que se deben considerar para la población a lo largo del algoritmo genético es el tamaño de población,
pues un menor tamaño de población puede disminuir la capacidad de exploración del algoritmo [14],
mientras que tener una población grande puede provocar que el algoritmo sea menos eficiente ya que
se lleva más tiempo de ejecución, por lo que diversos estudios han tratado de resolver este problema
buscando cumplir criterios de efectividad y eficiencia. El número de individuos de la población, suele
permanecer como una cantidad fija a lo largo de las iteraciones del algoritmo, aunque en la naturaleza el
cambio del tamaño de las especies no permanece constante.
Goldberg analiza el algoritmo genético simple, mediante el análisis de esquemas [14]. Desde su análi-
sis el tamaño de la población incrementa exponencialmente con respecto a la longitud de las cadenas de
codificación. Mientras que trabajos como los de Grefenstette y los de Schaffer sugieren que poblaciones
de tamaño tan pequeño como 30 son adecuados en muchos casos. Trabajos posteriores de Goldberg lo
llevaron a poner el tamaño de la población con una dependencia lineal con respecto a la longitud de las
cadenas de codificación.
La población inicial debe ser aleatoria, aunque hay casos en que se presentan poblaciones pseudo alea-
torias, lo que provoca que los individuos de la población no necesariamente estén distribuidos de forma
uniforme en el espacio de búsqueda . Reeves tiene trabajos en donde muestra que incluir alguna buena
solución encontrada con otros algoritmos puede llevar al algoritmo genético a encontrar mejores solu-
ciones en un menor tiempo [14]. Sin embargo, existe la posibilidad de tener una convergencia prematura
hacia algún óptimo local.
CAPÍTULO 2. ALGORITMOS BIOINSPIRADOS 20

2.2.4. Codificación

En el algoritmo genético la población está integrada por individuos (soluciones potenciales a un pro-
blema dado) representados por cromosomas, cada cromosoma se divide en genes, cada gen forma parte
de un conjunto finito de dı́gitos dependiendo el tipo de codificación que se trabaje (binario, octal, deci-
mal, real).
En la codificación binaria, cada cadena consta de bits, y su longitud depende de las caracterı́sticas del
problema, como su número de variables, también depende del número de bits que se quieren utilizar, ya
que en problemas con dominio real se puede optar por incrementar el número de bits con el fin de cubrir
una mayor cantidad de puntos en el dominio del problema de optimización.
En la codificación octal, se opta por un alfabeto con caracteres {0, 1, 2, 3, 4, 5, 6, 7}, considerando una
codificación hexadecimal se considera el alfabeto {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B,C, D, E, F}. También se
puede presentar el caso en que la codificación consista en permutaciones, comúnmente formadas por
números enteros en el que cada variable se repite una sola vez. El ejemplo más claro es el problema
del agente viajero, y requiere de algunas mutaciones y recombinaciones más especı́ficas [11]. También
pueden existir codificaciones en los que cada gen consta de un valor, ya sea números reales o secuencias
de caracteres, por lo que puede ser necesario algún tipo de mutación y cruza más especializado.

2.2.5. Mapeo

En el algoritmo genético la función que lleva a cabo la traducción del genotipo en su respectivo
fenotipo recibe el nombre de mapeo; es una función porque a cada genotipo le corresponde solamente un
fenotipo. Otro requisito que se puede tener en cuenta sobre todo cuando el dominio de la función objetivo
es numerable, es que esta función sea biyectiva, para evitar que se presente el caso en que se omita algún
alelo que sea necesario para alcanzar el óptimo global. Cuando el código que se maneja es binario se
puede presentar el caso en que cromosomas que sean distintos tengan asociado el mismo fenotipo, por
lo que esta función no es inyectiva.

2.2.6. Función de aptitud

En los problemas de optimización, la función objetivo da una medida de la calidad de los elementos
dentro del dominio de búsqueda. Dependiendo del tipo del problema esta función será de maximizar o
minimizar. En el campo biológico, esta función es llamada función fitness o función de aptitud y como
lo indica su nombre, da una medida de la aptitud de los individuos dentro de su ambiente, dependiendo
CAPÍTULO 2. ALGORITMOS BIOINSPIRADOS 21

de sus caracterı́sticas fı́sicas, por lo que es importante hacer la traducción del genotipo a fenotipo de los
individuos para poder evaluar esta función.
Esta función no siempre coincide con la función objetivo, ya que esta función debe cumplir los si-
guientes requisitos [11]:

Ser no negativa.

Aumentar conforme sea mejor una solución.

A cada individuo se le asigna una y sólo una calificación.

Si la función es para un problema de maximización y su rango es un subconjunto de R+ no es ne-


cesario hacer modificación alguna. Sin embargo, cuando el problema es de minimización, es necesario
transformar la función objetivo f para que aumente conforme la solución sea mejor, además de cumplir

con el requisito de que la función sea positiva, una solución propuesta es tener una función f tal que:

′ c
f = (2.1)
f +K

En donde K es una constante calculada de manera que la función f no sea indeterminada y cumpla que
f + K > 0. Además la constante c es otra constante positiva, por lo general toma el valor de c = 1.
La función de aptitud tiene repercusión directamente dentro de la selección de los individuos que
heredarán su genotipo a las siguientes generaciones.

2.2.7. Selección

Una vez que se lleva a cabo la evaluación de los individuos, es necesario seleccionar los más aptos
bajo la premisa de que las siguientes generaciones heredarán las caracterı́sticas de los mejores.
Los mecanismos de selección más comunes son los siguientes:

Selección por ruleta

El mecanismo más común es la selección por ruleta (roulette wheel selection), el cual consiste en
seleccionar de acuerdo a su proporción con respecto a la suma de los valores en la función de aptitud de
toda la población, a mayor valor en la función de aptitud la probabilidad de ser seleccionado aumenta.
Se considera gk como la función de aptitud del individuo k, entonces la probabilidad de ser seleccionado
CAPÍTULO 2. ALGORITMOS BIOINSPIRADOS 22

para realizar cruzamiento, de un individuo perteneciente a una población de tamaño N viene dada por
[14]:

gk
Pr[k] = N . (2.2)
∑ j=1 g j

Esto es similar a tener una ruleta, que para una población de tamaño N se divide en N , cuyo tamaño
dependerá directamente del valor de la aptitud de cada individuo, a continuación se lanza un número
al azar en el intervalo [0,1] y de acuerdo al valor obtenido se escoge al primer individuo que será se-
leccionado para reproducirse. Posteriormente se hace el mismo procedimiento para escoger al segundo
individuo, aunque es posible omitir el individuo que ya fue seleccionado y hacer una selección por ruleta
sin reemplazo.

Este método presenta problemáticas cuando la mejor solución de la población es considerablemente


mejor que las demás, pues la ruleta tiene una alta ponderación para la mejor solución encontrada, lo que
provoca que la diversidad de las nuevas soluciones disminuya, lo que puede conducir a que se realice
cruza de individuos idénticos, provocando que el algoritmo converja de manera prematura [14].

Selección universal estocástica de Baker

El mecanismo es semejante al que se maneja en el método de selección por ruleta, pero haciendo una
mejora. Cuando se realiza la selección por el método de ruleta, en un sorteo, únicamente se realiza la
selección de un cromosoma para su recombinación. En este mecanismo se seleccionan M individuos. Se
construyen probabilidades de forma idéntica al método de selección por ruleta, el siguiente paso es crear
un número aleatorio α0 ∈ [0, M1 ], después se crea una de sucesion de números {α0 ,α1 = α0 + M1 ,α2 =
α0 + M2 ,. . . ,αM−1 = α0 + M−1
M }. Una vez que se tiene dicha sucesión, a cada cromosoma que forma parte

de la población se le asigna un intervalo Ik , Ik ⊂ [0, 1], de acuerdo a su probabilidad de selección, una


vez hecho para cada elemento de la sucesión, se busca el intervalo que satisfaga αm ∈ Ik y ese elemento
k será seleccionado para su reproducción.

Selección por torneo

Este método de selección tiene el siguiente funcionamiento: se crean dos listas con los contendientes
que participarán en el torneo, usando una distribución uniforme, con o sin reemplazo, ambas con la
misma longitud. El k− ésimo elemento de la primera lista se enfrentará al k− ésimo elemento de la
CAPÍTULO 2. ALGORITMOS BIOINSPIRADOS 23

segunda lista, el ganador de esta contienda será el que tenga un mejor valor en la función de aptitud,
aunque es posible evitar la conversión de la función objetivo en función de aptitud teniendo cuidado
al momento de escoger al ganador de cada enfrentamiento. El ganador del primer enfrentamiento se
cruzará con el ganador del segundo enfrentamiento, el ganador del tercer enfrentamiento se cruzará con
el ganador del cuarto y ası́ sucesivamente [14].
Si se desea que incremente la probabilidad de seleccionar al mejor individuo para su reproducción se
puede incrementar el número de fases del torneo, o manipulando la distribución con que seleccionan los
individuos que tendrán enfrentamientos. El número de elementos que tendrán las listas de contendientes
depende directamente del tamaño de la población, y también de cómo esté elaborado el mecanismo de
cruza.
Al momento de llevar a cabo la selección se tiene la esperanza de escoger a los individuos más aptos
para que sus descendientes hereden sus mejores caracterı́sticas. Este mecanismo, como se puede ver en el
funcionamiento de los tres ejemplos mencionados, elige individuos al azar, tomando en cuenta la función
de aptitud. De acuerdo a las caracterı́sticas del problema es preferible usar alguno de los distintos tipos
de selección. Cuando el rango en el que se encuentra la función que se está optimizando es pequeño, se
pueden hacer dos cosas, expandir el intervalo de búsqueda y usar la selección por el método de ruleta ya
que en caso contrario, las probabilidades de selección serán semejantes o se puede optar por un método
de selección como la selección universal estocástica o torneo.

2.2.8. Recombinación

Es el operador que realiza la combinación del material genético de los individuos que resultaron
ser más aptos después del proceso de selección. Se puede pensar que la recombinación siempre debe
realizarse, pero esto no siempre es ası́ [14], ya que en el algoritmo genético se puede incorporar una
probabilidad ρ de cruza, menor que uno. Luego se obtiene un número aleatorio en el intervalo [0,1], si
dicho número es menor que la probabilidad se lleva a cado el cruce por el método seleccionado, en caso
contrario, los hijos serán copias de los padres.
Existen muchos métodos de recombinación pero los más usuales son los siguientes:

Cruza en un punto

Este método es el que se utiliza en el algoritmo genético simple. Si se tienen dos padres, con genotipo
dado por a = a1 a2 . . . aM y b = b1 b2 . . . bM respectivamente, entonces se escoge un número d al azar del
CAPÍTULO 2. ALGORITMOS BIOINSPIRADOS 24

conjunto {1,2, . . . ,M-1}, de forma que se crean dos hijos h1 y h2 , y el primer hijo heredará los primeros
d genes de a, mientras que los restantes M − d genes los heredará de b. De esta forma se obtienen dos
nuevos pares de cromosomas h1 = a1 , . . . , ad bd+1 . . . bM y h2 = b1 . . . bd ad+1 . . . aM

Cruza en n puntos

Es la generalización de la cruza en un punto, pero considerando una muestra de n elementos distintos


del conjunto {1, 2, . . . , M}. Si dichos elementos son m1 , m2 , . . . , mn , entonces los cromosomas de los
hijos estarán dados por:
h1 = a1 . . . am1 bm1 +1 . . . bm2 . . . . . . amn−1 +1 . . . amn bmn +1 . . . bM
y
h2 = b1 . . . bm1 am1 +1 . . . am2 . . . . . . bmn−1 +1 . . . bmn amn +1 . . . aM

Cruza uniforme

En este método de recombinación, los hijos heredan genes de los padres con la misma probabilidad.
Se crean dos máscaras [15] de ceros y unos, distribuidos de manera uniforme. Cuando la casilla m de la
máscara tenga un valor de 0, el hijo heredará el m−ésimo gen del padre a, en cambio, heredará los genes
del padre b en las casillas de la máscara que tengan un valor de 1.

2.2.9. Mutación

Realiza la alteración de un gen, con una probabilidad ρm la cual es por lo general pequeña. En muchas
ocasiones se utiliza ρm = 1/L, donde L representa la longitud del cromosoma, el gen que es alterado
puede tomar cualquier otro valor que esté dentro del alfabeto que se esté utilizando. Hay problemas
cuyas soluciones son permutaciones, en donde la mutación lleva a cabo un intercambio entre los genes
para evitar repeticiones.
El mecanismo de mutación tiene como función evitar que el algoritmo se estanque en óptimos locales
[15], por lo que está ligado con la exploración del algoritmo, pues al modificar los genes obtenidos por
medio de la recombinación se permite que haya diversidad en la población. Este operador requiere lo
siguiente [10]:

1. Accesibilidad: cada punto debe ser accesible desde cualquier otro punto arbitrario en el espacio de
soluciones, debe haber una mı́nima posibilidad de llegar a cualquier parte del espacio de búsqueda,
en caso contrario cabe la posibilidad de no poder encontrar el óptimo.
CAPÍTULO 2. ALGORITMOS BIOINSPIRADOS 25

2. Imparcialidad: este requerimiento tiene el principal objetivo de no guiar la búsqueda en una direc-
ción en particular.

3. Escalabilidad: esta condición es posible cuando el operador de mutación está basado en alguna
distribución de probabilidad.

2.2.10. Reemplazo de la población

Una vez que se llevó a cabo la selección de los individuos que recombinarán su material genético y que
se creó la lista de descendientes, lo más común es hacer que la nueva población reemplace a la población
original excepto por la mejor solución que se ha generado en el algoritmo, esto es para conservar buen
material genético, el caso en que se conserva cierta cantidad de individuos con un buen valor de aptitud
se conoce como elitismo.

2.2.11. Criterio de paro

Aunque en la naturaleza lo usual es que la evolución continúe por el tiempo en que hayan ejemplares
vivos de las especies, el algoritmo genético suele tener un criterio de paro, por ejemplo cierto tiempo
de ejecución, no sobrepasar cierto número de evaluaciones de la función de aptitud (en problemas en
los que calcular la función objetivo puede conllevar un alto costo computacional), terminar cuando haya
cierta cantidad de individuos idénticos entre sı́, o realizar únicamente cierto número de iteraciones. Otro
mecanismo común es finalizar la ejecución luego de que haya pasado cierto número de iteraciones sin
que se haya mejorado al mejor individuo encontrado.

2.3. Inteligencia de enjambre

Esta rama de la inteligencia artificial, en un principio fue usada para “describir el comportamiento
colectivo de sistemas descentralizados y auto-organizados, tanto naturales como artificales”[16]. Y toma
como base el comportamiento observado en colonias de hormigas, parvadas, cardúmenes, enjambres,
entre otros.
Básicamente la inteligencia de enjambre consiste en una población de agentes simples, que interactúan
localmente unos con otros y con el ambiente en el que habitan, estas interacciones casi siempre muestran
cierto grado de aleatoriedad, y es gracias a ellas que se puede observar el comportamiento inteligente a
nivel colectivo, a pesar de que cada agente no muestra inteligencia muy avanzada.
CAPÍTULO 2. ALGORITMOS BIOINSPIRADOS 26

En la naturaleza, el comportamiento colectivo (o social), de un sistema biológico es un fenómeno


extendido que ha sido observado en una gran cantidad de organismos, de diversas escalas y grados de
complejidad, como puede ser el comportamiento de las parvadas y el de los bancos de peces como
estrategia para huir de los depredadores, y en donde se observa que siguen cierto comportamiento a
pesar de que no exista entre ellos ningún agente encargado de controlar y coordinar los movimientos. Los
individuos actúan con base a la limitada información local que poseen, que obtienen de la interacción que
tienen con sus vecinos o por algún depósito quı́mico. Esta información se transmite a través del ambiente
en que se desarrollan y ocasiona que se produzcan ciertos patrones colectivos. En las bandadas, cada
individuo vuela siguiendo la misma dirección que sus vecinos, por poner un ejemplo.
Si se toma en consideración a una parvada, los miembros de ésta, para encontrar el mejor lugar para
alimentarse deben guiar su decisión tomando en cuenta un sitio con la mayor cantidad de comida dispo-
nible, pero también que el área sea lo suficientemente segura para evitar la presencia de depredadores o
minimizarla. Algunos de los algoritmos más usados en la inteligencia de enjambre son la optimización
por enjambre de partı́culas y la optimización por colonia de hormigas.

2.4. Optimización por enjambre de partı́culas

Este algoritmo bioinspirado fue desarrollado por Rusell Eberhart y James Kennedy en 1995, tomando
como base el comportamiento de las parvadas, cardúmenes y enjambres. En la naturaleza se ha observado
que el comportamiento de estas grandes colonias de animales les da beneficios como encontrar fuentes de
alimento de mejor manera, además de que les ayuda a que la mayor parte de la población sobreviva a los
ataques de los depredadores. Al prestar atención se puede ver que el comportamiento de cada individuo
además de estar guiado por la conducta que siguen los demás individuos también tiene cierto grado de
aleatoriedad [15].
El primer uso que le dieron fue para el entrenamiento de pesos en redes neuronales artificiales. So-
lamente requiere operadores matemáticos muy simples y tiene un costo computacional muy bajo en
términos de requerimientos de memoria y velocidad [6].
En el artı́culo en que presentan este nuevo algoritmo, Kennedy y Eberthart mencionan los trabajos
de Reynolds, Heppener y Grenander, quienes presentaron simulaciones del comportamiento de banda-
das, teniendo principal interés en las reglas subyacentes que permiten a las aves congregarse de manera
sincronizada, cambiando de dirección repentinamente, dispersándose y reagrupándose. Aunque en sus
modelos daban importancia a la manipulación de la distancia que habı́a entre los individuos ya que veı́an
CAPÍTULO 2. ALGORITMOS BIOINSPIRADOS 27

a la sincronı́a de las bandadas como resultado del esfuerzo de las aves por mantener una distancia óptima
entre sı́ mismos y sus vecinos [6].
En su artı́culo Eberhart y Kennedy mencionan la simulación de Heppener, quien habı́a plantado un
“gallinero” en el espacio de búsqueda, la aves volaban alrededor hasta que finalmente aterrizaban cer-
ca, pero esto no representa fielmente a la realidad, pues las aves aterrizan de acuerdo a sus necesidades
inmediatas. Otro trabajo que tuvo mucha influencia para el desarrollo de PSO fue la idea de E.O. Wil-
son de que los bancos de peces se benefician de la experiencia previa de otros miembros del banco con
respecto a la ubicación de fuentes de alimento y que esta ventaja evolutiva les permite superar la desven-
taja de tener que competir por comida, aunque para esto, los alimentos deberı́an de aparecer de forma
impredecible.
El enjambre, consta de m agentes, que también pueden ser llamados partı́culas. Unicamente consta de
dos operadores: actualización de velocidad y actualización de posición. La velocidad tiene la función de
mover a las partı́culas dentro del espacio de búsqueda y es calculada de acuerdo a la información que se
obtiene en las iteraciones previas del algoritmo.
Al momento de implementar este algoritmo se hace el supuesto de que los miembros del enjambre
tienen memoria para recordar la mejor ubicación que han encontrado tanto por su cuenta como la mejor
ruta encontrada por todo el enjambre, además de modificar su velocidad de movimiento de acuerdo a
esta misma información. El planteamiento matemático es el siguiente:

Sea A ⊆ Rn el espacio de búsqueda.

Sea f : A → Y ⊆ R la función objetivo, considerando un problema de minimización.

Se define al enjambre como S = {x1 , x2 , . . . , xm }.

En donde cada xi = (xi,1 , xi,2 , . . . , xi,n ) ∈ A, i = 1, 2, . . . , m , recibe el nombre de partı́cula.

Cada una de las m partı́culas se mueve dentro del espacio de búsqueda, para llevar a cabo el movimiento
se hace uso de una velocidad vi (t), con la que se pretende que las partı́culas sean capaces de explorar
cualquier región de A [13]. El ı́ndice t es el contador de iteraciones, por lo que en la iteración o el tiempo
t del algoritmo la partı́cula i tendrá asociada la posición xi (t) y la velocidad vi (t).
CAPÍTULO 2. ALGORITMOS BIOINSPIRADOS 28

Durante cada iteración se tiene almacenada información de la mejor posición encontrada por cada
partı́cula a lo largo del algoritmo, lo que contribuye al intercambio de información. Para esto se hace uso
de un conjunto P definido de la siguiente manera:

P = {p1 (t), p2 (t), ..., pm (t)}.

Donde pi (t) = (pi,1 (t), pi,2 (t), ..., pi,n (t)) ∈ A para i : 1, 2, ..., m.

Se puede definir la mejor posición encontrada por la partı́cula i al tiempo t + 1 de forma recursiva de
la siguiente manera: 
xi (t + 1), f (xi (t + 1)) ≤ f (pi (t))

pi (t + 1) =
 pi (t),

f (xi (t + 1)) > f (pi (t)

Por otra parte se define a la mejor posición encontrada por todas las partı́culas o la mejor posición
global como:
pg (t) = {pme jor ∈ P | f (pme jor ) ≤ f (p) ∀p ∈ P}.

2.4.1. Velocidad

En cada iteración este operador cambia de manera que la posición de la partı́cula al tiempo t + 1
se acerque cada vez más a la ubicación de la mejor posición global o la mejor posición local, por lo
general se trata de un vector, dependiendo del número de variables que considere el problema que se está
optimizando. Para calcular la velocidad con que se moverá cada partı́cula se usa la fórmula [16]:

vi, j (t + 1) = vi, j (t) + c1 · r1 · (pi, j (t) − xi, j (t)) + c2 · r2 · (pg, j (t) − xi, j (t)). (2.3)

En donde se tiene que t denota el contador de iteraciones.

Los términos c1 y c2 son las componentes cognitivo y social, respectivamente, y son ponderaciones
que se le dan al conocimiento sobre la ubicación de la mejor posición encontrada por el individuo
y la mejor ubicación encontrada por la población, respectivamente. Si c1 es mayor que c2 puede
incrementar la probabilidad de dar prioridad a buscar en regiones cercanas a la mejor solución que
ha encontrado la partı́cula i, si c2 es mayor que c1 las partı́culas se acercarán a la región del espacio
de búsqueda que está explorando la partı́cula que ha encontrado un valor en la función objetivo
más prometedor.
CAPÍTULO 2. ALGORITMOS BIOINSPIRADOS 29

Los parámetros r1 y r2 son totalmente aleatorios en cada iteración e indican la aportación que darán
el componente cognitivo y social, respectivamente, ambos se consideran en el intervalo [0, 1]. Es
importante que sean variables, con el objetivo de imitar el movimiento errático de las bandadas y
los bancos de peces.

El término pi, j (t) es la mejor posición que ha sido encontrada por la partı́cula i a lo largo de las
iteraciones hasta el tiempo t.

El término pg, j (t) es la información de la mejor posición encontrada por todas las partı́culas del
enjambre hasta el tiempo t.

La variable xi, j (t) es la posición del individuo i al tiempo t.

El primer término de la ecuación 2.3 se enfoca en la diversificación en el proceso de búsqueda, mien-


tras que el segundo y tercer término son los que se enfocan a la intensificación.
Posteriormente se agregó el componente w que es conocido como factor de inercia y se incorpora de
la siguiente forma [16]:

vi, j (t + 1) = w · vi, j (t) + c1 · r1 · (pi, j (t) − xi, j (t)) + c2 · r2 · (pg, j (t) − xi, j (t)). (2.4)

Este componente como lo indica su nombre dirá qué tanta influencia tendrá la velocidad previa del
algoritmo en la iteración actual.

2.4.2. Actualización de posición

Una vez que se ha calculado la velocidad para la partı́cula i al tiempo t + 1 se actualiza la posición
usando la siguiente fórmula [16]:

xi, j (t + 1) = xi, j (t) + vi, j (t + 1). (2.5)

De esta forma la partı́cula podrá moverse a otra posición que dependerá de la elección de parámetros
que se hayan hecho pero que seguirá siendo al azar pues se tiene la presencia de las variables r1 y r2
dentro del cálculo de la velocidad.
CAPÍTULO 2. ALGORITMOS BIOINSPIRADOS 30

2.4.3. Ajustes

Posteriormente surgieron trabajos que buscaron afrontar las problemáticas a las que se enfrenta este
algoritmo para resolver problemas más complejos. Una de las primeras aportaciones fue crear un lı́mite
en la velocidad, pues a lo largo de las iteraciones la velocidad puede llegar a tomar valores muy elevados o
demasiado bajos que pueden provocar que las posiciones de las partı́culas salgan del espacio de búsqueda.
El lı́mite en la velocidad se lleva a cabo después de haber realizado el cálculo de la velocidad, se
incorpora un lı́mite máximo de velocidad vmax > 0, se usa la siguiente condición:

|vi, j (t + 1)| ≤ vmax , i = 1, 2, . . . , m, j = 1, 2, . . . , n.

Otra modificación propuesta es considerar un ajuste en el que la inercia decrece de manera lineal
usando la siguiente fórmula [16]:

(wmax − wmin ) ∗ (iteracion f inal − iteracionactual )


wt+1 = + wmin . (2.6)
iteracion f inal

En donde wmax es la inercia que tendrá el algortimo al principio, mientras que el parámetro wmin es la
inercia que se quiere utilizar en la última iteración. Por su parte el término iteracion f inal hace referencia
al número de iteraciones que tendrá el algoritmo, mientras que el término iteracionactual hace referencia
a la iteración en la que se encuentra el algoritmo.

2.5. Optimización por colonia de hormigas.

Las hormigas, al igual que la gran mayorı́a de los animales que viven la mayor parte de su vida
dentro del suelo no tienen muy desarrollado el sentido de la vista, a cambio de esto han desarrollado un
sistema de comunicación muy interesante al hacer uso de una sustancia llamada feromona, esta sustancia
es depositada en el camino que conduce de su hormiguero hacia las fuentes de comida, y como las
demás hormigas también son capaces de percibir esta sustancia pueden guiar su búsqueda de acuerdo a
la concentración que haya de esta sustancia en el camino.
En un experimento conocido como el experimento de doble puente, con el propósito de estudiar los
rastros de feromona bajo condiciones experimentales, Deneubourg y sus colegas conectaron un hormi-
guero a una fuente de alimentos mediante dos posibles rutas. En cada experimento variaban la longitud
de las dos rutas, aunque para Dorigo [7], el experimento que mas resaltó fue uno en que especı́ficamente
CAPÍTULO 2. ALGORITMOS BIOINSPIRADOS 31

una de ellas era más larga que la otra, en los primeros momentos del análisis, las hormigas decidı́an li-
bremente cual de las dos rutas seguir, como resultado final se observó que a pesar de que en los primeros
momentos las hormigas parecı́an decidir al azar entre las dos rutas, en la mayorı́a de los experimentos
las hormigas tendı́an a usar la más corta de ellas.
La explicación que propone Dorigo es que debido a que en un principio no hay ningún rastro de
feromona en ninguna de las dos rutas, esto lleva a que las hormigas no tengan una preferencia por alguna
de ellas, por lo que escogen con la misma probabilidad una o la otra, pero debido a que una es más corta
que la otra, las hormigas que escogieron dicha ruta requerirán menos tiempo para realizar el trayecto de
ida y regreso, por lo que, cuando las hormigas tengan que realizar un nuevo trayecto, la alta concentración
de feromona en la ruta más corta hará que la decisión sea sesgada en favor de esta ruta, y como el rastro de
feromona se reforzará más rápido cuando pasen más hormigas, el rastro tenderá a estar más concentrado
en la ruta más corta y eventualmente será el trayecto que siga la mayorı́a de las hormigas.
Debido a que los problemas que se buscan resolver haciendo uso de hormigas artificiales son más
complejos que los problemas a resolver por las hormigas, a las hormigas artificiales se le dan capacidades
adicionales como tener memoria, con el fin de que se puedan conocer las restricciones del problema a
resolver y de que las rutas puedan ser recordadas sin ningún error [7], aunque en algunas hormigas reales
se ha observado que la cantidad de feromona depositada por las hormigas varı́a dependiendo de la calidad
de la fuente de comida.

2.5.1. Algoritmos de construcción y búsqueda local

A menudo, para tener una solución con un costo computacional relativamente bajo se recurre a al-
goritmos de aproximación que por lo general son de construcción o de búsqueda local. Los algoritmos
de construcción elaboran las soluciones al problema que esté en consideración a partir de una solución
inicial vacı́a a la que, de forma iterativa, se le agregan los componentes que parezcan adecuados hasta
que se obtiene una solución al problema que se está trabajando. Se suelen obtener mejores resultados
si se hace una estimación heurı́stica del beneficio miope que se obtiene por agregar componentes a la
solución. Este beneficio es llamado miope porque en cada iteración esta información no ve mas allá del
beneficio inmediato por agregar una componente.
Para cada posible componente que pueda formar parte de la solución que está en construcción, la pro-
babilidad de que finalmente forme parte de la solución dependerá del beneficio que se obtiene de agregar
dicha componente [7], por lo general estos algoritmos proporcionan mejores soluciones en comparación
CAPÍTULO 2. ALGORITMOS BIOINSPIRADOS 32

con construcciones totalmente aleatorias, sin embargo, se puede presentar el inconveniente de que la
búsqueda se concentre únicamente en algún sector del espacio de búsqueda, pues las elecciones que se
llevan a cabo durante las primeras etapas del proceso de construcción limitan las posibilidades en las
fases finales.
Por su parte los algoritmos de búsqueda local están estrechamente relacionados con el concepto de
vecindad. En estos algoritmos el punto de partida no es una solución vacı́a, sino una solución obtenida
mediante algún otro algoritmo. El propósito a lo largo del proceso de búsqueda es encontrar una mejor
solución dentro de una vecindad de cada solución que se va obteniendo [7], para lo cual es importante
plantear de forma adecuada la vecindad. Si se encuentra una mejor solución, esta reemplaza a la solución
inicial y el proceso continúa, esto se repite hasta que ya no se encuentre una mejora en una vecindad, por
lo que se ha encontrado un óptimo local.
Es muy importante elegir correctamente la estructura que definirá a la vecindad, además de que esta
estructura dependerá del problema que se está trabajando. La vecindad de una solución s define un
conjunto de soluciones que pueden ser accesibles desde ese punto en un solo paso del algoritmo. La
forma en que se lleva acabo el algoritmo de búsqueda local puede variar, pues se puede definir de distintas
formas como se lleva a cabo la búsqueda en la vecindad, además de que también puede variar como se
decide qué vecino sustituirá a la solución actual.
Estas dos clases de algoritmos pueden relacionarse con el algoritmo de colonia de hormigas, pues
la construcción de las soluciones llevada a cabo por las hormigas parten de soluciones iniciales vacı́as,
además, cada solución se va construyendo paso a paso, aunque en este caso las soluciones se construyen
de forma probabilı́stica, y se toma en cuenta la información que se tiene sobre el problema (información
heurı́stica) y la información que recolecta toda la población a lo largo del algoritmo.
El hecho de que la construcción de las soluciones sea de manera aleatoria permite a las hormigas
artificiales construir una amplia variedad de soluciones y por lo tanto explorar más regiones en compa-
ración con los algoritmos glotones, además, la información heurı́stica, que está disponible para muchos
problemas, puede guiar a las hormigas hacia las soluciones más prometedoras.

2.5.2. Ant System

En un principio este algoritmo consistı́a a su vez en tres variantes distintas llamados ant-cycle, ant-
density y ant-quantity, fueron propuestos por Dorigo en su tesis doctoral y se usaron para abordar el
problema del agente viajero. En los dos últimos algoritmos las hormigas actualizaban la feromona inme-
CAPÍTULO 2. ALGORITMOS BIOINSPIRADOS 33

diatamente después de moverse de una ciudad a otra ciudad adyacente [7], pero en la variante ant-cycle
la actualización se llevaba a cabo hasta que todas las hormigas hubieran terminado la construcción de sus
rutas y la cantidad de feromona depositada variaba en función de la calidad de la solución encontrada.
Debido a que ésta variante tuvo con un desempeño mejor que las otras dos, finalmente fue la que tomó
el nombre de Ant System, mientras que las otras variantes no fueron estudiadas más a fondo.
En un principio esta variante obtuvo buenos resultados, sin embargo estos resultados no competı́an
con los de otros algoritmos existentes en ese momento. La importancia de este algoritmo inicial radica
en que sentó las bases para las posteriores investigaciones que condujeron a variantes más fructı́feras,
que tendrı́an un mejor desempeño y que podrı́an tener aplicación a un gran número de problemas.
Tomando como analogı́a lo que se observa en las hormigas, el algoritmo ACO también muestra una
comunicación indirecta dentro de una colonia de agentes simples conocidos como hormigas artificiales
mediante el uso de rastros artificiales de feromonas. Los rastros de feromona son usados por las hormigas
para la construcción de forma probabilı́stica de las soluciones del problema a resolver, además de que
durante la ejecución del algoritmo refleja su experiencia en la búsqueda.

2.5.3. Inicialización

Al inicio del algoritmo, se establece el valor de la feromona τ0 . Por lo general las soluciones iniciales
son generadas aleatoriamente dentro del espacio de búsqueda.

2.5.4. Construcción de soluciones

La forma en que se escogen los componentes de las soluciones a construir y que se usó desde que
se creó Ant System y en las variantes que derivaron de este algoritmos se explica a continuación. En
todas las iteraciones del algoritmo esta fase inicia con una solución vacı́a s p = 0,
/ y durante cada paso
de la construcción cada hormiga extiende la longitud de su solución parcial escogiendo de entre los
componentes factibles y añadiendo al componente elegido a la solución parcial s p utilizando la siguiente
probabilidad de selección [7]:

τi,αj ∗ [η(ci, j )]β


p(cij |s p ) = α ∗ [η(c )]β
∀cij ∈ N(s p ). (2.7)
∑cli ∈N(s p ) τi,l i,l

En donde:

El término p(cij |s p ) denota a la probabilidad de pasar de la componente i a la componente j dada


CAPÍTULO 2. ALGORITMOS BIOINSPIRADOS 34

la solución parcial s p construida por la hormiga número p.

El conjunto N(s p ) está formado por los componentes que son factibles dada la solución parcial
construida por la hormiga p.

Por su parte τi, j representa a la casilla i, j de la matriz de feromona y da un indicio de qué tan
favorable ha sido pasar de la componente i a la componente j dada la experiencia aprendida por
toda la colonia a lo largo del algoritmo.

La función η() asigna un valor heurı́stico a cada componente factible cij ∈ N(s p ), es conocido
como información heurı́stica. Suele estar disponible para la mayorı́a de los problemas.

Los parámetros α y β son ponderaciones que se le asigna al rastro de feromona y a la información


heurı́stica, mientras más grande sea cada valor, mayor será la influencia que tendrá una o la otra
para que aumente la probabilidad de que la componente cij sea escogida.

2.5.5. Información heurı́stica

Para la gran mayorı́a de problemas la información heurı́stica está disponible desde un principio. Por
ejemplo, para el problema del agente viajero se puede tomar en cuenta el inverso multiplicativo de las
distancias que hay entre las ciudades. Pero también puede darse el caso como en el problema de plegado
de proteı́nas en que la información heurı́stica depende directamente de componentes que fueron selec-
cionadas en las iteraciones previas del algoritmo, por lo que este valor deberá ser calculado al mismo
tiempo en que se está construyendo la solución, lo que aumenta el costo computacional pero que tam-
bién proporciona una mayor precisión en los valores heurı́sticos calculados. La información heurı́stica
debe cumplir la condición de tener valores más altos conforme sea mejor agregar una componente a la
solución parcial que está en construcción.

2.5.6. Implementación de búsqueda local

Una vez que ha concluido la construcción de las soluciones candidatas se puede realizar un algoritmo
de búsqueda local y de acuerdo a Dorigo se ha observado que este algoritmo bioinspirado tiene un mejor
rendimiento cuando se complementa con un algoritmo de búsqueda local. Esto puede ser considerado
dentro de las llamadas acciones del demonio, es decir, acciones especificas que no pueden ser realizadas
por las hormigas de forma individual.
CAPÍTULO 2. ALGORITMOS BIOINSPIRADOS 35

2.5.7. Actualización global de feromona

El principal objetivo de usar el rastro de feromona es hacer más deseables aquellas componentes que
han formado parte de las mejores soluciones encontradas para que en las siguientes iteraciones sea más
probable que las hormigas que construyan las soluciones opten por escoger estas componentes sobre el
resto. Esto se logra de dos formas, mediante el reforzamiento del rastro de feromona de las componentes
de las mejores soluciones, aunque en la propuesta de Dorigo [7], se puede trabajar con un porcentaje
de las mejores soluciones (conocido como Supd ) y también mediante la evaporación de todos los rastros
de feromona para todas las posibles componentes. El mecanismo de evaporación también es necesario
para evitar la convergencia rápida a óptimos locales, pues al evaporar todos los rastros se favorece la
exploración de nuevas regiones en el espacio de búsqueda. La actualización del rastro de feromona se
implementa de acuerdo a la ecuación:

τi, j = (1 − ρ) ∗ τi, j + ∑ g(s). (2.8)


j
s∈Supd |ci ∈s

En donde

El parámetro ρ ∈ (0, 1] es la tasa de evaporación.

El conjuntoSupd está compuesto por las soluciones que han sido seleccionadas para que sus rastros
de feromona sean actualizados. Por lo general este conjunto de soluciones es un subconjunto de
las soluciones que fueron generadas en cada iteración pero también puede presentarse el caso en
el que este conjunto se escoge de entre las mejores soluciones que fueron encontradas a lo largo
de las iteraciones previas.

La función g(s) en el caso de problemas de minimización es una función que cumple

g(s) : S → R+ (2.9)

Tal que si
f (x) < f (y) → g(x) > g(y).

La función g(s) es una función que tiene un valor más alto conforme una solución es mejor.

Es en este proceso de la implementación de ACO en donde las distintas variantes trabajan de forma di-
ferente, por ejemplo, en esta variante se considera Supd = Siter para realizar la actualización de feromona
CAPÍTULO 2. ALGORITMOS BIOINSPIRADOS 36

como se indica en la ecuación 2.8.

2.5.8. Variantes

Una de las primeras mejoras que se realizó, un año después por el mismo Dorigo, es conocida co-
mo estrategia elitista que consistió en dar una mejora adicional a los nodos que ha visitado la mejor
trayectoria que se ha encontrado a lo largo del algoritmo, en este caso la ecuación 2.8 se convierte en:

τi, j = (1 − ρ) ∗ τi, j + ∑ g(s) + e ∗ g(sgb ). (2.10)


j
s∈Supd |ci ∈s

En donde e es un número entero mayor que cero, y es el depósito adicional que se agrega en caso de
que los nodos i, j pertenezcan a la mejor ruta. Este depósito extra puede ser considerado dentro de las
denominadas acciones del demonio.
Otra variante muy conocida es MAX-MIN Ant System en donde se agregan unos limites, inferior (τmin )
y superior (τmax ), a la cantidad de feromona que se permite que esté depositada en las aristas, de esta
manera se tiene que:
τmin ≤ τi, j ≤ τmax . (2.11)

Con el fin de tener una mayor exploración en las primeras iteraciones del algoritmo se suele sugerir
que todos los valores en la matriz de feromona inicializen con valores por arriba de τmax . En esta variante
solamente se permite a la mejor solución mejorar su rastro de feromona, aunque esta solución puede
ser elegida entre la mejor solución generada en la iteración o a la mejor solución encontrada en todo el
algoritmo, incluso Dorigo menciona que se puede alternar en cada iteración la actualización entre una y
otra. Como un paso adicional para mejorar la exploración con esta variante se sugiere reiniciar el rastro
de feromona después de cierto número de iteraciones.
La variante Ant Colony System [7], da más importancia a la explotación de la información que ha sido
recopilada por las hormigas que ya han trazado sus camino que a la exploración del espacio de búsqueda,
esto lo logra mediante dos mecanismos, primero mediante una estrategia elitista para llevar a cabo la
actualización del rastro de feromona, el segundo mediante una probabilidad de escoger los próximos
componente de una forma pseudoaleatoria.
En esta variante se tiene una probabilidad q0 , 0 ≤ q0 < 1, de que la próxima componente sea escogida
ya no de manera aleatoria, sino que se considere a aquella componente que tenga un valor más alto al
CAPÍTULO 2. ALGORITMOS BIOINSPIRADOS 37

β
considerar τi,αj ∗ ηi, j , es decir, la próxima componente será aquella componente j que cumpla:

β
j = argmaxc j ∈N(s p ) {τi,αj ∗ ηi, j }. (2.12)
i

En esta variante se utiliza la función argmax porque se escogerá a la componente j que maximiza a la
β
función τi,αj ∗ ηi, j .
Cuando el valor de q0 es muy cercano a 1, se favorecerá más la explotación que la exploración, y si es
un valor muy cercano a 0 se asemejará más al algoritmo Ant System. En esta variante la estrategia elitista
permite que solamente la mejor solución de la iteración o la mejor solución global actualice su rastro de
feromona, aunque se suele dar preferencia a la mejor solución global (sgb ) de todo el algoritmo, por lo
que la ecuación 2.8 se convierte en:

τi, j = (1 − ρ) ∗ τi, j + ρ ∗ g(sgb ). (2.13)

Otra diferencia muy importante de esta variante con respecto al modelo original es que la actualización
de la feromona no se lleva a cabo una vez que toda la colonia ha terminado de construir su trayecto, sino
que se lleva a cabo al mismo tiempo que se van construyendo las soluciones, esto con el propósito de
evitar que todas las hormigas sigan el mismo camino, lo que favorece la exploración.
Capı́tulo 3

Metodologı́a

3.1. Introducción

En éste capı́tulo se presenta la documentación de la implementación en R de los tres algoritmos bio-


inspirados que se desarrollaron en éste trabajo para abordar el problema de plegado de proteı́nas bajo
el modelo hidrofóbico-polar propuesto por Dill. En la sección 3.2 se describe el funcionamiento de los
distintos operadores involucrados en la implementación de algoritmos genéticos para las tres variantes
distintas que se consideraron para realizar la selección de los individuos más aptos.
En la sección 3.3 se presenta la propuesta para implementar optimización por enjambre de partı́culas
tomando en cuenta que es un algoritmo hecho para encontrar soluciones en problemas de optimización
continua. Finalmente en la sección 3.4 se presenta la propuesta para la implementación de optimización
por colonia de hormigas, en especı́fico se hace una propuesta para calcular la información heurı́stica y
una propuesta de una red en la que las hormigas artificiales realizarán los depósitos de feromona.

3.2. Algoritmos genéticos

Debido a que el algoritmo genético es un algoritmo basado en poblaciones, el primer paso es generar
una población al azar, con números entre uno y cuatro. La primera nota importante es recalcar que es
necesario que xi,1 = 1, ∀xi ∈ P con el objetivo de disminuir en una dimensión el espacio de búsqueda.
Esto tiene como base que hay soluciones que tienen la misma estructura pero con diferente orientación.
Para ilustrarlo se considera a la sucesión de aminoácidos:

HPHP2 H2 PH2 PHPH2 P2 HPH.

38
CAPÍTULO 3. METODOLOGÍA 39

Mientras que como configuraciones se considera:

x1 = (1, 1, 1, 4, 3, 3, 4, 4, 3, 2, 2, 3, 2, 2, 3, 2, 1, 1, 4),

x2 = (2, 2, 2, 1, 4, 4, 1, 1, 4, 3, 3, 4, 3, 3, 4, 3, 2, 2, 1),

x3 = (3, 3, 3, 2, 1, 1, 2, 2, 1, 4, 4, 1, 4, 4, 1, 4, 3, 3, 2),

x4 = (4, 4, 4, 3, 2, 2, 3, 3, 2, 1, 1, 2, 1, 1, 2, 1, 4, 4, 3).

Como resultado se tienen las gráficas que se muestran en la Figura 3.1.

Figura 3.1: Gráficas de las configuraciones x1 , x2 , x3 y x4 .


CAPÍTULO 3. METODOLOGÍA 40

La población a lo largo del algoritmo es una matriz en donde cada renglón contiene la configuración
que va a adoptando cada solución, y como se busca reducir la dimensión del espacio de búsqueda, la
primera columna siempre tendrá el valor de uno, en cada renglón.

3.2.1. Mutación

Para la implementación de algoritmos genéticos para el problema de plegado de proteı́nas es necesario


realizar algunas modificaciones a los operadores de cruza y mutación, debido a que pueden provocar que
hayan empalmes de manera consecutiva. La primera consideración para éste operador es que la primera
columna de la matriz de población nunca se muta, ya que se busca reducir el espacio de búsqueda.
Para hacer la mutación es necesario tener un número aleatorio p y una probabilidad de mutación pmut .
Si se tiene que p ≤ pmut entonces se realiza la mutación tomando en cuenta que no se puede volver a
repetir el valor de xi,k , además de que se toma en cuenta también a los valores de las variables xi,k−1 y
xi,k+1 .
Para evitar el empalme de manera consecutiva es necesario notar que éste se presenta cuando ocurre
lo siguiente:
|xi,k+1 − xi,k | = 2. (3.1)

Esto ocurre cuando dos variables consecutivas toman los valores 1 y 3 o los valores 2 y 4. Para
simplificar la notación se presenta una funcion que convierte a un 1 en 3 y viceversa y que hace lo mismo
con los números 2 y 4.


x − 2

si x > 2,
a(x) = (3.2)
si x ≤ 2.

x + 2

Para evitar empalmes consecutivos, la función de mutación tomará valores del siguiente conjunto:

M(xk ) = aleatorio{{1, 2, 3, 4} \ {(a(xk−1 ), xk , a(xk+1 )}} (3.3)

Cuando la variable que presentará una mutación es (xn−1 ), considerando que esta variable indica la
posición del último aminoácido con respecto al penúltimo aminoácido, y que al ser el último aminoácido
de la secuencia ya no tiene un aminoácido sucesor, los posibles valores que puede tomar están contenidos
dentro del siguiente conjunto:
CAPÍTULO 3. METODOLOGÍA 41

M(xn−1 ) = aleatorio{{1, 2, 3, 4} \ {(a(xk−1 ), xn−1 }} (3.4)

3.2.2. Recombinación

Como el algoritmo de recombinación seleccionado fue el de cruza en un punto, se realizó un paso


adicional que es muy semejante a la implementación de cruza uniforme. En este caso, como al momento
de hacer la cruza en un punto puede darse el hecho de que alguno de los hijos resultantes tenga un
empalme de posiciones consecutivas, la recombinación estará limitada solamente a aquellos puntos que
satisfagan lo siguiente:
Se considera que los padres que han sido seleccionados para cruza después de haber hecho el método
de selección son P = p1 p2 . . . pn−1 y M = m1 m2 . . . mn−1 .
Se crea un nuevo conjunto

C = {c1 , c2 , . . . , cn−2 }.

En donde cada elemento de C está dado por:



1 si |pi − mi+1 | = 2 ∨ |mi − pi+1 | = 2

ci = i = 2, 3, . . . , n − 2. (3.5)

0 en otro caso

El punto en donde se realizará la cruza será escogido de manera aleatoria dentro de aquellas ci que hayan
tomado el valor de 0, pues en estos puntos es donde se garantiza que los hijos generados no presenten
empalmes de manera consecutiva, lo cual no implica que no se puedan presentar empalmes de alguna
forma diferente. Se puede programar de forma que cada ci detecte posibles empalmes en segmentos de
longitud 4, 6, etcétera, pero esto implicarı́a aumentar el tiempo de ejecución.

3.2.3. Función objetivo

Al momento de calcular la energı́a que desprende un plegamiento dado se hace uso de la ecuación
1.3. Esta ecuación consta de dos partes, la primera identifica las interacciones exclusivamente entre
aminoácidos hidrofóbicos, mientras que la segunda se encarga de calcular la penalización que se le dará
a una solución por presentar empalmes pero sin importar que se trate de aminoácidos hidrofóbicos o
polares.
CAPÍTULO 3. METODOLOGÍA 42

En un principio la energı́a toma el valor de 0. Para calcular las interacciones entre aminoácidos hi-
drofóbicos el primer paso es identificar cuales son los aminoácidos que tienen esta caracterı́stica, lo cual
se hace solamente usando la función which. Cuando se tienen identificados los aminoácidos hidrofóbi-
cos, se identifican sus posibles vecinos y los puntos que ocupan en R2 , se verifica que los puntos que
ocupan cada uno de los vecinos se encuentren a una unidad de distancia de la posición del aminoácido
que se esté analizando, para hacer esto se analiza el segmento de la solución que abarca desde la posición
del aminoácido bajo análisis hasta la ubicación de cada uno de sus posibles vecinos, en este segmento
se cuenta el número de pasos hacia la derecha, que es equivalente a contar el número de veces en que
se repite el número uno dentro del segmento, además de contar los pasos hacia la izquierda que están
indicados por las veces en que se repitió el número tres dentro de la secuencia. Posteriormente se verifi-
can los pasos hacia arriba y hacia abajo, indicados por las veces en que se repite el número dos y cuatro
respectivamente. Si se tiene que la cantidad de pasos hacia la derecha coincide con los pasos dados hacia
la izquierda y que la diferencia entre los pasos dados hacia arriba con respecto a los pasos dados hacia
abajo es de uno, o si por el contrario, la diferencia entre los pasos hacia la derecha difiere en una unidad
respecto a los pasos dados hacia la izquierda mientras que el número de pasos dados hacia arriba coinci-
de con el total de pasos dados hacia abajo entonces se tendrá que el aminoácido bajo análisis tiene una
interacción hidrofóbica con su vecino y se actualiza el valor de la energı́a tomando energı́a = energı́a − 1.
Para hacer el cálculo de la penalización se puede hacer uso de un ciclo for dentro de otro ciclo for para
hacer uso de la ecuación 1.4. Pero realizar esto tiene un alto costo computacional porque los empalmes
se pueden presentar sin importar que los aminoácidos sean hidrofóbicos o no. Para disminuir el costo
computacional de hacer estas verificaciones se hace uso de otra forma que es más rápida en los tiempos
de ejecución.
Para calcular la penalización que desprende una secuencia x ∈ {1, 2, 3, 4}n−1 dada una secuencia de
aminoácidos S de longitud n se hace uso de una trayectoria en R2 . A cada aminoácido si ∈ S se le asigna
un punto ai ∈ R2 , teniendo como primer paso el supuesto de que el primer aminoácido estará ubicado en
el origen, la ubicación de cada aminoácido dependerá de la ubicación del aminoácido previo, la forma
en que se actualiza la posición de cada aminoácido se muestra en la tabla 3.1.
CAPÍTULO 3. METODOLOGÍA 43

Valor de la variable Posición Actualización


1 Izquierda ak+1 = ak + (1, 0)
2 Arriba ak+1 = ak + (0, 1)
3 Derecha ak+1 = ak + (−1, 0)
4 Abajo ak+1 = ak + (0, −1)

Tabla 3.1: Construcción de la ruta en R2 .

Como consecuencia de esto y debido a que en todos los algoritmos bioinspirados realizados se consi-
deró xi,1 = 1 el segundo aminoácido estará ubicado en el punto (1, 0).
Otra forma consiste en construir la trayectoria de forma iterativa con la siguiente fórmula:

ai,1 = (0, 0)
(3.6)
ai,k = ai,k−1 + (11 (xi,k ) − 13 (xi,k ), 12 (xi,k ) − 14 (xi,k ))

Una vez que a una solución x se le ha asignado una trayectoria para calcular los empalmes solamente se
hace uso de la función unique que se encarga de eliminar los elementos duplicados y lo que da un indicio
del número de empalmes que se tiene en la estructura que se ha formado porque un empalme se presenta
cuando dos aminoácidos ocupan la misma posición en R2 . Cuando no se ha eliminado algún elemento
quiere decir que no hubo empalmes. Se debe tomar en cuenta que este método no afecta a soluciones
factibles, mientras que en el caso de empalmes, al usar la función unique no se tiene información sobre
cuántos aminoácidos se empalmaron en un mismo punto.

3.2.4. Función de aptitud

Es necesario que la función de aptitud que se esté utilizando sea no negativa y que los individuos que
mejor desempeño tienen en el entorno en donde se está desarrollando tengan valores más altos. Cuando
se está trabajando en problemas de minimización es necesario realizar un ajuste a la función objetivo. El
cambio que se hizo en este caso fue el descrito en la ecuación 2.1. En esta ecuación la constante K es una
variable que es lo suficientemente grande para hacer que la función objetivo sea no negativa. Se pueden
considerar valores muy elevados para garantizar que el dividendo f + K siempre sea positivo, pero en
este trabajo se calculó a K bajo el procedimiento descrito a continuación.
Tomando en consideración que bajo el modelo de Dill un aminoácido tiene disponibles cuatro po-
CAPÍTULO 3. METODOLOGÍA 44

siciones posibles con respecto a la posición que está ocupando actualmente y que en caso de que los
aminoácidos que ocupan la primera y la última posición dentro de la secuencia S que conforma a la
proteı́na sean aminoácidos clasificados como hidrofóbicos pueden tener interacción hidrofóbica a lo mas
con otros tres aminoácidos, mientras que el resto de aminoácidos al tener ocupadas dos de las cuatro
posiciones que tiene disponibles alrededor, sólo pueden tener a lo más dos interacciones hidrofóbicas
con aminoácidos que ocupen las casilla desocupadas.
Por último, es importante recalcar que si se considera que un aminoácido hidrofóbico que ocupe
una posición par dentro de secuencia S estará alejado por una longitud par de otros aminoácidos que
también ocupen posiciones pares, y considerando que sucede lo mismo con los aminoácidos que ocupan
posiciones impares, con respecto a los otros aminoácidos hidrofóbicos que ocupan posiciones impares,
lo que se traduce en que un aminoácido que ocupa una posición par solamente puede tener interacciones
hidrofóbicas con aminoácidos hidrofóbicos que ocupan posiciones impares y viceversa. Dado lo anterior
se tiene lo siguiente:
Se define el conjunto de los aminoácidos pares de la secuencia S como:

P(S) = {s j ∈ S : s j = H ∧ j = 2 ∗ k para algún k ∈ N, j : 1, 2, . . . , n.}

Y a su vez el conjunto de aminoácidos impares de la secuencia S está definido como:

I(S) = {s j ∈ S : s j = H ∧ j = 2 ∗ k + 1 para algún k ∈ N, j : 1, 2, . . . , n.}

A partir de esto, la cota c se puede calcular como se muestra a continuación:

K = min{2 ∗ |P(S)| + 1 ∗ (sn ∈ P(S)), 2 ∗ |I(S)| + 1 ∗ (s1 ∈ I(S)) + 1 ∗ (sn ∈ I(S))} + 1 (3.7)

Se considera la cardinalidad de los conjuntos I(S) y P(S) para contar el número de aminoácidos impa-
res y pares, este número se multiplica por dos ya que se pueden presentar dos interacciones hidrofóbicas,
mientras que el factor extra que implica que el primer y el último aminoácido que conforman a la se-
cuencia S sean hidrofóbicos es agregado porque en caso de que estos dos aminoácidos sean hidrofóbicos
pueden llegar a tener hasta tres interacciones hidrofóbicas.
De estos dos posibles resultados se considera al menor de ellos porque no importa desde que punto
de vista se consideren las interacciones hidrofóbicas, el total de éstas debe ser el mismo si se considera
como punto de partida contar las interacciones de cada aminoácido par, que si se toma en cuenta las inter-
CAPÍTULO 3. METODOLOGÍA 45

acciones hidrofóbicas de los aminoácidos impares. Por último, al número obtenido se le suma una unidad
para que en caso de que la solucion óptima coincida con este número no provoque una indeterminación
en el dividendo.
El objetivo al calcular K de esta forma, es que los valores de la función de aptitud no sean demasiado
pequeños, porque al agregar constantes que sean muy grandes, en el denominador de la ecuación 2.1, los
valores obtenidos pueden llegar a ser menores que el epsilon de la máquina.

3.2.5. Selección

Para la implementación de algoritmos genéticos en R para el problema de plegado de proteı́nas se


implementó la selección por ruleta, la selección por torneo y la selección universal estocástica. En todos
los casos se construyen las poblaciones de forma que en todo momento el mejor individuo de la población
de padres es el primer individuo de la población que se genera en la siguiente generación, lo que se conoce
como elitismo. Es necesario que el mejor individuo de la población de padres ocupe la primera posición
en la nueva población para que sea mas sencillo identificarlo y no realizarle mutación.
Todas las funciones elaboradas reciben como argumento a una población y su respectivo valor en la
función objetivo. En todos los casos, la recombinación está sujeta a una probabilidad de recombinación,
la cual suele ser grande, esta probabilidad indica si el material genético de los padres será recombinado,
en caso contrario, ambos padres pasarán a formar parte de la nueva población.
Para realizar la selección por ruleta se hace uso de la función de aptitud y se construyen las pro-
babilidades de selección como se indica en la ecuación 2.2. Una vez obtenidas estas probabilidades se
agregan a la función sample para que devuelva una pareja de padres que posteriormente serán recom-
binados usando el método descrito anteriormente. De esta manera la población de la nueva generación
estará conformada inicialmente por el mejor individuo de la población previa y por los hijos generados.
En caso de que el número de individuos generados sea mayor a la cantidad de individuos que se indican
al principio del algoritmo como tamaño de la población, se elimina al último hijo generado.
En la selección por torneo no es necesario calcular la función de aptitud. Como primer paso se creó
una función llamada torneo que depende del número de rondas que se quieran implementar. Se hace uso
de una matriz que contiene los enfrentamientos que habrá en cada ronda. El número de renglones de
la matriz de enfrentamientos es el total de individuos que forman parte de la población, debido a que
el método de recombinación propuesto crea dos hijos a partir de dos padres mientras que el número de
columnas está determinado por la expresión 2rondas , después de cada ronda de eliminación, el número de
CAPÍTULO 3. METODOLOGÍA 46

columnas en la matriz de encuentros se va reduciendo a la mitad, para finalmente obtener una matriz con
una sola columna, que contendrá a los individuos que serán recombinados.
En un principio, la matriz de enfrentamientos se llena por columnas, utilizando el argumento bycol=T,
de manera que se garantiza que el número asignado a cada individuo, que es el renglón que ocupa en
la matriz que contiene a la población, aparece una vez en cada columna. En cada enfrentamiento, se
compara el valor obtenido en la función objetivo, como se trata de un problema de minimización el
individuo que resultará ganador es el que tiene una menor energı́a, en caso de presentarse un empate, el
individuo ganador es seleccionado al azar.
Una vez finalizado el torneo, se lleva a cabo la creación de la nueva población, guardando al mejor
individuo de la población de padres, y recombinando a los individuos que resultaron ganadores en el
torneo, de forma que el individuo que ocupa el primer renglón en la matriz de ganadores del torneo se
recombina con el que ocupa el segundo renglón, el individuo del tercer renglón recombina su genotipo
con el individuo que está en el cuarto renglón y ası́ sucesivamente. En caso de que el número total de
individuos de la población exceda el tamaño de población asignado al inicio del algoritmo se elimina al
último hijo generado.
Para la implementación de selección universal estocástica se necesitan los argumentos aleatorioM que
indica el número de apuntadores que se quieren utilizar. También recibe como argumento la población,
sus valores obtenidos en la función objetivo, la cota que se usará para hacer la conversión en función de
aptitud (calculada como se muestra en la ecuación 3.7 ) y por último la probabilidad de llevar a cabo la
recombinación. Como primer paso se determina el número de giros necesarios, que depende del número
de apuntadores, pues por cada giro de ruleta se tienen M apuntadores que señalan a M padres que podrán
ser recombinados.
Para determinar el número de giros en la ruleta se utiliza la función ceiling para obtener el número
entero mas próximo por exceso de la división del tamaño de la población entre el número de apuntadores.
El número de giros debe ser tal que tam población ≤ M ∗ numgiros
Se construyen las probabilidades de forma semejante a la ruleta, pero adicionalmente se crea una
matriz que indica la distribución acumulada, de acuerdo al número de apuntadores tendrá cada giro de
ruleta. Una vez que se han obtenido los apuntadores se busca el intervalo que le corresponde dentro de
la matriz de distribución acumulada para saber que individuos tendrán la posibilidad de recombinar su
material genético.
Cuando ya se han llevado a cabo los giros de ruleta necesarios y en caso de que el número de padres
generados exceda el número de padres necesarios para generar una nueva población se obtiene una
CAPÍTULO 3. METODOLOGÍA 47

muestra aleatoria sin reemplazo usando la función sample. Cuando ya se obtuvo la población de padres,
se guarda al mejor individuo encontrado en dicha población, y se recombina el material genético del
primer miembro de la lista de padres con el segundo, el tercero con el cuarto y ası́ sucesivamente.

3.2.6. Algoritmo genético

Por último, se unen todas la funciones creadas en una sola función. El primer paso es generar la
población inicial aleatoria, a la que se le calculará la función objetivo, esta primera población no se
muta, después se calcula la función de aptitud con el fin de poder seleccionar a los individuos de acuerdo
al método de selección que se esté usando. Cuando se tiene la lista de padres estos se recombinan y la
nueva población puede tener una mutación, dependiendo de la probabilidad de mutación.
La respuesta de esta función es una lista, que contiene a la última población, que se acomoda en un
data.frame. Por construcción, la última población tiene una matriz en la que el primer renglón tiene al
mejor individuo que se encontró a lo largo del algoritmo y en el resto de renglones contiene otros miem-
bros de la población, éste data.frame también contiene los valores obtenidos en la función objetivo. La
lista también tiene la opción de devolver la matriz con la información de la función objetivo de cada
población generada a lo largo del algoritmo y por último devuelve una matriz que contiene la informa-
ción sobre cómo van evolucionando los plegados, la conformación obtenida, la energı́a desprendida y la
iteración en que hubo una mejora.

3.3. Optimización por enjambre de partı́culas

Este algoritmo se implementó teniendo como primer paso la creación de una población aleatoria, que
es guardada en una matriz y en donde cada renglón es un miembro del enjambre. Esta matriz contiene
solamente miembros del conjunto {1, 2, 3, 4}. Al igual que en algoritmos genéticos se considera que
xi,1 = 1, ∀xi ∈ P, por lo que la primera columna de la matriz que contiene a la población tiene el valor de
1.
Debido a que este algoritmo fue ideado para afrontar problemas en donde la función objetivo es una
función continua, es necesario realizar algunos ajustes para que las soluciones obtenidas pertenezcan
a {1, 2, 3, 4}n−1 . Cuando se realiza la operación pi, j (t) − xi, j (t) debido a que ambos términos forman
parte del conjunto {1, 2, 3, 4} la resta entre los distintos elementos de ese conjunto forman parte del
conjunto {−3, −2, −1, 0, 1, 2, 3}. Pero al momento de multiplicar por números reales, como es el caso
de los parámetros w, c1 , c2 , r1 y r2 el número obtenido y que terminará siendo la velocidad será de igual
CAPÍTULO 3. METODOLOGÍA 48

manera un número real, al momento de realizar la actualización de la posición usando la ecuación 2.5, el
resultado puede no estar dentro del conjunto {1, 2, 3, 4}.
Para afrontar la problemática anterior se puede pensar en algunas alternativas. Por ejemplo, se puede
optar por aplicar redondeo para poder calcular la función objetivo, mientras que se puede usar también
las funciones techo o piso e incluso congruencias. Aunque éstos operadores se realizan únicamente para
poder calcular la función objetivo, esto es con el objetivo de no perder la información que el algoritmo
obtiene al realizar el cálculo de la velocidad. Sin embargo, en las ejecuciones realizadas se observó que
de no poner un lı́mite a la velocidad, esta solı́a incrementar, por lo que al actualizar las posiciones ya no
es posible calcular la función objetivo.
Para poder aplicar optimización por enjambre de partı́culas al problema de plegado de proteı́nas se hizo
uso de la construcción del recorrido que se forma en R2 por lo que la velocidad ya no se calcula usando
elementos del conjunto {1, 2, 3, 4} puesto que ahora pi, j (t), xi, j (t) y pg j (t) son puntos ubicados en R2 , y
que surgen como consecuencia de la trayectoria que se forma por la configuración que tiene la partı́cula
xi , al realizar la resta de estos elementos se obtiene como resultado un vector que será multiplicado por
un escalar (c1 , c2 , r1 , r2 ) según sea el caso, y por lo tanto vi, j (t) también será un vector.
Por otra parte, se hizo una lista llamada listaTray cuyo tamaño depende del número de individuos que
formen el enjambre. En esta lista se guarda la trayectoria que se ha formado dada la configuración de
cada individuo de la población. En R las listas son objetos que pueden contener objeto de distintos tipos.
En este caso es útil que el historial sea una lista formada de listas, éstas contienen tanto la matriz que
incluye la trayectoria que se ha formado dada la configuración del k-ésimo individuo del enjambre ası́
como también deberá incluir el valor que ha tomado la función objetivo dada esa configuración.
Como es de esperarse, en la primera iteración todos los individuos tienen el mejor valor objetivo que
han encontrado hasta ese momento, y es a partir de la segunda iteración en que el historial empezará a
tener modificaciones. A partir del historial se construye una última lista llamada mejorGlobal que sólo
contendrá dos elementos, la trayectoria que siguió el individuo con el valor mı́nimo en la función objetivo
de entre todas las configuraciones que han sido guardadas en el historial además del valor que se obtuvo.
En el caso de que hayan dos o más individuos que desprendan la misma energı́a y que esta sea la mı́nima
de la población, el individuo que ocupará la lista mejorGlobal será escogido de manera aleatoria.
CAPÍTULO 3. METODOLOGÍA 49

3.3.1. Velocidades y actualización de posición

La velocidad se calcula de manera que indica cómo deberı́a acomodarse un aminoácido con respecto
al aminoácido antecesor, pero de forma que se asemeje más a la configuración que se ha guardado en
el historial y de acuerdo a la configuración del mejorGlobal dependiendo de los valores asignados a c1
y c2 y del valor obtenido al azar por r1 y r2 . Para almacenar la velocidad también se hace uso de listas,
aunque en este caso es una lista que contiene matrices.
Considerando que las posiciones ocupadas por los aminoácidos son vectores, cada matriz con las
velocidades tiene dos columnas. La velocidad inicial se construye haciendo una resta de la posición que
ocupa un aminoácido con respecto a su antecesor, es por esto que en cada renglón de las matrices que
almacenan la velocidad se verá alguno de los vectores (1, 0), (0, 1), (−1, 0) o (0, −1).
Para hacer esto se usa una función llamada conversion1234 puntos que recibe como argumento un
vector que contiene la configuración que ha tomado una partı́cula de la población inicial, si la columna
i del vector tiene asignado un 1, el renglón i de la matriz de velocidades que le corresponde tendrá el
valor de (1, 0), con un 1 en la primera columna y un 0 en la segunda, cuando se tiene asignado un 2, le
corresponderá el vector (0, 1), en caso de tener un valor de 3, le corresponderá el vector (−1, 0) mientras
que si tiene asignado un 4 el vector que le corresponderá será (0, −1).
Para calcular la velocidad de las partı́culas bajo este enfoque se usa la ecuación 2.4 considerando
que ahora pi, j (t), xi, j (t) y pg j (t) son puntos ubicados en R2 . En esta propuesta se hace la excepción de
que la velocidad no se calcula para el primer aminoácido, ya que en todos los casos éste siempre será
colocado en el origen, y por la forma en la cual se construyó la población inicial, la velocidad del segundo
aminoácido estará siempre orientada hacia la derecha (porque siempre se tiene que xi,1 = 1).
Una vez que se obtiene una matriz con los vectores que corresponden a la velocidad que tendrá cada
partı́cula se realiza una conversión a una nueva configuración a la que se le podrá calcular la energı́a.
Esta conversión se hizo mediante una función llamada normalizacion1234 y recibe como argumento una
matriz de dimensión (n − 1) × 2, donde n es el número de aminoácidos que conforman a la proteı́na. Esta
función se define de la siguiente manera:

x > y ∧ x ≥ −y,



1 si




2 si x ≤ y ∧ x > −y,

norm1234 (x, y) = (3.8)
x < y ∧ x ≤ −y,



3 si




4 si x ≥ y ∧ x < −y.

CAPÍTULO 3. METODOLOGÍA 50

De manera gráfica esta función se puede visualizar como se muestra en la figura 3.2.
En donde el color azul abarca la región de vectores de velocidad que indican que un aminoácido deberá
ir a la derecha de su aminoácido antecesor, mientras que la región en color verde indicará que debe ir por
arriba, cuando el color asignado es de la región en color rojo el aminoácido está ubicado a la izquierda
de su aminoácido antecesor y finalmente, si ocupa un lugar dentro de la región con color amarillo deberá
ser colocado por debajo de su aminoácido antecesor.

Figura 3.2: Regiones en R2 para optimización por enjambre de partı́culas.

Debido a que la función norm1234 convierte a una matriz de velocidades en un vector en el que ya
es posible calcular la función objetivo, la actualización de la posición se usa construyendo de nuevo la
trayectoria que surge como consecuencia de la nueva configuración alcanzada.
Una vez que a cada partı́cula se le ha calculado la velocidad y actualizado su posición se procede a
evaluar la función objetivo en toda la población, para poder realizar la actualización en el historial y si es
necesario la actualización de la mejor configuración alcanzada a nivel global. El cambio en el historial
se lleva acabo solamente en el caso de que algún valor en la función objetivo sea menor estrictamente,
que el valor que se obtuvo en la trayectoria que ha sido almacenada para la partı́cula.
CAPÍTULO 3. METODOLOGÍA 51

3.4. Colonia de hormigas

Para la realización del algoritmo de colonia de hormigas las soluciones fueron vistas ya no como los
puntos en R2 que dan forma a la estructura como se hizo en optimización por enjambre de partı́culas,
sino que se toma en cuenta la transición de que el aminoácido k + 1 ocupe cierta posición con respecto a
la ubicación del aminoácido k dada la posición que este último tuvo a la vez con respecto al aminoácido
k − 1. Esto se puede ver como recorridos sobre un diagrama como el mostrado en la figura 3.3.

Figura 3.3: Gráfica sobre la que caminan las hormigas.

En este algoritmo al igual que en los otros algoritmos bioinspirados se redujo el espacio de búsqueda
en una dimensión al considerar que en todos las rutas construidas por cada individuo la primera variable
cumple que xi,1 = 1, para i = 1, 2, . . . , m.

3.4.1. Información heurı́stica

Dado que en este problema no se dispone de manera clara la información heurı́stica, pues ésta deberı́a
de tener valores más altos para los casos en que una nueva componente que sea añadida agregue más
interacciones hidrofóbicas, pero también deberá disminuir su valor para las componentes que provoquen
empalmes, y estos datos a su vez dependen también de las configuraciones de los aminoácidos que ya
han sido colocados dentro de la malla, por lo que es necesario calcular esta información conforme se van
añadiendo nuevas componentes.
CAPÍTULO 3. METODOLOGÍA 52

Para abordar esto se pueden calcular las nuevas interacciones y empalmes que podrı́an agregarse a la
solución que está en construcción para cada posible componente, aunque se observó que esto, a pesar de
que no calcula todas las interacciones que tiene una solución, suele tener un alto costo computacional.
La información heurı́stica se creó mediante una función que devuelve una matriz de cuatro columnas y
un renglón. En un principio cada componente tiene un valor heurı́stico de 0.25, pero mediante un ciclo
for se verifica para cada componente si se puede crear una nueva interacción hidrofóbica con cada uno de
los posibles vecinos factibles del aminoácido que será acomodado dentro de la malla. En caso de que se
presente una nueva interacción el valor de la información heurı́stica de dicha componente incrementará
en un valor de 0.1 por cada posible nueva interacción.
Para calcular los empalmes de nueva cuenta se construye la ruta que ha seguido la hormiga y se verifica
que no hayan puntos repetidos usando la función unique. En caso de que se presente un empalme de dos
o más aminoácidos al agregar una componente a la solución parcial, la información heurı́stica de dicha
componente tendrá un valor de 0.0001, sin importar que la componente pueda crear alguna interacción
hidrofóbica y algún empalme al mismo tiempo, con el propósito de que la probabilidad de seleccionar
esa componente sea muy baja.

3.4.2. Poblaciones

En este algoritmo las poblaciones fueron almacenadas en matrices, cuya dimensión depende del núme-
ro de individuos y de la longitud de la secuencia de aminoácidos bajo análisis, cada renglón contiene a las
componentes que definen la conformación adoptada por cada individuo. A esta población se le calculará
la función objetivo y su tamaño se mantiene constante a lo largo del algoritmo.

3.4.3. Feromona

La feromona fue almacenada en una lista que contiene matrices, dado que el segundo aminoácido
siempre está colocado a la derecha del primer aminoácido, la primera matriz solamente tendrá un renglón
y cuatro columnas, pero esta matriz contiene el rastro de feromona que hay en las aristas que conectan
al tercer aminoácido con respecto al segundo. El resto de matrices serán todas de cuatro renglones por
cuatro columnas e indican el rastro de feromona que hay para que una nueva componente tome algún
valor entre 1, 2, 3 y 4 dado que la componente anterior a su vez tomó alguno de esos valores. Es por esto
que la k-ésima matriz de feromona hace referencia a la arista que conecta al aminoácido k + 1 con el
aminoácido k + 2.
CAPÍTULO 3. METODOLOGÍA 53

La evaporación se lleva a cabo mediante un ciclo for que recorre cada una de las matrices de feromona,
para realizar la evaporación en cada una de ellas, mientras que el aumento en el rastro de feromona se
hace mediante un ciclo for que recorre a cada una de las matrices con el rastro de feromona pero que
sólo aumenta el valor en el renglón y columna especı́ficos que recorrió la mejor hormiga. Para llevar a
cabo la actualización del rastro de feromona se utilizó la ecuación 2.8.
En el caso de este algoritmo el conjunto Supd contiene a todos los individuos de la población. Para
llevar a cabo el refuerzo del rastro de feromona se usó la siguiente función g(s), que es muy semejante a
la forma en que se
Q
g(s) = (3.9)
fob j + cota + 1

En donde la constante Q es positiva y en este trabajo se tomó como Q = 1. El término fob j contiene la
energı́a desplegada por la configuración construida hasta el momento. Por último la cota se calcula como
se indica en la ecuación 3.7. En la propuesta de este algoritmo que se utilizó se hace un depósito extra
con valor de ∆ únicamente en las componentes que forman parte de la mejor solución generada en cada
iteración.
Capı́tulo 4

Resultados

En este capı́tulo se presentan los resultados obtenidos al implementar los tres algoritmos bioinspirados
para el problema de plegado de proteı́nas bajo el modelo hidrofóbico-polar de Dill. Para ello se hace uso
de tablas en las que se muestran los resultados que se obtuvieron bajo los distintos parámetros pertene-
cientes a cada algoritmo para algunas secuencias cortas de aminoácidos, posteriormente se escogieron
los parámetros que obtuvieron un mejor desempeño para ejecutar los algoritmos bajo dichos parámetros
en secuencias de aminoácidos más largas.
Al considerar que los tres algoritmos bioinspirados que se utilizaron trabajan con conjuntos de pobla-
ciones se hizo uso de diagramas de caja y bigotes para mostrar algunos ejemplos de cómo evoluciona a
lo largo de las iteraciones cada algoritmo. Además se muestran algunas gráficas en las que se muestra la
evolución del mejor plegado que obtiene cada algoritmo para una secuencia corta de aminoácidos.
Para llevar a cabo las ejecuciones se tomaron en cuenta cinco secuencias de aminoácidos que son
conocidas dentro de otros trabajos que han abordado este problema y de las cuales se conocen los mejores
valores reportados en la literatura. Estas son:

S1 =HPHP2 H2 PH2 PHPH2 P2 HPH.

S2 =H2 P2 HP2 HP2 HP2 HP2 HP2 HP2 H2 .

S3 =P2 HP2 H2 P4 H2 P4 H2 P4 H2 .

S4 =H2 PHPHPHPH4 PHP3 HP3 HP4 HP3 HP3 HPH4 {PH}4 H.

S5 =H4 P4 H12 P6 H12 P3 H12 P3 H12 P3 HP2 H2 P2 H2 P2 HPH.

54
CAPÍTULO 4. RESULTADOS 55

4.1. Resultados para algoritmos genéticos

Para poner a prueba los tiempos de ejecución para las tres variantes de algoritmos genéticos se reali-
zaron doce ejecuciones, en dos grupos de seis, las primeras fueron ejecutadas sin fijar una semilla y las
otras seis al considerar la semilla 2, 022. En las tres variantes se consideró una población de 30 indivi-
duos, pues en [14] se menciona que es un tamaño de población adecuado , la secuencia bajo análisis fue
S1 para lo que se consideró una mutación de 1/19 con el proposito de mutar solamente una variable en
promedio por cada individuo, la probabilidad de recombinación escogida fue de 0.95 ya que, después de
las primeras ejecuciones de las tres variantes de algoritmos genéticos, las cuales no fueron registradas,
se obtuvieron mejores resultados al tener probabilidades altas de recombinación. Como criterio de paro
se tomó un total de 1, 500 generaciones. Para que las tres variantes compitieran en igualdad de condi-
ciones se consideró que el algoritmo genético con selección por torneo solamente tuviera una fase de
eliminación, mientras que la ruleta de selección universal estocástica tuviera 20 apuntadores. El tiempo
de ejecución de cada grupo y los resultados obtenidos se muestran en la tabla 4.1.

Variante Resultados con semilla Resultados sin semilla Tiempo (segundos) Promedio
Torneo -7,-7,-6,-7,-7,-7 -6,-7,-8,-9,-8,-7 365.98 -7.16666
Ruleta -7,-7,-8,-9,-8,-7 -7,-7,-8,-7,-9,-8 354.28 -7.666667
Baker -8,-8,-8,-7,-8,-8 -7 ,-7,-7,-8,- 7, -8 364.24 -7.583333

Tabla 4.1: Tiempo y resultados de algoritmos genéticos.

Se puede observar que los tiempos de ejecución fueron ligeramente menores en el algoritmo genético
con selección por ruleta y también pareciera que este algoritmo tiene el mejor desempeño, pero no hay
que olvidar que las otras dos variantes podrı́an tener mejores resultados si se considerara aumentar el
número de fases o modificar de número de apuntadores para aprovechar las ventajas que pueden ofrecer
estos parámetros.
Para poner a prueba los parámetros del algoritmo genético se consideró únicamente a la selección por
ruleta. Teóricamente se sabe que es mejor considerar una probabilidad de mutación de 1/L en donde
L representa la longitud de la cadena que contiene al genotipo de cada individuo. Para analizar este
parámetro se consideró de nuevo a la secuencia S1 y los resultados se muestran en la tabla 4.2.
CAPÍTULO 4. RESULTADOS 56

Prob. mutación Resultados sin semilla Resultados con semilla Promedio


1/38 -6,-6,-8,-6,-6,-6 -5,-9,-7,-6,-6,-6 -6.41666
1/19 -8,-8,-8,-6,-7,-9 -7,-8,-8,-6,-8,-8 -7.583333
2/19 -7,-6,-6,-8,-9,-6 -8,-7,-6,-7,-9,-6 -7.083333
3/19 -6, -8,-8,-7,-8,-8 -6,-7,-7,-6,-7,-7 -7.083333
5/19 -6,-5,-7,-6,-6,-7 -6,-6,-5,-6,-7,-6 -6.083333

Tabla 4.2: Resultados variando la mutación.

Para la secuencia S1 se sabe que el plegado que alcanza un mı́nimo reportado tiene una energı́a de
−9. Con base a esto y a los resultados obtenidos se puede estimar que se obtienen mejores resultados
al tener una probabilidad de mutación en el intervalo [ L1 , L2 ]. El siguiente parámetro bajo análisis fue
la probabilidad de recombinación. La secuencia considerada de nueva cuenta fue S1 . Los resultados se
muestran en la tabla 4.3.

Prob. recombinación Resultados sin semilla Resultados con semilla Promedio


0.5 -7,-7,-7,-8,-8,-8 -7,-7,-8,-8,-7,-8 -7.5
0.7 -8,-8,-7, -9,-7,-7 -8,-8,-6,-7,-8,-7 -7.5
0.9 -7,-7,-8,-7,-8, -7 -6,-7,-6,-7,-8,-7 -7.083333
0.95 -7,-7,-8,-7, -8, -7 -8,-8,-7,-8,-7,-6 -7.333333
0.97 -7,-6, -7, -8, -8,-8 -8,-7,-9,-8,-7,-8 -7.583333
0.99 -8, -8, -7, -9, -7, -7 -6,-8,-6,-8,-7,-7 -7.333333

Tabla 4.3: Resultados variando la probabilidad de recombinación.

A partir de los resultados mostrados en la tabla 4.3 se escogerá una probabilidad de 0.97. El siguiente
paso es ejecutar el algoritmo genético variando la penalización de los empalmes. El incrementar cada
vez más la penalización provocará que aquellas soluciones no factibles tengan cada vez menos probabi-
lidad de poder transmitir sus genes a las próximas generaciones. Las penalizaciones consideradas fueron
de 2, 5, 10 y 20. El primero de estos valores fue escogido para analizar el comportamiento cuando la
penalización es baja, mientras que el valor de 10 fue considerado porque está pensado como un valor
lo suficientemente grande para hacer que una solución que presente empalmes despliegue una energı́a
más grande que otras soluciones que no presenten muchas interacciones hidrofóbicas pero que sı́ son
factibles. Los valores de 5 y 20 fueron pensados al dividir y multiplicar por 2 el valor anterior.
CAPÍTULO 4. RESULTADOS 57

Penalización Resultados sin semilla Resultados con semilla Promedio


2 -8,-8,-8,-9,-7,-8 -8,-8,-9,-7,-8,-8 -8
5 -8,-6, -8, -8, -7, -8 -8,-7,-8,-7,-6,-8 -7.41666
10 -6, -9, -8, -7, -6, -7 -7,-8,-9,-8,-8,-7 -7.5
20 -8, -8, -8, -7, -7, -7 -8,-6,-7,-6,-8,-6 -7.16666

Tabla 4.4: Resultados variando la penalización.

Es importante notar que a pesar de que en la tabla 4.4 al considerar una penalización baja no se
muestra, hubo ejecuciones del algoritmo en las que se obtenı́an valores de energı́a por debajo de la energı́a
que desprende el plegado con la mejor solución reportada en la literatura, sin embargo las soluciones
que tenı́an menor energı́a resultaban ser no factibles por presentar empalmes. Con base a los resultados
observados se considera una penalización de 10, pero es importante que en las secuencias con mayor
número de aminoácidos se consideren penalizaciones más grandes para evitar estancarse en soluciones
que además sean no factibles.
Otro parámetro que puede variar es el número de individuos. Los cambios en este parámetro como
es de esperar, pueden afectar a la convergencia del algoritmo, además de que el tamaño de la población
influye en la construcción de la ruleta, ya que es más probable que haya un estancamiento cuando la
población consta de menos individuos. Pero al incrementar el tamaño de la población afectará el tiempo
de ejecución del algoritmo. Los resultados obtenidos se muestran en la tabla 4.5.

Tamaño de población Resultados sin semilla Resultados con semilla Promedio


10 -6,-6,-6,-7,-6,-7 -8,-6,-7,-6,-8,-6 -6.583333
40 -8,-7,-8,-8,-8,-6 -8,-8,-6,-8,-6,-7 -7.333333
50 -7,-9,-7,-8,-8,-8 -7,-7,-7,-6,-7,-5 -7.166667
100 -8,-8,-8,-7,-7,-8 -8,-8,-8,-9,-8,-7 -7.833333

Tabla 4.5: Resultados variando el tamaño de población.

En el tamaño de población se debe considerar que el promedio para el caso de poblaciones de 50


individuos se vio afectado por la ejecución en donde la mejor solución tuvo un resultado de −5 pero
también se debe tomar en cuenta que en una ejecución se alcanzó el mejor valor reportado en la literatura.
Con base en todos los resultados obtenidos a partir de este momento se consideraron los siguientes
parámetros como los que pueden hacer que el algoritmo tenga un mejor desempeño. La probabilidad
de mutación será considerada como 1/L en donde L representa a la longitud que tiene la codificación
de cada solución, que en este caso es N − 1, con N siendo el total de aminoácidos. Para el caso de la
CAPÍTULO 4. RESULTADOS 58

probabilidad de recombinación no hay una tendencia clara sobre qué valor usar, pero se considerará una
probabilidad de 0.97. El tamaño de la población incrementará conforme se consideren secuencias más
grandes de aminoácidos al igual que la penalización. Los resultados para las otras secuencias bajo la
elección de parámetros escogidos se muestran en la tabla 4.6.

Población Prob. mutación Resultados Promedio Mejor reportado


40 1/23 -7,-7,-8,-7,-8,-7,-8,-7,-7,-7,-7,-7 -7.25 -9
48 1/23 -7,-7,-7,-7,-7,-8,-9,-7,-7,-8,-7,-6 -7.25 -9
80 1/49 -15,-17,-16,-15,-16,-14,-17,-18,-19,-17,-16,-14 -16.1666 -21
100 1/49 -15,-18,-16,-18,-15,-16,15,-17,-16,-17,-18,16 -16.41667 -21
150 1/84 -39,-36,-38,-31,-34,-36,-34,-42,-40,-37,-35,-38 -36.66667 -53

Tabla 4.6: Resultados para el resto de secuencias.

Después de evaluar el rendimiento de la implementación del algoritmo genético a través de la selec-


ción por ruleta se debe considerar los resultados que se obtienen al implementar la selección universal
estocástica y la selección por torneo, pero con la posibilidad de cambiar los parámetros del número de
apuntadores que se tendrán en cada giro de ruleta además del número de rondas del torneo.

Secuencia M Resultados Promedio Mejor valor reportado


S1 40 -7,-8,-8,-7,-7,-7,-8,-7,-6,-8,-8,-8 -7.416667 -9
S1 20 -7,-6,-7,-7,-7,-8,-6,-8,-8,-8,-8,-9 -7.416667 -9
S1 10 -8,-9,-8,-8,-7,-8,-7,-6,-7,-7,-8,-6 -7.416667 -9
S2 12 -7,-7,-8,-7,-7,-8,-7,-8,-7,-7,-7,-7 -7.25 -9
S2 24 -7,-7,-7,-7,-8,-7,-7,-9,-7,-7,-8,-7 -7.333 -9
S3 25 -5,-7,-7,-7,-5,-6,-7,-5,-7,-7,-7,-7 -6.41666 -8
S3 10 -7,-7,-7,-7,-7,-6,-6,-5,-5,-7,-7,-7 -6.5 -8
S4 50 -16,-15,-16,-14,-17,-15,-18,-16,-16,-16,-17,-16 -16 -21
S5 100 -36, -39,-37,-38,-40,-40,-39,-38,-38,-40,-40,-38 -38.58333 -53

Tabla 4.7: Resultados de selección universal estocástica para las cinco secuencias.

Como se puede observar en la tabla 4.7, se obtienen mejores resultados en promedio al considerar un
mayor número de apuntadores.
CAPÍTULO 4. RESULTADOS 59

Secuencia Fases Resultados Promedio Mejor valor reportado


S1 1 -7,-8,-8,-7,-7,-7,-8,-7,-6,-8,-8,-8 -7.916667 -9
S1 2 -6,-7,-8,-7,-8,-8,-6,-8,-6,-8,-7,-7 -7.16666 -9
S1 3 -7,-7,-6,-6,-7,-6,-9,-5,-8,-7,-8,-6 -6.833333 -9
S2 1 -8,-8,-9,-7,-7,-7,-8,-7,-7,-7,-8,-7 -7.5 -9
S3 1 -6,-6,-7,-5,-5,-6,-6,-5,-7,-7,-6,-5 -5.91666 -8
S3 2 -6,-5,-5,-7,-5,-7,-6,-7,-4,-6,-6,-5 -5.75 -8
S4 1 -15,-15,-15,-15,-15,-15,-17,-15,-14,-14,-18,-17 -15.41666 -21
S5 1 -39,-41,-37,-36,-41,-34,-37,-38,-40,-37,-38,-36 -37.83333 -53

Tabla 4.8: Resultados por Torneo para las cinco secuencias

Con base en lo obtenido en la tabla 4.8 el incrementar el número de fases del torneo provoca que en
promedio se obtengan resultados que no son mejores que los obtenidos al realizar torneos con una sola
fase. Para visualizar cómo mejora la energı́a que se obtiene con este algoritmo se muestra la evolución
al considerar la semilla 2,022 para el algoritmo genético con selección por ruleta y al considerar doce
repeticiones con probabilidad de mutación de 1/19 y probabilidad de selección de 0.97. La evolución
para tres de las doce repeticiones se muestra en la figura 4.1. En esta figura se puede apreciar que el
algoritmo siempre mejora, esto se debe a la estrategia elitista que se considera, y aunque en la mayorı́a
de las ejecuciones el algoritmo se estancó antes de las 500 generaciones hay casos en los que aún después
de 2, 000 generaciones el algoritmo puede encontrar valores de energı́a más bajos.
Otro aspecto que es de interés, es analizar la convergencia de la población a lo largo del algoritmo,
para esto se considera la ejecución en la que se logró alcanzar el plegado con el valor mı́nimo de energı́a
reportado para la secuencia S1 , considerando selección por ruleta. El diagrama de caja se muestra en la
figura 4.2; en esta figura se puede apreciar que el algoritmo no suele converger, a pesar de los métodos de
recombinación y mutación propuestos, se suelen conservar individuos que presentan muchos empalmes
lo que provoca que el diagrama de caja y bigotes no tienda a reducir su tamaño. Si bien no se muestra,
es evidente que al implementar selección por torneo con un gran número de fases el diagrama tenderı́a
a reducir el tamaño de los brazos debido a que el mejor individuo tendrı́a una mayor probabilidad de
recombinar su material genético.
CAPÍTULO 4. RESULTADOS 60

Figura 4.1: Evolución de AG considerando probabilidad de mutación de 1/19 y probabilidad de selección


de 0.97.

Como último método para analizar el comportamiento de este algoritmo, en las figuras 4.3 y 4.4 se
muestra la evolución del plegado para la secuencia S1 , en el caso de este algoritmo, se puede ver cla-
ramente en la figura 4.3 que en las primeras iteraciones el algoritmo salta de una estructura a otra muy
diferente, y aunque no se muestra, en las primeras iteraciones los mejores plegados presentan un gran
CAPÍTULO 4. RESULTADOS 61

Figura 4.2: Convergencia de la población en algoritmos genéticos considerando la secuencia S1 .

número de empalmes por lo que es muy difı́cil representar las interacciones, sin embargo, conforme el
algoritmo encuentra un plegado en donde la energı́a es negativa, cada vez es más evidente que compar-
ten cierta estructura, o que hay partes del plegado que se conservan en los plegados que surgen como
consecuencia de la evolución. Los cambios que favorecen que el plegado despliegue menos energı́a en
iteraciones más avanzadas son provocados por la mutación e incluso no se puede descartar que la recom-
binación influya.
En la figura 4.3 se puede notar en las primeras dos estructuras, contando de arriba hacia abajo y
de izquierda a derecha, que tienen una estructura muy similar, sobre todo en la forma en que están
acomodados los últimos aminoácidos de la secuencia, además, debido a que son las mejores estructuras
encontradas en las iteraciones 8 y 9 es evidente que el operador que llevo a crear una nueva interacción
hidrofóbica fue una mutación en la décima variable. Sin embargo, entre la segunda, la tercera y la cuarta
estructuras no es posible notar semejanza entre ellas, de ello se puede suponer que dichas estructuras
fueron obtenidas al recombinar estructuras que podrı́an tener valores mas altos de energı́a pero que al
recombinar su material genético llevaron a estructuras que resultaron ser mejores que ellas. Entre las
CAPÍTULO 4. RESULTADOS 62

Figura 4.3: Evolución del plegado en algoritmos genéticos considerando la secuencia S1 .

estructuras quinta y sexta es muy notorio que una llegó a la otra al mutar la posición de los últimos dos
aminoácidos.
Al analizar las dos estructuras de la figura 4.4 se puede ver que sólo los primeros tres y los últimos siete
aminoácidos de la secuencia S1 ocupan exactamente la misma posición en R2 en ambas estructuras. La
configuración que forman los aminoácidos que están en la esquina inferior izquierda de ambas estructuras
CAPÍTULO 4. RESULTADOS 63

Figura 4.4: Evolución del plegado en algoritmos genéticos considerando la secuencia S1 .

aunque no ocupan los mismos puntos en R2 , sı́ son configuraciones semejantes, por lo que se puede
inferir que el paso de una estructura a otra fue ocasionado por una serie de mutaciones en el mejor
plegado que habı́a hasta la iteración 94 o porque en algún momento la recombinación ayudó a llegar a
la estructura óptima, además, el hecho de que los últimos aminoácidos ocupen exactamente los mismos
puntos en R2 puede deberse a que la población ha convergido en esas variables.
En estructuras más grandes puede ser muy difı́cil notar a simple vista qué operador ayudó a disminuir
la energı́a del mejor plegado encontrado a lo largo de las generaciones sin embargo por la manera en
que funciona el algoritmo genético los cambios en las mejores estructuras a lo largo de las iteraciones se
puede llevar a cabo por los mismos motivos que en las secuencias más cortas.

4.2. Resultados para optimización por enjambre de partı́culas

Para la implementación de enjambre por partı́culas, solamente pueden variar el número de individuos
que forman el enjambre, los valores de c1 y c2 y por último el factor de inercia w. De nueva cuenta se
realizaron doce ejecuciones y para cada una de ellas se muestra el valor mı́nimo que alcanza el algoritmo
y se calculó el promedio para considerar bajo que elección de valores para los parámetros se obtuvo un
mejor rendimiento. En primera instancia se consideró a la secuencia S1 y en todas las distintas variaciones
se consideró plantar la semilla 2, 022. Los resultados se muestran en la tabla 4.9.
CAPÍTULO 4. RESULTADOS 64

Población c1 c2 w Resultados Promedio


30 0.7 0.6 0.63 -6,-5,-7,-5,-5,-7,-5,-5,-5,-3,-5,-5 -5.25
40 0.7 0.6 0.01 -2,-5,-1,-3,-5,-5,-3,-4,-5, 0 ,-5,-3 -3.41666
40 0.7 0.6 0.5 -6,-5,-7,-5,-5,-7,-5,-5,-8,-6,-6,-5 -5.833333
40 0.7 0.6 0.3 -7,-5,-6,-8,-7,-4,-6,-5,-5,-7,-7,-4 -5.91666
40 0.7 0.6 1 -2,-3,-2,-3,-6,-4,-5,-4,-5,-5,-2,-4 -3.75
40 0.1 0.7 0.5 -5, -5,-5,-4,-3,-4,-4,-4,-6,-7,-3,-2 -4.333333
40 0.3 0.7 0.5 -4,-3,-6,-6,-6,-6,-4,-5,-6,-4,-7,-5 -5.16666
40 0.5 0.7 0.5 -5,-3,-7,-6,-7,-6,-5,-6,-5,-7,-5,-6 -5.66666
40 0.7 0.7 0.5 -5,-6,-7,-7,-5,-5,-8,-7,-7,-5,-5,-5 -6
40 0.9 0.7 0.5 -5,-7,-5,-6,-5,-6,-5,-7,-8,-5,-4,-5 -5.66666
40 2.1 0.7 0.5 -7,-6,-6,-6,-5,-7,-6,-6,-5,-6,-8,-7 -6.25
40 0.7 0.1 0.5 -5,-8,-6,-8,-7,-7,-6,-8,-5,-7,-7,-6 -6.66666
40 0.7 0.3 0.5 -5,-6,-5,-6,-4,-6,-5,-7,-7,-7,-5,-5 -5.66666
40 0.7 0.5 0.5 -4, -8, -7, -6, -7,-5,-6,-5,-8,-8,-6,-7 -6.41666
40 0.7 0.7 0.5 -6,-4,-6,-6,-5,-5,-6,-6,-8,-6,-7,-6 -5.91666
40 0.7 0.9 0.5 -5,-7,-5,-4,-6,-6,-6,-5,-5,-7,-6,-6 -5.66666
40 0.7 2.1 0.5 -5, -6,-7,-5,-5,-3,-6,-5,-7,-6,-4,-6 -5.41666

Tabla 4.9: Resultados variando parámetros de optimización por enjambre de partı́culas.

En todas las repeticiones se realizaron 1, 500 iteraciones, para visualizar el estancamiento de este
algoritmo se muestran las gráficas de tres de las doce repeticiones que se obtuvieron al considerar una
población con 40 partı́culas, con los parámetros c1 = 0.7, c2 = 0.1 y w = 0.5. Y como se puede ver en
las gráficas de la figura 4.5 el algoritmo suele estancarse antes de las 1, 500 generaciones.
Se utilizó un diagrama de caja y bigotes para visualizar la convergencia del algoritmo. Los resultados
se muestran en la figura 4.6. Y como se puede observar, el algoritmo de optimización por enjambre de
partı́culas no presenta convergencia en toda la población de partı́culas. Esto se debe a que se consideró
un valor más grande para c1 con respecto a c2 .
Una vez que se han escogido los parámetros, se pondrán a prueba con el resto de secuencias que
están bajo análisis para poder hacer una comparación con los otros dos algoritmos bioinspirados. Los
resultados bajo los parámetros w = 0.5, c1 = 0.7 y c2 = 0.1 usando la semilla 2,022 se muestran en la
tabla 4.10.
A partir de la tabla 4.10 se puede notar que este algoritmo no logra tener un buen rendimiento, además
de que éste disminuye cada vez que las secuencias de aminoácidos son más grandes, sin embargo en
CAPÍTULO 4. RESULTADOS 65

Figura 4.5: Evolución de PSO considerando c1 = 0.7,c2 = 0.1 y w = 0.5.

algunas de las secuencias existen repeticiones en las que se logró obtener un plegado que tiene una
energı́a que es muy cercana al mejor plegado reportado en la literatura.
CAPÍTULO 4. RESULTADOS 66

Figura 4.6: Diagrama de caja de optimización por enjambre de partı́culas considerando c1 = 0.7,c2 = 0.1
y w = 0.5 en la primera repetición

Secuencia Población Resultados Promedio Mejor reportado


S1 40 -8,-8,-4,-7,-6,-7,-6,-6,-8,-7,-6,-8 -6.75 -9
S2 40 -5,-6,-7,-6,-5,-6,-6,-4,-5,-6,-7,-6 -5.75 -9
S3 40 3,-3,-4,-5,-3,-3,-3,-3,-3,-5,-7,-5 -3.41666 -8
S4 50 -9,-7,-7,-13,-9,-8,-9,-7,-6,-9,-6,-2 -7.66666 -21
S5 100 -19, -15,-23 ,-17 ,-19, -28,-19 -22,-16, -13, -11, -11 -17.75 -53

Tabla 4.10: Resultados de optimización por enjambre de partı́culas para las cinco secuencias.

Otra forma de poder distinguir la manera en que cambian las mejores soluciones encontradas por
un algoritmo con respecto a otros es analizando cómo cambia la gráfica de los plegados que se logran
obtener. Para ilustrarlo se consideró a la secuencia S1 , fijando la semilla 2, 022 y bajo los parámetros
w = 0.5, c1 = 0.8 y c2 = 0.2 .
CAPÍTULO 4. RESULTADOS 67

En las figuras 4.7 y 4.8 se puede apreciar que este algoritmo presenta soluciones en las que una
variable tiende a repetirse dos o más veces en la mayorı́a de las ocasiones. Esto afecta su rendimiento
ya que como se verá más adelante, bajo el modelo de Dill, los plegados con menores valores de energı́a
tienden a formar estructuras más compactas. En la figura 4.7 se muestra el mejor plegado encontrado
por este algoritmo para la secuencia S4 . Cómo se puede apreciar, las variables veintitrés, veinticuatro,
veinticinco y veintiséis toman el valor de 3. Y esto sumado a que las siguiente variables no toman el
valor de 1 sino hasta después de haber expandido el plegado, se tiene que los últimos aminoácidos de la
secuencia estén muy desplazados hacia la izquierda

Figura 4.7: Evolución grafica de PSO para la secuencia S4 .

Por otra parte, para la secuencia S1 en la figura 4.8, se puede ver que algunas variables consecutivas
tienden a compartir el mismo valor, en este caso son las variables cuatro, cinco, seis y siete, ya que todas
suelen tomar el valor de 3 y esto se presenta en las últimas cinco estructuras. En este algoritmo, al haber
considerado el valor de c1 = 0.7 y c2 = 0.1 es muy probable que las mejores posiciones encontradas se
deban gracias a la exploración de algún miembro del enjambre en particular.
CAPÍTULO 4. RESULTADOS 68

Figura 4.8: Evolución del plegado usando PSO para la secuencia S1 .

4.3. Resultados para optimización por colonia de hormigas (ACO)

Para la implementación de optimización por colonia de hormigas los parámetros que pueden variar
son α, β , el número de hormigas, y el valor de ∆. De nueva cuenta se valuaron los parámetros para la
secuencia S1 y en todos los casos se usó la semilla 2, 022. De acuerdo a los resultados observados en la
CAPÍTULO 4. RESULTADOS 69

tabla 4.11 los valores de los parámetros en los que se observó que hay un mejor desempeño para este
algoritmo fueron al considerar α = 1, β = 3, ρ = 0.01 y ∆ = 0.002 o ∆ = 0.1.

Población α β ρ ∆ Resultados Promedio


40 2 4 0.001 0.002 -8,-7,-8, -8,-7,-8, -7,-7,-8,-8,-8,-8 -7.6666
40 1 2 0.01 0.002 -7,-8,-9,-8,-8,-8,-8,-8,-8,-8,-8,-8 -8,
40 2 2 0.01 0.002 -7,-8,-7,-6,-8,-7,-7,-8,-8,-6,-7,-8 -7.25
40 3 2 0.01 0.002 -7,-6,-6,-6,-7,-7,-8,-7,-7,-7,-7,-6 -6.75
40 5 2 0.01 0.002 -6,-7,-6,-6,-7,-7,-6,-6,-7,-6,-6,-6 -6.333
40 7 2 0.01 0.002 -6,-6,-5,-6,-5,-6,-6,-7,-5,-6,-6,-7 -5.9166
40 1 1 0.01 0.002 -8,-8,-8,-7,-7,-8,-8,-8,-7,-8,-7,-8 -7.66666
40 1 2 0.01 0.002 -8,-8,-7,-8,-8,-8,-8,-8,-8,-8,-8,-8 -7.91666
40 1 3 0.01 0.002 -8,-9,-8,-9,-8,-9,-8,-9,-9,-8,-8,-8 -8.41666
40 1 5 0.01 0.002 -8,-9,-8,-8,-9,-9,-8,-8,-8,-8,-8,-8 -8.25
40 1 7 0.01 0.002 -9, -8,-9,-8,-9,-8,-8,-8,-8,-8,-8,-8 -8.25
40 1 3 0.1 0.002 -8,-8,-8,-8,-8,-8,-9,-8,-8,-8,-8,-8 -8.083333
40 1 3 0.05 0.002 -8,-9,-8,-8,-9,-8,-8,-9,-8,-8,-8,-8 -8.25
40 1 3 0.01 0.002 -8,-8,-9,-8,-8,-8,-9,-8,-9,-8,-8,-8 -8.25
40 1 3 0.001 0.002 -8,-8,-9,-9,-8,-8,-8,-8,-8,-8,-8,-8 -8.16666
40 1 3 0.00001 0.002 -8,-8,-8,-8,-8,-8,-8,-8,-9,-8,-8,-9 -8.16666
40 1 3 0.01 0.1 -8, -8,-9,-8,-9,-8,-9,-9,-8,-8,-8,-9 -8.41666
40 1 3 0.01 0.01 8,-8,-8,-8,-8,-8,-8,-8,-8,-8,-8,-8 -8
40 1 3 0.01 0.001 -9,-8,-8,-8,-8,-9,-8,-9,-8,-8,-8,-8 -8.25
40 1 3 0.01 0.0001 -8,-9,-8,-9,-8,-9,-8,-8,-9,-8,-8,-8 -8.333333
40 1 3 0.01 0.000001 -8,-8,-8,-8,-8,-9,-9,-8,-9,-8,-8,-8 -8.25

Tabla 4.11: Resultados variando los parámetros de ACO

Con el propósito de ilustrar cómo evoluciona la energı́a desplegada por el plegado con mı́nima energı́a
que es encontrada por este algoritmo en la figura 4.9 se muestra la evolución para tres repeticiones
del algoritmo en una instancia en la que se consideró hacer doce repeticiones con poblaciones de 40
individuos y mil generaciones. Los parámetros toman los valores α = 2, β = 4, ρ = 0.001 y ∆ = 0.0002.
En estas gráficas se puede apreciar que el algoritmo por lo general converge rápidamente además de que
en las últimas generaciones los resultados no suelen ser mejores que en las primeras. Por ello se decidió
acotar cada una de las repeticiones a un total de 200 generaciones, para las secuencias más largas de
aminoácidos.
CAPÍTULO 4. RESULTADOS 70

Figura 4.9: Evolución de optimización por colonia de hormigas considerando α = 2, β = 4, ρ = 0.001


y ∆ = 0.0002
CAPÍTULO 4. RESULTADOS 71

Además, en la figura 4.10 se muestra un diagrama de caja para la cuarta repetición con los mismos
parámetros mencionados anteriormente, en donde se puede apreciar que el algoritmo empieza a conver-
ger antes de la iteración número 50. El motivo de la convergencia puede deberse a la forma en que se
construyó la información heurı́stica, pues ésta podrı́a favorecer las interacciones hidrofóbicas entre los
primeros aminoácidos hidrofóbicos lo que restringe el espacio de búsqueda, y lo que a lo largo de las
generaciones puede provocar que la matriz de feromona sea sesgada hacia ciertas variables.

Figura 4.10: Diagrama de caja para optimización por colonia de hormigas considerando α = 2, β = 4,
ρ = 0.001 y ∆ = 0.0002

Con el fin de ilustrar como evoluciona el plegado encontrado por la colonia se muestran los resultados
de la tercera repetición, considerando los parámetros α = 1, β = 2, ρ = 0.01 y ∆ = 0.002 en donde se
logró encontrar el mejor valor reportado en la literatura. En este algoritmo bioinspirado no es posible
encontrar semejanza entre los distintos plegados obtenidos, pero se observó que el rastro de feromona
que une a una variable con la variable que la “anula”tiende a ser evaporado con mayor rapidez, por lo
que la información heurı́stica puede tener mayor relevancia conforme transcurren las generaciones.
CAPÍTULO 4. RESULTADOS 72

Figura 4.11: Un ejemplo de la evolución del plegado en ACO

Se seleccionaron los parámetros α = 1, β = 3, ρ = 0.01 y ∆ = 0.001 para poder encontrar el plegado


para las otras cuatro secuencias; los resultados se muestran en la tabla 4.12. Este algoritmo, muestra los
mejores resultados, sin embargo, por la forma en que se construyó la información heurı́stica implica un
alto costo computacional.
CAPÍTULO 4. RESULTADOS 73

Secuencia Notas Resultados Promedio Optimo


S1 40 -8,-9,-8,-9,-8,-9,-8,-9,-9,-8,-8,-8 -8.41666 -9
S2 250 gen -8,-8,-7,-8,-8,-8,-8,-9,-8,-8,-7,-7 -7.833333 -9
S3 40 -6,-5,-7,-5,-7,-5,-6,-5,-5,-7,-6,-6 -5.83333 -8
S4 50 -15,-16,-16-16,-15,-16,-16,-16,-15,-17,-15,-15 -15.666 -21
S5 100 -38,-40,-40,-42,-39,-39,-40,-43,-39,-39,-38,-38 -39.58333 -53

Tabla 4.12: Resultados de ACO para las cinco secuencias

Por último se muestran por separado los mejores plegados encontrados para las cinco secuencias con-
sideradas. A partir de ellos se pueden realizar algunas observaciones importantes: se logró encontrar el
plegado con el valor mı́nimo reportado para las secuencias S1 , S2 y S3 , los cuales se muestran en las
figuras, 4.12, 4.13 y 4.14 y en donde se puede ver que los aminoácidos hidrofóbicos tienden a encon-
trarse rodeados por aminoácidos polares, dicho de otra forma, las interacciones hidrofóbicas tienen a
permanecer dentro de la estructura definida por el plegado.

Figura 4.12: Mejor plegado reportado para la secuencia S1


CAPÍTULO 4. RESULTADOS 74

Si bien en las estructuras de las secuencias S4 y S5 no son las que desprenden el mejor valor reportado
en otros trabajos es posible notar que en las regiones de la estructura en donde se presenta el mayor
número de interacciones hidrofóbicas comparten la tendencia a conservar a los aminoácidos hidrofóbicos
en el núcleo de la estructura.

Figura 4.13: Mejor plegado reportado para la secuencia S2


CAPÍTULO 4. RESULTADOS 75

Figura 4.14: Mejor plegado reportado para la secuencia S3


CAPÍTULO 4. RESULTADOS 76

Figura 4.15: Plegado con energı́a de −18 para la secuencia S4 (la cual tiene un mejor valor reportado de
−21)
CAPÍTULO 4. RESULTADOS 77

Figura 4.16: Plegado con energı́a de −43 para la secuencia S5 (con un mejor valor reportado de −53)
Conclusiones

El problema de plegado de proteı́nas bajo el enfoque propuesto por Dill tiene un espacio de búsqueda
de 4n−1 , pero este espacio tiene muchas soluciones que no son factibles, este inconveniente fue abordado
con éxito al implementar los operadores de recombinación y mutación propuestos en algoritmos genéti-
cos, esto debido a que al implementar la variante más simple de este algoritmo se encontraron soluciones
que no son mejores que las encontradas con los dos operadores propuestos. El algoritmo genético tuvo
un mejor desempeño al implementar selección por ruleta, sin embargo el rendimiento de las otras dos
variantes fue competitivo al considerar los parámetros adecuados. Con los operadores propuestos de cru-
za y mutación el algoritmo no suele converger a la mejor solución reportada en secuencias grandes de
aminoácidos, pero sı́ a soluciones cercanas.
Lo operadores de mutación y recombinación propuestos tenı́an el propósito de evitar los empalmes de
manera consecutiva, si se modificaran estos operadores para evitar cualquier posibilidad de empalme el
algoritmo genético probablemente tenga mejores resultados, pero el tiempo de ejecución incrementarı́a
al tener que verificar que no haya empalmes, y si además los operadores buscaran crear más interacc-
ciones hidrofóbicas el tiempo de ejecución serı́a aún más alto, por último al considerar estas hipotéticas
alternativas no se garantiza que no haya un estancamiento en un óptimo local.
Por otra parte en la implementación de optimización por enjambre de partı́culas, al aplicar el operador
de velocidad sobre cada variable del vector perteneciente al conjunto {1, 2, 3, 4}n−1 , se obtenı́an plegados
que formaban una lı́nea recta sin importar que se realizaran redondeo o módulo con el fin de que los
valores obtenidos con los operadores de velocidad estuvieran dentro del espacio de búsqueda, pero al
aplicar el operador de velocidad sobre los puntos en R2 que forman el plegado, se logró que el algoritmo
encontrara soluciones factibles, que se acercan a las mejores soluciones reportadas en otros algoritmos en
secuencias que consideran pocos aminoácidos, pero que conforme crecen las secuencias las soluciones
encontradas con este algoritmo no son tan buenas, pues el algoritmo tiende a expandir los plegados, lo
cual en este problema no es bueno ya que se ve cierta tendencia a que el plegado óptimo no abarque

78
CAPÍTULO 4. RESULTADOS 79

demasiado espacio. Pero los resultados no son tan malos si se toma en consideración que este algoritmo
está diseñado para resolver problemas de optimización continua.
Al considerar la implementación de optimización por colonia de hormigas se logró alcanzar valores
con energı́a muy baja en pocas iteraciones, sin embargo debido a que la información heurı́stica se tiene
que calcular conforme se van construyendo las soluciones este algoritmo tiende a estancarse en pocas
iteraciones. Además se observó que la matriz de feromona tiende a tener entradas con concentraciones
muy altas de feromona lo que contribuye a que la población converja muy rápido.
Se pudo comprobar que el modelo propuesto por Dill va de la mano con la hipótesis de Anfinsen al
considerar que el plegado óptimo es aquel que tiene menor energı́a, además de que las estructuras idóneas
tienden a mantener a los aminoácidos hidrofóbicos dentro de la estructura.

Trabajos a futuro

Para mejorar el rendimiento de los algoritmos genéticos es posible hibridizarlos, si se combina con un
algoritmo de búsqueda local, la cual podrı́a estar enfocada en evitar que haya regiones de la estructura
con empalme. Además se podrı́a diseñar la mutación de forma que evite cualquier tipo de empalme o
tratando de generar interacciones hidrofóbicas.
En el caso de optimización por enjambre de partı́culas existe la posibilidad de ir actualizando la
posición de los aminoácidos que ocupan posiciones posteriores dentro de la secuencia de aminoácidos
al mismo tiempo en que se calcula la velocidad de la componente actual. O existe la alternativa de usar
la velocidad para modificar únicamente cierta región del plegado de manera que se asemeje más a esa
región pero considerando la mejor solución encontrada por todo el enjambre o que se apegue más a la
mejor solución encontrada por la partı́cula.
Para mejorar el desempeño de optimización por colonia de hormigas es posible usar el mismo enfoque
pero usando alguna de las demás variantes, ya sea max-min ant system o usando una regla de construcción
pseudo aleatoria. Además se podrı́a evitar la convergencia prematura al considerar la implementación de
búsqueda local.
Bibliografı́a

[1] A NFINSEN C.B, The kinetics of formation of native ribonuclease during oxidation of the reduced
polypeptide chain, Procedings of the National Academy of Sciences. 1961.

[2] A LAS - GUARDADO S. , ROJO A. & M ERINO G. , La paradoja de Levinthal:


cuando una contradicción se vuelve lógica. Educación quı́mica, 22(1), 51-54.
https://doi.org/10.22201/fq.18708404e.2011.1

[3] C ARDELL Á L. & H ERN ÁNDEZ R., Bioquı́mica Médica, Editorial Ciencias Médicas. 1999.

[4] D ILL K. A. & L AU K.F., A lattice statistical mechanics model of the conformational and
sequence spaces of proteins , Macromolecules, 1989.

[5] D ULAL J. N, DAS S. & S IL J., A Metaheuristic Approach to Protein Structure Prediction ,
Springer, 2018.

[6] E BERHART R. & K ENNEDY J. , Particle Swarm Optimization , Procedings of International


conference of Neural Networks, 1995. Pp, 1942-1948.

[7] G ENDREAU M. & P OTVIN J. Y. , Handbook of Metaheuristics , D ORIGO M. & S T ÜTZLE T. ,


Ant colony optimization: overview and recent advances , Springer, 2019.

[8] G OLDBERG D. E. , Genetic algorithms in Search, Optimization and Machine Learning , Addison-
Wesley Publishing Company, 1989.

[9] H OWELLS J. R. & B UCKIUS R. O., Principios de termodinámica para ingenierı́a., McGraw
Hill, 1990.

[10] K RAMER O., Genetic algorithm essentials , Springer, 2017.

[11] K URI A. & G ALAVIZ J. , Algoritmos genéticos , Fondo de Cultura Económica. 2002.

80
BIBLIOGRAFÍA 81

[12] M C K EE T. & M C K EE J. R. , Bioquı́mica, las bases moleculares de la vida , McGraw Hill,


2020.

[13] PARSOPOULUS & V RAHATIS M. N., Particle swarm optimization and intelligence: advances
and applications , IGI Global, 2010.

[14] R EEVES C. & ROWE J. E. , Genetic algorithms : principles and perspectives : a guide to GA
theory , Springer, 2003.

[15] S IVANANDAM S. N. & D EEPA . S. N. , Introduction to Genetic Algorithms , Springer, 2008.

[16] S UN J., L AI C.H. & W U X. J. , Particle swarm optimisation: classical and quantum perspec-
tives , CRC press, 2004

También podría gustarte