Anotação Gênica-Bioinformatica 3
Anotação Gênica-Bioinformatica 3
Anotação Gênica-Bioinformatica 3
Descrição
Estudo de dados biológicos abordando bancos de dados, anotação genômica e ciências ômicas.
Propósito
Conhecer os processos pelos quais os dados biológicos passam e onde é possível acessá-los é
essencial
para a ampla compreensão das informações biológicas e para a consulta de fontes confiáveis
de pesquisa.
Além disso, a partir do estudo das ciências ômicas o aluno estará atualizado em relação
aos avanços
científicos nesta área.
Objetivos
Módulo 1
Módulo 2
Conceitos e aplicações das ciências ômicas
Reconhecer os conceitos e aplicações das ciências ômicas.
Introdução
Você lidará frequentemente com dados biológicos, como, por exemplo, as sequências de
aminoácidos,
as estruturas tridimensionais de proteínas ou o esquema de uma via metabólica,
ao desenvolver artigos
científicos. É muito importante saber como podemos ter acesso a
fontes confiáveis desses dados e
como utilizá-los. Como a ciência está em constante
evolução, novos tipos de dados são gerados
proporcionalmente a esse avanço, e isto em larga
escala.
Neste conteúdo você entenderá o que são bancos de dados biológicos e como esses dados são
empregados, por exemplo, no processo de anotação genômica. Você também irá se atualizar
quanto às
novas tendências de geração de dados biológicos e como elas podem melhorar, e
muito, nossa vida,
ajudando no diagnóstico de doenças, em novos tratamentos e até na melhor
qualidade de vida.
1 - Banco de dados e anotação genômica
Ao final deste módulo, você será capaz de empregar bancos de dados biológicos para
anotação genômica.
Banco de dados
Vivemos em uma sociedade que produz uma quantidade gigantesca de dados. O número dos seus
documentos, suas fotos em redes sociais, seus e-mails, as palavras que você procura em
aplicativos de
busca, e as músicas que você escuta são exemplos de dados. Profissionais
conhecidos como cientistas de
dados são especializados em “cuidar” desses registros, desde o
armazenamento, passando pela obtenção
de informação, pelo conhecimento, pela visualização,
até o descarte.
Dados são fatos coletados que podem ser armazenados. A informação é o dado que estava
armazenado e
foi recuperado de acordo com algum interesse. Por fim, o conhecimento é gerado
quando a informação é
interpretada, quando novas conexões são feitas a partir de uma
informação que já existia.
Exemplo
Uma vez que os dados são produzidos, eles precisam ser armazenados para serem revisitados
quando
necessários. Logo, bancos de dados são arquivos de
computador que armazenam e organizam dados
para
que possam ser recuperados facilmente de acordo com diferentes
critérios de busca.
Exemplo
Os programas de computador, portanto, podem lidar com os dados de forma rápida e eficiente.
Por meio
deles você consegue, em segundos, acessar e visualizar todas as informações sobre
determinada
sequência que estão armazenadas em diferentes tabelas. Pode ser usado como
critério de busca qualquer
um dos campos relacionados a essa sequência, como seu número de
identificação. Veja o exemplo a seguir.
O primeiro banco de dados biológico foi criado por Margaret Dayhoff e por seus
colaboradores. Ela é
considerada uma das criadoras da bioinformática. Dayhoff foi PhD em
Química quântica pela Universidade
de Columbia, nos EUA, onde surgiu um dos primeiros
laboratórios de computação do país. Combinando
seus conhecimentos em Química com as
ferramentas computacionais disponíveis, ela liderou um projeto no
qual usava programas de
computador para comparar sequências parciais de peptídeos e, assim, tentar
montar proteínas
completas.
Após publicar as sequências de algumas proteínas e as suas relações, Margaret quis reunir
todas as
sequências disponíveis a fim de que os pesquisadores pudessem ter acesso a esses
dados mais
facilmente. Ela começou a vasculhar registros em papel e a conferir as sequências
que outros colegas já
haviam descrito, contando com a ajuda de um computador para realizar
essas verificações.
Disponibilidade de acesso
Conteúdo armazenado
Conteúdo
Considerando o conteúdo armazenado, os bancos de dados biológicos podem ser classificados como:
Qualidade
A qualidade dos dados biológicos varia entre os diferentes bancos. Aqueles classificados como:
São considerados não curado pois contêm dados brutos, não passaram por uma
inspeção de
especialistas na área capazes de realizar a curadoria dos dados.
“Pela etimologia, o termo curadoria,
a partir de sua origem no latim
curare, significa cuidar, zelar, tratar” (BARDIN, 2010, p. 138).”
São considerados curados pois contêm dados que passaram por algum processo de
curadoria, o que
agregou valor ao conteúdo disponibilizado. Alguns exemplos
de “valores” agregados a dados
primários pela curadoria incluem:
A curadoria dos dados biológicos pode ser feita apenas por meio de computador ou de
interferência
humana. Existem programas de computador capazes de identificar o início e o
fim de um gene dentro de
uma longa sequência de nucleotídeos.
Você pode encontrar diferentes classificações dos bancos de dados biológicos em outras
referências
bibliográficas, mas de forma geral elas vão sempre abordar os critérios que
acabamos de ver: acesso,
conteúdo e qualidade dos dados. A seguir, discutiremos exemplos, a
fim de que os conceitos apresentados
até aqui façam mais sentido para você.
sequências de nucleotídeos;
estruturas tridimensionais.
Todos os exemplos de bancos dos quais falaremos agora passaram por uma curadoria mínima,
feita apenas
por programas de computador de forma automatizada. Em todos eles o acesso aos
dados é completamente
livre, o usuário pode ler as informações, baixar para seu próprio
computador e analisá-la da melhor forma
para atender ao seu interesse específico.
Atenção
É importante lembrar que esses bancos são “alimentados” por pesquisadores do
mundo todo. Os bancos
em si não se responsabilizam por avaliar situações de
patentes, direitos autorais ou outros direitos de
propriedade intelectual dos
dados que foram enviados. Portanto, no portal dos bancos você não vai
encontrar
comentários ou permissão irrestrita com relação ao uso, à cópia ou à
distribuição das
informações que eles contêm.
Os principais bancos de sequências de nucleotídeos com o perfil apresentado nessa seção são
os bancos
de sequência mantidos pelo:
NCBI (National Center for Biotechnology Information)
Esses bancos colaboram entre si e estão conectados, mesmo sendo administrados por
organizações
diferentes. Juntos eles formam a Colaboração Internacional de Bancos de Dados
de Sequências de
Nucleotídeos (International Nucleotide Sequence Database Collaboration,
INSDC). Isso significa que se você
procurar por um determinado tipo de sequência no portal
de qualquer um desses bancos terá acesso ao
mesmo conjunto de dados.
Para fazer sua pesquisa basta acessar um site de busca, como o Google, e digitar
a sigla do banco de dados
(GenBank, NCBI, ENA e EMBL ou DDBJ). Um dos primeiros
resultados já é o hiperlink que o direcionará para
o portal do banco. Uma das
formas de encontrar a sequência de nucleotídeos que você deseja é por meio
do
emprego de palavras-chave que estariam presentes na descrição daquela sequência.
Exemplo
O GenBank armazena sequências primárias de nucleotídeos enviadas ao NCBI por
pesquisadores do mundo
todo. Após passar pelo crivo de uma inspeção automática,
feita somente por programas de computador, as
sequências recebem um número de
acesso exclusivo e são liberadas. Para ter acesso a essas sequências
basta
entrar na página inicial do banco de dados e digitar palavras, siglas ou outro
tipo de texto que se
relacione ao seu tema de interesse. Em seguida basta
selecionar a opção “procurar” (search), para que a
página com os
resultados se abra.
Uma diferença importante entre os bancos de dados que compõe o INSDC é a forma como seus
dados
podem ser armazenados. O formato de um arquivo indica as regras de como o dado
armazenado deve ser
“escrito”, registrado. Em bancos de dados de sequências primárias, o
formato FASTA está sempre
disponível. Por outro lado, existe a opção de o usuário obter o
dado em outro formato, que seja específico de
determinado banco. Por exemplo, o GenBank é o
nome dado a um tipo de formato de arquivo usado pelo
NCBI (o mesmo nome de
um dos seus bancos de dados), e o EMBL é o nome do formato exclusivo da
organização que possui a mesma sigla (EMBL). A seguir, veremos os formatos disponíveis para
a mesma
sequência de nucleotídeos.
Formato EMBL
Formato FASTA
Formato GenBank
v
Atenção
O Banco de Dados de Proteínas, PDB (Protein Data Bank), é o banco primário que
centraliza as informações
sobre estrutura 3D de moléculas biológicas. Ele é
administrado pela Pesquisa Colaborativa para
Bioinformática (Estrutural Research
Collaboratory for Structural Bioinformatics, RCSB). Para você ter uma
ideia da
“soberania” de estruturas de proteínas no PDB, em agosto de 2021 existiam
158.145 submissões
disponíveis de estruturas proteicas, enquanto que para DNA e
RNA eram 2.094 e 1.555 estruturas,
respectivamente.
Conhecer a estrutura 3D de uma molécula biológica é importante para entender com o que ela
pode interagir
e sua possível localização na célula. Essas características permitem
compreender a sua função biológica.
A proteína hemoglobina, por exemplo, presente nas hemácias e responsável pelo transporte de
oxigênio
pelo corpo, regula a ligação e liberação dessa molécula de acordo com mudanças na
sua estrutura.
Por exemplo, você pode digitar collagen (colágeno) e em seguida clicar no símbolo da
lupa. A página que se
abre contém hiperlinks que vão levar para a página de
diferentes estruturas dessa proteína. Para cada
estrutura você tem acesso a informações
como: hiperlink para o artigo onde foi publicada, detalhes sobre a
metodologia usada
obter a estrutura, dentre outros. O principal dado é o arquivo com a localização de cada
átomo relativo aos demais na molécula: na parte superior existe a opção Download
Files (Baixar Arquivos),
ao clicar nela você deve escolher o formato PDB (PDB
Format), como mostra a figura a seguir:
O nome do formato desse arquivo (PDB) é o mesmo nome do banco de dados. Dentre outras
informações,
nele encontramos:
O nome da proteína
Os detalhes do experimento
A estrutura secundária
Os cofatores
A diferença entre os bancos secundários é o quanto os dados foram processados por programas
de
computadores e se houve presença do olhar clínico de um especialista validando essas
informações. As
organizações que mantêm esses bancos podem restringir algum tipo de
informação processada, exigindo o
pagamento de uma licença para o acesso integral aos dados,
por exemplo. Vamos estudar agora dois
desses bancos.
UniProtKB
O UniProtKB (UniProt Knowledgebase) é o principal banco de dados do consórcio Recurso
Universal de
Proteínas (Universal Protein Resource). Esse banco armazena um amplo
conjunto de sequências primárias
de proteínas e suas funções biológicas
associadas. Ao acessá-lo e pesquisar sobre uma determinada
proteína, você terá
acesso a sequências de aminoácidos dessa biomolécula e saberá qual é o seu papel na
célula.
O UniProtKB é dividido em dois bancos menores:
TrEMBL
close
Swiss-Prot
Atenção
O UniProtKB é o principal banco usado quando os cientistas querem ter acesso a
uma ampla coleção de
proteínas. Você pode fazer isso buscando pelo nome do banco
em portais de busca e usar o hiperlink que o
levará até a página inicial.
Como mostrado a seguir, na página de entrada você encontra uma barra em que pode digitar
termos para
realizar a busca por proteínas. Outra opção de busca é a ferramenta de
alinhamento BLAST, caso você
deseje encontrar similaridade entre uma sequência de proteína
de seu interesse com as proteínas
armazenadas no UniProtKB.
Ao clicar em um desses códigos de identificação, será aberta uma página com muitas
informações sobre
aquela proteína, como:
função;
nomenclatura usada;
localização na célula;
KEGG
O último banco de dados que vamos abordar aqui será o KEGG (Kyoto Encyclopedia of Genes and
Genomes). Esse banco é bem completo, e apresenta diferentes tipos de dados, com o
intuito de
compreender a função e a utilidade dos sistemas biológicos. Apesar
da abrangência atual do KEGG, ele é
mais conhecido como um banco de vias metabólicas, pois
esse foi o propósito da sua criação.
Página inicial do KEGG.
Os dados iniciais utilizados pelo KEGG são principalmente sequências genômicas, que depois
passam por
uma série de análises realizadas por diferentes programas de computador e por
profissionais especialistas.
Todos os dados produzidos são então organizados e
disponibilizados. Veja, a seguir, alguns exemplos de
coleções de dados que podemos encontrar
nesse banco:
Outros repositórios que podemos encontrar no KEGG tratam de dados como doenças, pequenas
moléculas,
relações entre doenças, drogas, dentre outros.
Além de dados, no portal do KEGG estão implementadas ferramentas computacionais que permitem
que o
usuário faça análises variadas. Você pode, por exemplo, usar o KEGG Mapper para
observar onde uma
proteína que você esteja estudando se encontra dentro de alguma das vias
metabólicas armazenadas no
KEGG Pathway.
Usando um site de busca, como o Google, você digita o termo “KEGG” e um dos primeiros
hiperlinks o levará
ao portal desse banco de dados. Já na página inicial, é possível
buscar por uma proteína de seu interesse
por meio de termos relacionadas a ela, como seu
nome. Ao digitar “lactase” na barra da página inicial e
clicar em “Procurar”
(Search), diferentes dados armazenados nas coleções do KEGG são mostrados. Para
saber
mais sobre eles, basta clicar no número de identificação em azul, e uma próxima página com
mais
detalhes se abre.
Vamos falar agora de como associar os detalhes sobre a função de proteínas aos dados de
sequências de
nucleotídeos obtidas por sequenciamento.
Anotação genômica
A anotação de genomas identifica regiões funcionais ou de relevância biológica,
agregando informações ao
DNA sequenciado. Esse processo é realizado depois que a
ordem dos nucleotídeos a partir do
sequenciamento total do DNA de um organismo
já foi determinada.
Imagine a anotação do genoma como a leitura de um texto em um idioma que você não conhece. A
cada
palavra você vai precisar usar um dicionário para descobrir seu significado em
português. Feito isso, é
provável que você faça pequenas anotações sobre os significados em
um papel durante a leitura. Da
próxima vez que você ou qualquer outra pessoa utilizar esse
papel para a leitura do texto, vai compreendê-lo
sem precisar refazer as traduções. A
anotação genômica pode ser dividida em duas etapas:
filter_1
Predição gênica
É a etapa na qual se busca onde estão os genes ao longo da sequência do
DNA total.
filter_2
Anotação funcional
Visa descrever a função biológica da proteína codificada por aquele
determinado gene.
No exemplo do texto em outro idioma você já sabia o início e o fim de cada palavra, pois
existia um espaço
entre elas. O genoma sequenciado é como um “texto corrido”, sem espaço
entre as bases nitrogenadas. Por
isso, é necessária a etapa de predição de genes, antes de
entender o que eles “significam” para o organismo
estudado.
Predição gênica
Prever um gene é encontrar as bases nitrogenadas que marcam o início o fim dessa região do
DNA. É
importante recordarmos que a sequência de bases nitrogenadas de um gene guarda
informações para:
Neste conteúdo, discutiremos como podemos predizer genes que determinam a sequência de
aminoácidos
em uma proteína (genes para RNAs mensageiros), também chamados de sequências codificadoras de
proteínas (CDS, CoDing Sequence).
Existem diferentes programas de computador usados para a predição de genes ao longo de uma
sequência
de DNA. As estratégias usadas por essas ferramentas são variadas, e iremos
apresentar alguns exemplos.
Códon de início
close
Códons de parada (stop)
Exemplo
São as sequências no DNA que serão transcritas e usadas para adesão dos
ribossomos ao RNA
mensageiro. Em procariotos, essa sequência é
chamada de sequência de Shine-Dalgarno ou RBS (Ribosome
Binding Site), e
costuma incluir a sequência AGGAGGT (DNA). Já em eucariotos os
ribossomos se ligam em
regiões chamadas de sequência de Kozak, o que inclui a
sequência CCGCCATGG (DNA).
Muitas outras diferenças podem ser destacadas comparando a organização genética entre esses
grupos,
como:
a diferença na densidade de genes ao longo do DNA (os genes estão mais “espaçados” nos
eucariotos).
Por isso, existem programas de computador que são específicos para predição de procariotos
ou de
eucariotos. Nas figuras a seguir, vemos as diferenças entre a organização gênica de:
Organização gênica de procariotos
Anotação funcional
O processo de anotação funcional consiste na atribuição de função aos genes
codificadores de proteínas.
Após identificar os possíveis genes e suas
respectivas sequências proteicas, a estratégia adotada para
anotação funcional é
a comparação com as sequências disponíveis em bancos de dados biológicos.
Atenção
Bancos de sequências costumam implementar em seus portais ferramentas de
alinhamento, como o
BLAST, e isso permite que o usuário possa buscar dados
usando sequências biológicas como “pergunta”. A
sequência pergunta será, então,
comparada às sequências conhecidas e confiáveis de um banco de dados.
Voltando para a analogia de comparar a anotação funcional à busca pelo significado de uma
palavra
desconhecida, você só vai realmente saber o que a palavra significa se encontrar no
dicionário exatamente a
mesma palavra, comparando letra por letra.
A etapa de anotação funcional pode confirmar os resultados da predição gênica. Caso você
encontre no
banco de dados uma sequência de referência bastante similar à sua sequência de
interesse, é possível
descrever a função do seu gene com base na função descrita para a
referência.
Suponha que você está estudando um organismo com genoma recém-sequenciado. A partir do
alinhamento
de sequência no UniProtKB/Swiss-Prot, a tradução de um dos seus genes é 99%
idêntica à uma proteína
com a função de "transferência fotossintética de elétrons
C". No KEGG, é possível observar que essa função
está inserida no metabolismo
da fotossíntese, e assim você pode sugerir que seu organismo de interesse é
autotrófico,
isto é, capaz de transformar gás carbônico em glicose e oxigênio.
Atenção
Um critério comumente adotado para que possa ocorrer a “cópia” da função da
proteína do banco de dados
para a sua proteína de interesse é o valor de
similaridade igual ou maior que 70%. É possível que ao realizar
a busca por
sequências similares você não encontre nenhum resultado aceitável segundo esse
critério. Se
isso acontecer, você irá anotar sua proteína como hipotética ou
predita.
As informações obtidas durante a anotação funcional podem ser guardadas em arquivos com
formatos
específicos. Um exemplo de arquivo que contém informações da anotação genômica é o
GenBank (mesmo
nome do banco de dados presente no NCBI), como observado na imagem a seguir.
No arquivo GenBank
encontramos as coordenadas de cada uma das características anotadas ao
longo da sequência de DNA.
Exemplo
Ao observar um arquivo anotado de um plasmídeo bacteriano, você pode encontrar
que entre as bases
nitrogenadas 2.652 e 3.532 está presente o gene kpc. Sobre
esse gene também podem estar registradas
informações como o seu produto ou
proteína correspondente (no caso, a enzima KPC que destrói
antibióticos), o
código de acesso para o registro da proteína em outro banco de dados e a
sequência
traduzida de aminoácidos.
video_library
Anotação genômica utilizando bancos de dados
biológicos
Neste vídeo, a especialista Melise Chaves Silveira mostra as etapas de anotação genômica,
utilizando
bancos secundários na etapa de anotação funcional.
playlist_play
Vem que te explico!
Os vídeos a seguir abordam os assuntos mais relevantes do conteúdo que você acabou de estudar.
MÓDULO 1
A Curado.
B Especializado.
C De acesso restrito.
D Secundário.
E Primário.
A Extração do DNA -> sequenciamento genômico -> predição gênica -> anotação funcional.
B Sequenciamento genômico -> predição gênica -> anotação funcional -> extração do DNA.
C Extração do DNA -> predição gênica -> sequenciamento genômico -> anotação funcional.
D Predição gênica -> extração do DNA -> anotação funcional -> sequenciamento genômico.
E Extração do DNA -> sequenciamento genômico -> anotação funcional -> predição gênica.
Organizar
Armazenar
Analisar
Visualizar
Interpretar
Resposta
A resposta para essas perguntas está nas outras moléculas biológicas presentes
na célula, como RNAs,
proteínas e metabólitos. Hoje vivemos o que é chamado de
“era pós-genômica”, com o desenvolvimento e o
aperfeiçoamento de técnicas e de
programas que nos permitem estudar outras ciências ômicas.
Genômica
Chamamos de genômica a análise completa de todo o DNA de um organismo,
também chamado de
genoma. Essa mesma lógica segue para os demais tipos
de informação, e daí surgiram termos como
transcriptômica, proteômica e
metabolômica.
Transcriptômica
Após compreender que o DNA guarda todas as informações hereditárias de
um organismo, é importante
lembrar que a expressão dessa informação é
regulada pelas condições do meio onde a célula está
inserida. O produto
da expressão dos genes no DNA são os transcritos, moléculas de RNAs.
A
transcriptômica tem como alvo o conjunto de RNAs
produzidos por uma célula sob determinadas
condições. Na prática, o RNA
mensageiro é o tipo de RNA mais estudado aqui.
Proteômica
Quando desejamos uma abordagem mais direta para compreender as funções
celulares é indicado
estudar o conjunto de proteínas. São elas que
efetivamente “trabalham duro” na célula, realizando
transporte de
moléculas, catalisando reações químicas, recebendo mensagens, formando
estruturas e
desempenhando muitas outras funções. A proteômica é
o estudo do conjunto de proteínas produzidos
por uma célula
num dado momento.
Metabolômica
Os produtos intermediários ou finais das reações químicas que acontecem
numa célula são chamados de
metabólitos. Em geral, quando falamos do
metaboloma, estamos nos referindo a moléculas pequenas, de
baixa massa
molecular, como aminoácidos, nucleotídeos, ácidos biliares, ácidos
graxos e hormônios. O
termo metabolômica abrange o estudo dos
metabólitos de uma célula sob determinadas perturbações.
Novas áreas ômicas surgem a todo momento, com o aumento da especificidade dos estudos
biomédicos.
Já existe, por exemplo:
Farmacogenômica
Com objetivo de determinar alterações genéticas responsáveis pela resposta dos
pacientes a
medicamentos.
Lipidômica
Toxicogenômica
Técnicas utilizadas
Os dados brutos processados pelos programas de computador são obtidos a partir de
técnicas
experimentais. Cada área ômica foca em um tipo de dado. Portanto, as técnicas
usadas não serão as
mesmas. Veja as abordagens mais utilizadas em cada área.
A genômica evoluiu muito mais rápido com o surgimento dos sequenciadores de nova
geração. Esses
aparelhos permitem fazer a leitura da ordem dos nucleotídeos
de vários fragmentos de DNA ao mesmo
tempo. No final do processo, o resultado é um
arquivo com todas as leituras da sua amostra. Existem
diferentes tecnologias de
sequenciamento de nova geração, que buscam a precisão dos resultados e o
barateamento do
custo total.
Exemplo
Imagine uma versão gratuita e outra paga de um aplicativo que faça tradução de
textos. Na versão gratuita,
você só pode traduzir uma página por dia, mas na
paga você pode colocar o livro inteiro de uma vez e ele vai
devolver todas as
páginas traduzidas em um único dia. Nessa analogia, o sequenciamento de Sanger
seria a
versão gratuita, e os sequenciadores de nova geração, a versão paga.
Para estudar o conjunto de transcritos de uma célula podemos usar as mesmas técnicas de
sequenciamento de DNA. No entanto, é necessário um passo muito importante antes de iniciar o
sequenciamento: transformar as moléculas de RNA em seu DNA complementar
(cDNA).
Esse procedimento é realizado usando-se uma enzima bem famosa na biologia molecular, a
transcriptase
reversa. Essa enzima é capaz de realizar a transcrição ao avesso, usando
moldes de RNA para produzir seu
DNA correspondente. Isso é feito a partir da
complementaridade das bases nitrogenadas, ou seja, se a
ordem de nucleotídeos do RNA é AUGA,
o seu DNA complementar será TACT. Além do sequenciamento,
outra técnica que permite estudar
o RNA é o microarranjo. Nessa técnica continua sendo necessário
sintetizar os cDNA, pois o
RNA é uma molécula muito frágil e instável.
A ideia geral do microarranjo é usar uma lâmina de vidro com pequenos segmentos de DNA
aderidos,
chamados de sondas. Também é necessário que os cDNAs da amostra a ser estudada
estejam marcados
com corantes fluorescentes. O profissional que estiver “montando” a lâmina
deverá saber exatamente a
sequência das sondas de DNAs, que vão funcionar como um “ímã”,
atraindo sequências de cDNA
correspondentes. Por exemplo, se uma sonda tem a sequência TGAG,
o cDNA que se ligará a ela será ACTC.
No final, um aparelho detecta as posições
fluorescentes da lâmina, e o profissional descobre para quais
sondas os cDNA foram
complementares. Veja a seguir o esquema da análise de microarranjo.
Esquema da análise de microarranjo.
Potencial isoelétrico
Massa molecular
Comentário
Por isso, o gel é bidimensional, pois o movimento das proteínas é estimulado em
duas direções.
Milhares de proteínas podem ser separadas simultaneamente por essa técnica. Isso é possível,
pois ―
desde que as proteínas tenham potenciais isoelétricos e/ou tamanhos diferentes ― elas
estarão localizadas
em posições diferentes do gel no final do experimento.
A foto final do gel pode ser analisada por programas de computador, que são capazes de
detectar a
“mancha” de cada proteína, quantificá-la de acordo com suas dimensões, além de
comparar diferentes géis
e armazená-los em bancos de dados de 2D-PAGE. Dessa forma, é
possível, por exemplo, identificar
alterações na produção de proteínas entre duas ou mais
condições experimentais diferentes.
Atenção
Se nessa comparação alguma “mancha” específica chamar sua atenção, podendo ser
uma proteína-chave
para sua pesquisa proteômica, você pode caracterizá-la com
mais detalhes. É possível cortar essa “mancha”
no gel e depois digeri-la com uma
enzima específica, que quebra a proteína em pedaços menores.
Resumindo
Primeiro os fragmentos proteicos são carregados com íons positivos, e depois são
“empurrados” para um
tubo com campo magnético. Peptídeos menores sofrem maiores
desvios se comparados aos maiores, e
assim pode ser determinada a massa de cada
um. Os valores obtidos podem, então, ser comparados em
um banco de dados
específico para essa técnica, e assim determinar qual é a sua proteína de
interesse.
Existem muito mais bancos de dados biológicos do que você imagina! Falando
resumidamente de
proteômica citamos dois tipos. A comparação do resultado final
do 2D-PAGE e da MS contra registros em
bancos de dados exemplifica como a
bioinformática está inserida nas análises proteômicas.
A diversidade química dos metabólitos é milhares de vezes maior que a de DNAs, RNAs ou
proteínas.
Ácidos nucleicos são formados apenas por nucleotídeos, e proteínas são sequências
de aminoácidos.
Quando estamos falando de metabólitos, o estudo se torna mais desafiador.
A complexidade dos metabólitos produzidos por uma célula sob determinada condição é muito
grande, uma
vez que eles possuem uma grande diversidade química e estão em concentrações
diferentes. O preparo da
amostra depende do seu tipo e de que técnicas serão usadas para
análise.
video_library
Técnicas aplicadas nas ciências ômicas
Neste vídeo, a especialista Melise Chaves Silveira revisa os conceitos das principais
técnicas usadas parar
gerar dados ômicos.
Aplicações das ciências ômicas
Veja quatro exemplos reais de contribuição efetiva das ciências ômicas.
Caso 1
O primeiro deles é o caso dos gêmeos Noah e Alexis Beery. Com 13 anos de idade
Alexis Beery desenvolveu
um problema respiratório muito preocupante. Ela tossia
tão forte que chegava a vomitar, e era necessário
administrar adrenalina para
que ela conseguisse continuar respirando.
Quando tinham 5 anos, os gêmeos foram diagnosticados com um distúrbio genético chamado
“distonia
responsiva à dopamina”, que causava movimentos anormais como dificuldade de andar
e tremor postural
que varia durante o dia. Eles tomavam precursores de dopamina e reagiam
bem ao tratamento, por isso
quando Alexis manifestou os problemas respiratórios os médicos
não suspeitaram que poderia ter alguma
relação. O pai dos gêmeos trabalhava em uma empresa
de tecnologia naquele período, por volta de 2011.
Com os conhecimentos prévios que a família
tinha, eles insistiram para que o genoma total dos filhos fosse
sequenciado.
Caso 2
Relembrando
As análises transcriptômicas dizem respeito ao estado da célula em um
determinado momento, sob certas
condições. Isso é possível devido ao fato de
muitos genes terem sua expressão controlada. A célula possui
mecanismos para
“ligar” ou “desligar” os genes: quando estão ligados, RNAs são transcritos a
partir deles,
mas, quando desligados, não ocorre produção dos RNAs
correspondentes.
A maior parte das mortes entre pacientes que desenvolvem câncer de mama ocorre devido à
metástase,
sendo os pulmões um dos principais sítios desse processo. Cientes disso,
pesquisadores da Universidade
de Tel Aviv, em Israel, começaram a buscar por moléculas
biológicas que pudessem indicar muito
precocemente a metástase do câncer de mama no tecido
pulmonar, para que ela pudesse ser evitada.
Micrometástase
Pequeno conjunto de células do tumor que se espalham pelo organismo.
Camundongos de laboratório.
O conjunto de todo RNAm dessas células foi obtido, transformado em cDNA e em seguida
sequenciado por
tecnologias de nova geração. As análises comparativas do transcriptoma de
cada grupo de fibroblastos
identificaram Myc como um regulador central da reconfiguração de
fibroblastos em situação de metástase.
Descobriu-se que o aumento da transcrição desse gene
está associado ao avanço da doença.
Resumindo
Os resultados dessa pesquisa foram divulgados em 2021, e os pesquisadores
esperam usar suas
descobertas para auxiliar no diagnóstico do processo
metastático de câncer de mama humano, antes
mesmo que as células metastáticas se
estabeleçam nos órgãos-alvo. Com a detecção precoce, medidas
profiláticas
poderiam ser tomadas a tempo de evitar a metástase. Torcemos para que essa
descoberta
possa em breve salvar a vida de milhares de pessoas no mundo todo,
não é mesmo?
Caso 3
O estudo da proteômica contribui ainda mais para entendermos o estado da célula.
Transcriptoma e
proteoma não são redundantes, mas oferecem tipos diferentes de informações.
Os RNAs podem ser
editados por splicing alternativo e, por modificações
pós-transcricionais, as proteínas também podem sofrer
modificações logo após serem
traduzidas, além da possibilidade de interagirem com outras proteínas. Só
com o RNA não é
possível prever as proteínas que serão produzidas pela célula. Portanto, é preciso detectar
diretamente o proteoma.
Atenção
A vacinação é muitíssimo importante como medida preventiva, mas a busca por
formas de tratamento de
pacientes já doentes também é essencial para diminuir
ainda mais a mortalidade dessa doença pelo
mundo.
Estudos proteômicos tornam possível responder perguntas sobre “como, onde, quando e por que”
proteínas
são produzidas. São análises amplas, envolvendo a identificação e quantificação
das proteínas, a sua
localização celular e a determinação de modificações, interações e
funções.
Caso 4
A metabolômica, área ômica que estuda todo conjunto de metabólitos produzidos pelas células,
permitiu
constatar que exercícios físicos aeróbicos podem prevenir o aparecimento da doença
de Alzheimer em
adultos de meia-idade.
Saiba mais
Outro resultado importante foi que o exercício físico alterou positivamente
metabólitos lipídicos associados
a doença de Alzheimer, o que pode oferecer um
efeito protetor aos neurônios. Esse estudo mostra como a
metabolômica pode
auxiliar na identificação de moléculas que ajudem a acompanhar o estado de saúde
dos indivíduos. Essa área ômica é uma ferramenta fundamental no diagnóstico,
prognóstico e tratamento de
doenças e na compreensão de outras condições
específicas do organismo.
playlist_play
Vem que te explico!
Os vídeos a seguir abordam os assuntos mais relevantes do conteúdo que você acabou de estudar.
MÓDULO 2
Todo conjunto de RNAs e DNAs são o alvo da genômica, por outro lado, metabólitos e
E
proteínas totais são o objeto de estudo da metabolômica.
B Espectrometria de massas.
D Microarranjo.
E Cristalografia de raio-X.
Considerações finais
Os dados biológicos são o início de todo conhecimento científico. É preciso gerar dados a
partir de
experimentos científicos e depois organizá-los, analisá-los e processá-los. Vimos
como os bancos permitem
o acesso a todo esse trabalho, e que é preciso entender o propósito
de cada um, para usá-lo da melhor
forma. Por exemplo, após identificar os genes em um
genoma, na etapa seguinte de anotação funcional é
importante escolher um banco secundário,
cujos dados sejam curados por especialistas, o que trará mais
qualidade ao nosso trabalho.
Além disso, conseguimos perceber que a ciência nunca para e que novas formas de gerar cada
vez mais
dados surgem a todo momento. Conhecer as ciências ômicas abre nossos olhos para o
presente e para o
futuro, e desperta a vontade de poder participar de toda essa evolução do
conhecimento que traz muitos
benefícios para a vida de todos.
headset
Podcast
Neste podcast, a especialista Melise Chaves Silveira trás exemplos reais de novas áreas ômicas e suas
contribuições.
Referências
BARDIN, L. Análise de conteúdo. Ed. Revista e Atualizada. Lisboa: Edições 70, 2010.
BRASIL. Banco Nacional de Perfis Genéticos atinge a marca de 100 mil perfis cadastrados. 2021.
Consultado na internet em: 27 ago. 2021.
CANUTO, G., et al. Metabolômica: definições, estado-da-arte e aplicações representativas. 2018. Quím. Nova.
Consultado na internet em: 20 set. 2021.
DAYHOFF, M.O et al. Atlas of protein sequence and structure. 1972. The National Biomedical Research
Foundation. Consultado na internet em: 18 ago. 2021.
GAITÁN J.M., et al. Effects of Aerobic Exercise Training on Systemic Biomarkers and Cognition in Late
Middle-Aged Adults at Risk for Alzheimer’s Disease. 2021. Front. Endocrinol. Consultado na internet em: 20
ago. 2021.
GENBANK. GenBank Overview: what is genbank? Consultado na internet em: 20 ago. 2021.
HAYDEN, E. C. Genome study solves twins' mystery condition. 2011. Nature. Consultado na internet em: 20
set. 2021.
McNEILL L. How Margaret Dayhoff Brought Modern Computing to Biology. 2019. Consultado na internet
em: 20 set. 2021.
MOUNT, D.W. Bioinformatics: sequence and genome analysis. Huntington: Cold Spring Harbor Laboratory
Press, 2004.
SHANI, O, et al. Evolution of fibroblasts in the lung metastatic microenvironment is driven by stage-specific
transcriptional plasticity. eLife. 2021. jun. 25. Consultado na internet em: 20 set. 2021.
SIRUI, Z., et al. A Neanderthal OAS1 isoform protects individuals of European ancestry against COVID-19
susceptibility and severity. Nature Medicine. 2021. v. 27, pages 659-667. Consultado na internet em: 20 set.
2021.
SILVA, S.A.; NOTARI, D.L.; DALL’ALBA, G. Bioinformática: contexto computacional e aplicações. Caxias do
Sul: Educs. 2020.
Explore +
Saiba mais sobre busca em bancos de dados assistindo ao vídeo Aula 4 - Coletando biodados públicos, no
canal DataSciBR, YouTube.
Convidamos você a fazer um teste usando seu computador ou smartphone e ver quanta coisa é possível
saber sobre uma proteína acessando o UniProtKB. Além disso, não deixe de visitar os outros bancos de
dados que abordamos ao longo do conteúdo.