Análise de RNAs-seq Assistida por Chatbot: um guia didático: do FastQ às vias metabólicas e análise de redes
De Elenildo dos Santos Oliveira, Francisco Cleilson Lopes Costa, Gabriel César Ferreira e Yasmin Maciel Meireles Costa
()
Sobre este e-book
Relacionado a Análise de RNAs-seq Assistida por Chatbot
Ebooks relacionados
Linguagens De Programação Em Inteligência Artificial Nota: 0 de 5 estrelas0 notasModelagem De Dados Gráficos Em Python Nota: 0 de 5 estrelas0 notasArquitetura e estratégias para o Processamento Distribuído de Eventos Complexos Nota: 0 de 5 estrelas0 notasPython Em Poucas Palavras Nota: 0 de 5 estrelas0 notasBíblia De Programação Python Para Iniciantes Nota: 0 de 5 estrelas0 notasApache Lucene: Sistemas de busca com técnicas de Recuperação de Informação Nota: 0 de 5 estrelas0 notasPL/SQL: Domine a linguagem do banco de dados Oracle Nota: 0 de 5 estrelas0 notasPython Para Iniciantes Nota: 0 de 5 estrelas0 notasProgramação Python Ilustrada Para Iniciantes E Intermediários: Abordagem “aprenda Fazendo” – Passo A Passo Nota: 0 de 5 estrelas0 notasProgramação LabVIEW com Aplicações em Aquisição de Dados em Plataformas Embarcadas Nota: 0 de 5 estrelas0 notasProgramação Python E Aprendizado De Máquina Nota: 0 de 5 estrelas0 notasCaixa de Ferramentas DevOps: Um guia para construção, administração e arquitetura de sistemas modernos Nota: 0 de 5 estrelas0 notasArquitetura de software distribuído: Boas práticas para um mundo de microsserviços Nota: 0 de 5 estrelas0 notasJava O Guia Completo Nota: 0 de 5 estrelas0 notasUma Estrutura Conceitual para o Estudo da Computação Natural Nota: 0 de 5 estrelas0 notasRobot framework: Automação versátil e consistente para testes Nota: 0 de 5 estrelas0 notasFundamentos Da Engenharia De Software Nota: 0 de 5 estrelas0 notasTrilhas Python: Programação multiparadigma e desenvolvimento Web com Flask Nota: 5 de 5 estrelas5/5Jenkins: Automatize tudo sem complicações Nota: 0 de 5 estrelas0 notasPython: Escreva seus primeiros programas Nota: 4 de 5 estrelas4/5Pandas Python: Data Wrangling para Ciência de Dados Nota: 0 de 5 estrelas0 notasProgramação Para Internet Nota: 0 de 5 estrelas0 notasSpock Framework: Testes automatizados ágeis para Java e REST Nota: 0 de 5 estrelas0 notasIntrodução A Linguagem Python Nota: 0 de 5 estrelas0 notasProgramando O Kernel Linux Nota: 0 de 5 estrelas0 notasFundamentos De Programação Python Nota: 0 de 5 estrelas0 notasDesenvolvimento De Software Ii C# Programação Em Camadas Nota: 0 de 5 estrelas0 notasOrientação a Objetos em C#: Conceitos e implementações em .NET Nota: 5 de 5 estrelas5/5Programação Didática com Linguagem C Nota: 4 de 5 estrelas4/5Labview Nota: 0 de 5 estrelas0 notas
Ciências e Matemática para você
A Química Do Dia A Dia Nota: 0 de 5 estrelas0 notasFísica Quântica Para Iniciantes Nota: 5 de 5 estrelas5/5Feitiços De Amarração E Separação Nota: 5 de 5 estrelas5/5Desbloqueando Pessoas Nota: 0 de 5 estrelas0 notasManipulando O Carma Com Gráficos Radiônicos Nota: 5 de 5 estrelas5/5Uma Nova Ciência da Vida Nota: 5 de 5 estrelas5/5O Mistério por trás das nossas origens: Uma jornada para além da teoria da evolução Nota: 5 de 5 estrelas5/5Declaração, Atestado E Laudo Nota: 0 de 5 estrelas0 notasCitologia Professor Nota: 0 de 5 estrelas0 notasAstronomia Básica Nota: 5 de 5 estrelas5/5Guia De Química Para O Enem Nota: 0 de 5 estrelas0 notasFísica Simples E Objetiva Nota: 0 de 5 estrelas0 notasProcessamento Auditivo Central Nota: 5 de 5 estrelas5/5Terapias espirituais:: rumo à integração ao tratamento convencional Nota: 4 de 5 estrelas4/5O Mínimo Que Você Precisa Saber Sobre Astronomia Nota: 0 de 5 estrelas0 notasPython Para Iniciantes Nota: 0 de 5 estrelas0 notasEngenharia Mecanica Nota: 0 de 5 estrelas0 notasA Origem das Espécies Nota: 3 de 5 estrelas3/5Eletricidade Básica Nota: 5 de 5 estrelas5/5Tricologia Para Cabeleireiros E Barbeiros Nota: 0 de 5 estrelas0 notasGuia Prático Para a Reprodução de Plantas: Do Tradicional à Biotecnologia Nota: 5 de 5 estrelas5/5Eletricista De Manutenção Nota: 0 de 5 estrelas0 notasCiência pouca é bobagem: Por que psicanálise não é pseudocência Nota: 5 de 5 estrelas5/5Teoria Da Matrix Nota: 0 de 5 estrelas0 notasTrasnstorno Expectro Autista Nota: 0 de 5 estrelas0 notasTécnicas De Atendimento Em Psicanálise Nota: 0 de 5 estrelas0 notasMedicina Tradicional Chinesa Nota: 0 de 5 estrelas0 notasMecânica Quântica Nota: 0 de 5 estrelas0 notas
Avaliações de Análise de RNAs-seq Assistida por Chatbot
0 avaliação0 avaliação
Pré-visualização do livro
Análise de RNAs-seq Assistida por Chatbot - Elenildo dos Santos Oliveira
Prefácio
Agenômica é uma área da ciência que estuda os genes e suas funções, proporcionando uma compreensão mais profunda dos processos biológicos. Com o surgimento das tecnologias de sequenciamento de nova geração (NGS, do inglês Next-Generation Sequencing ), e sua evolução contínua, são produzidos diariamente volumes massivos de dados, disponíveis em diversas bases de dados. O desafio central é como analisá-los e transformá-los em informações biológicas úteis para os pesquisadores. Por isso, existe uma necessidade urgente para a nova geração de biólogos moleculares aprender a lidar com ferramentas de bioinformática para explorar ao máximo os dados genômicos disponíveis. Felizmente, estamos obtendo um novo aliado que pode ser explorado para facilitar essa tarefa desafiadora: o uso de Chatbots (inteligência artificial) como ferramenta auxiliar personalizada. Com isso em mente, este livro tem como objetivo principal fornecer um fluxo de trabalho ( Workflow ) completo na análise de RNAs-seq sob essa nova perspectiva dos Chatbots .
Como o próprio subtítulo sugere, iremos partir dos arquivos brutos do sequenciamento (FastQ), perpassaremos por todas as etapas de controle de qualidade, mapeamento, obtenção da matriz de contagem, análise diferencial de expressão (DEGs), análise de enriquecimento funcional de conjunto gênico (GSEA) e por fim iremos nos debruçar por análise de interação proteína-proteína (PPI) destes genes diferencialmente expressos. Ao longo de cada análise, as ferramentas serão destacadas, bem como serão fornecidos os comandos e explicações sobre as sintaxes/argumentos para que o usuário entenda exatamente o que está sendo feito. Com a evolução sem precedentes das IAs, análises antes complexas se tornarão mais acessíveis aos biologistas moleculares não familiarizados com linhas de comandos ou ferramentas de bioinformática, democratizando assim essas análises.
Ao longo do livro, que servirá majoritariamente como um tutorial para iniciantes em bioinformática, iremos demonstrar como podemos usar prompts (comandos) específicos para explorarmos o potencial que as IAs podem oferecer como:
Acesso rápido a comandos e códigos: Os Chatbots podem fornecer uma interface interativa para acessar rapidamente comandos e códigos úteis que ajudam a economizar tempo e esforço na busca por documentação ou fóruns online.
Solução de problemas e correção: Ao enfrentar problemas durante a execução de comandos ou códigos, os pesquisadores podem recorrer a Chatbots para receber suporte imediato. Eles podem identificar erros, fornecer soluções alternativas e orientá-los na resolução de problemas técnicos. Isso agiliza o processo e evita a interrupção desnecessária do fluxo de trabalho.
Sugestões e recomendações personalizadas: Chatbots podem aprender com as interações dos usuários, portanto fornecem sugestões personalizadas com base nos problemas e nas necessidades específicas do pesquisador. Eles podem sugerir pacotes (package) ou bibliotecas relevantes em Python para uma análise específica. Essa personalização ajuda os pesquisadores a descobrirem novas ferramentas e abordagens, aprimorando sua eficiência e produtividade.
Este livro será divido em duas partes (Parte I e II). Na primeira iremos abordar as análises partindo dos arquivos de RNAs-seq até obtermos a matriz de contagem; aqui destaques serão dados às ferramentas FastQC, o alinhador STAR , HTseq e DESeq2. Na segunda parte, trataremos das análises de enriquecimento funcional dos genes diferencialmente expressos e análise de rede de interação proteína-proteína (PPI). Os destaques serão as ferramentas ShinyGO, STRING db e Cytoscape.
Para aqueles iniciantes sem familiaridade com a criação do subsistema Linux no Windows, o livro conta uma seção dedicada a preparação do ambiente (I. Preparando o ambiente Linux para a análise).
Com este livro tutorial completo, talvez o mais completo com essa ótica, os autores esperam ajudar pesquisadores em formação (estudantes de graduação/pós-graduação) a se tornarem autônomos em suas análises e consequentemente ajudar a equacionar a dinâmica entre produção de dados e informações. Além, e sobretudo, fomentar a formação de recursos humanos.
Os autores têm uma profunda paixão pela ciência brasileira, a ‘ciência da resistência’, que, independentemente dos desafios (técnicos/fomento), continua avançando a passos largos. Muito disso se deve ao corpo docente das instituições, que trabalha para garantir sempre o básico necessário para a pesquisa. Por isso, nossos agradecimentos a todos que contribuíram para nossa longa trajetória acadêmica. Sem eles, não estaríamos hoje publicando um livro desta natureza. Um agradecimento especial vai para nosso professor e orientador, Welison Andrade Pereira (docente da Universidade Federal de Lavras, Programa de Pós-Graduação em Genética e Melhoramento de Plantas), que, tempos atrás, plantou esta semente e nos impulsionou a entrar no mundo da bioinformática. Agradecemos ao professor Evandro Novaes por ter contribuído por meio da sua disciplina em Genômica e Bioinformática, sem ela, muito provavelmente, este livro não teria saído com tantos detalhes.
Dos Autores
SUMÁRIO
I. Preparando o ambiente Linux para a análise
PARTE I
Do FastQ à matriz de contagem
CAPÍTULO I
Introdução à Análise de expressão gênica diferencial
1.1 Visão geral da análise gênica diferencial (DEG do inglês Differential Expression Gene)
1.2 Papel da inteligência artificial como assistente em análise genômica: Bot-assisted genomic Analysis (B.O.A)
CAPÍTULO II
Obtenção dos dados brutos e pré-processamento
2.1 Banco de dados públicos de sequência genômica
2.2 Usando o ChatGPT para fornecer comandos Linux: baixando FastQ no Zenodo
2.3 Acessando a qualidade do arquivo Fastq com a ferramenta FastQC
2.4 Avaliação da qualidade usando o FastQC
2.5 Pré-processamento com Trimmomatic: remoção de adaptadores e sequências de baixa qualidade
CAPÍTULO III
Alinhamento de RNAs-seq usando STAR
3.1 Geração do Indice STAR para o alinhamento do genoma
3.2 Alinhamento de todo o genoma (Arabidopsis thaliana)
3.2.1 Gerando o Index STAR
3.3 Alinhamento do genoma com STAR
3.4 Samtool: Samstats
CAPÍTULO IV
Gerando a matriz de contagem via HTseq
4.1 Gerando matriz de contagem (Count matrix) usando HTseq
CAPÍTULO V
Análise de Expressão Gênica Diferencial usando o pacote DESeq2
5.1 Introdução à análise de expressão gênica diferencial em plantas
5.2 Pacote DESEq2 : Análise de expressão gênica diferencial (DEGs)
5.3 Análise estatística e interpretação dos resultados
5.3.1 Análise exploratória dos dados
5.3.2 Análise de correlação de Spearman e de agrupamento para observar similaridade e congruência das amostras
5.3.3 Instalando o pacote DESeq2
5.4 Análise de expressão gênica diferencial: análise exploratória
5.4.1 Tamanho das bibliotecas e normalização
5.4.1.1 Tamanho de biblioteca
5.4.1.2 Normalização
5.4.2 Extração da matriz normalizada
5.4.3 Pheatmap da matriz de covariâncias
5.4.4 Análise de componentes principais entre as amostras
5.4.5 Box-Plot para visualizar a normalização
5.4.6 Modelo Binomial negativo e DEGs
5.4.7 Teste de Hipóteses e análise DEGs (Differential Expressed Genes)
5.4.8 Diferentes visualizações dos resultados
5.4.9 Volcano plot no TBTools
5.5 Integração de dados de expressão gênica geradas no DESeq2 com anotação genômica
PARTE II
Enriquecimento de conjuntos gênico e Análise de rede PPI
CAPÍTULO VI
Análise de enriquecimento de conjunto de genes (GSEA) expressos diferencialmente
6.1 Fundamentos básicos da análise de enriquecimento de conjunto de genes (GSEA) diferencialmente expressos
CAPÍTULO VII
Análise de rede de interação proteína-proteína e enriquecimento de rede
7.1 Análise de rede de Interação proteína-proteína
7.2 STRING: recuperando associações físicas ou funcionais entre proteínas
7.3 Cytoscape para análise, enriquecimento funcional, integração de dados e visualização de redes biológicas complexas.
7.4 Enriquecimento funcional da rede PPI usando o Cytoscape
8. CONCLUSÃO GERAL
MATERIAL DE APOIO
9. ANEXO I
10. ANEXO II: Seção bônus
AUTORES
I. Preparando o ambiente Linux para a análise
De forma geral, nota-se um bloqueio mental quando se fala em linguagem de programação ou ambiente como o Linux para a maioria dos jovens cientistas que se inserem no campo da genômica e bioinformática. Nos acostumamos com o visual chamativo e cheio de detalhes do sistema operacional Windows, e desvencilhar-se da praticidade e operacionalidade dele é difícil. A tela preta do Linux não chama a atenção; de fato, visualmente não atrai. E quando parte-se para inserir linhas de código para abrir uma pasta (em distribuições mais antigas), achar ou criar diretórios, subdiretórios, apagar, remover, realmente desanima. Porém, muitos dos softwares em análise genômica são escritos em linguagem Python, C++ ou funcionam apenas no Linux em pelo menos uma das etapas da análise. Outras são feitas inteiramente em linguagens como Python e/ou R. Isto demonstra que devemos, se não dominar, pelo menos nos familiarizar com este tipo de ferramentas. Felizmente, ganhamos um grande aliado, os Chatbot s.
Nesta seção, abordaremos os passos para que você tenha um ambiente Linux no seu notebook sem a necessidade de instalar o sistema operacional completo em dual boot (instalar dois sistemas operacionais ao mesmo tempo, onde na inicialização opta-se por usar Linux ou Windows), o que gera praticidade e, para algumas funções, a execução é de modo semelhante ao Windows, ou seja, sem a necessidade de códigos. Trata-se do sistema integrado do Windows/Linux, chamado de WSL (Windows Subsystem for Linux). Existem algumas formas alternativas para realizar este procedimento; porém, aqui, somente uma será mostrada.
Para que os procedimentos a seguir funcionem, o usuário deverá ter Windows 10 ou superior. O primeiro passo é ativar o WSL da sua máquina (o que permite indicar à sua máquina que irá usar um subsistema com alguma distribuição do Linux, como, por exemplo, Ubuntu). Isto pode ser feito da seguinte forma:
Primeiro: Abra o Powershell como administrador.
Para isto, pressione em sequência a tecla
Em seguida, uma tela semelhante a seguinte irá aparecer, nela ponha o cursor sobre Windows powershell (admin)
e clique com o Botão esquerdo do mouse.
Ao clicar uma nova janela azul irá abrir. Esta será o Powershell. (obs. Para todos os fins, todos os elementos gráficos que se seguirá neste livro, embora seja, vezes, tabelas, serão chamados na legenda como figura
, uma vez que as imagens serão geradas por prints)
O PowerShell é uma interface de linha de comando que permite que os usuários interajam com um sistema operacional por meio de comandos textuais (ao invés de habituais cliques duplos e simples para abrir uma pasta, por exemplo), síntese ela (interface) foi projetada para automação de tarefas e gerenciamento de configurações como esta que iremos fazer: acionar o WSL que por Default (padrão) fica desabilitada no sistema.
Como administrador (ou admin, abreviação comum para administrador de sistemas), você pode usar o PowerShell para realizar uma variedade de tarefas, desde a execução de comandos simples até a automação de processos complexos.
Clicando na opção destacada estamos então executando a interface com permissão de administrador do sistema. Veja a tela padrão do Shell.
Figura 2. Power Shell.
Não se atentem às informações dela, a não ser a pertencente à última linha que é onde iremos usar para executar os comandos.
Segundo: Executando o comando para habilitar o PowerShell
Para esta etapa, copie o seguinte comando na última linha da tela azul após o sinal de >
: dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
Se tudo der certo na execução, a tela ficará assim:
Figura 3. Destacando o êxito da operação.
Em vermelho a linha de comando, e dentro do retângulo obterá uma notificação indicando que o processo foi bem sucedido.
Terceira etapa: baixar uma versão de qualquer distribuição Linux.
Dentro do Microsoft Store , procure por uma versão Linux (você pode pesquisar outras versões na internet para observar as vantagens e desvantagens de cada uma. Como exemplo, vamos instalar a distribuição Ubuntu que é a mais usada por iniciantes.
Na barra de pesquisa do seu Windows digite microsoft store
, sem aspas, para abrir a loja onde pode-se baixar, entre outros Apps, o Ubuntu.
Figura 4. App da Microsoft Store
Clicando aqui, abrir-se-á loja.
Na aba de pesquisa (ícone da lupa, canto superior direito da tela), digita-se o nome "Ubuntu".
Figura 5. Mostrando o App Ubuntu
Existem várias versões de um mesmo Ubuntu. Quem tiver curiosidade sobre cada uma delas, basta pesquisar o nome do Ubuntu mais a versão específica. Iremos pegar esta primeira opção. Feito isso, o próximo passo é baixar o app para sua máquina clicando em Get
.
Figura 6. Mostrando opção de baixar.
Clique em Get para começar o processo de download. O app possui aproximadamente 608 mb (versão de 14/03/2022), por isso se torna uma boa opção para iniciantes, uma vez que é um programa muito mais leve que se fosse instalar o sistema completo.
Quando o app estiver baixado e instalado algo semelhante a isto aparecerá:
Figura 7. Mostrando que foi instalado com sucesso
No canto inferior direito mostra que o Ubuntu foi instalado. Clicando em Iniciar seremos direcionado a configuração final, onde daremos um nome de usuário e senha. Feito isso, o próximo passo é configurar o sistema.
Quarta 4: Configuração Inicial do sistema
Para que tudo funcione bem, após a instalação feita na etapa anterior, precisamos criar um nome de usuário e senha para o sistema Linux.
Ao iniciar o Ubuntu pela primeira vez, uma tela preta aparece como a seguinte:
Figura 8. Configurando o ambiente Ubuntu
Devemos esperar até que todas as dependências sejam instaladas. Em seguida estamos prontos a criar o nome de usuário e senha.
Figura 9. Criando o nome de usuário
A tela apresentada acima indica que já podemos dar início ao processo. A conta de usuário não precisa ser igual ao nome que está no seu Windows. Na caixa em vermelho é onde o nome de usuário (new Username) poderá ser criado.
Algo que devemos estar atentos é que geralmente nomes de usuário no Linux consistem em letras minúsculas, números e caracteres especiais como - (hífen) ou _ (underscore), mas sem começar com um número. Vamos criar um exemplo fictício. Daremos o nome de my-test
Portanto estamos obedecendo as regras básicas com minúsculas, hífen e não iniciar com números.
Figura 10. Criando senha
Se o nome criado atender aos padrões, aparecerá numa nova linha para que possamos criar uma senha. Esta será usada quando precisarmos instalar programas ou realizar algumas tarefas que precisem de permissões especiais do usuário (root ou super root).
Na criação da senha, à medida que vamos inserindo, diferentemente dos habituais estrelinhas
ou asteriscos que aparecem no lugar dos caracteres inseridos, no Linux nada aparece. Porém, acredite! Está sendo codificada. Como prova de que realmente colocamos a senha desejada, após inserir a primeira e clicar ENTER, uma confirmação é pedida numa segunda linha. Algo semelhante a: retype new password: (redigite, reinsira a nova senha). Se tudo ocorrer bem, chegamos à etapa final e nossa máquina está apta a usar o subsistema Linux. Algo semelhante a isso aparecerá:
Figura 11. Tela de inicialização do Ubuntu
Em Passwd:password updated successfully
indica que nossa senha foi confirmada com sucesso. E logo abaixo Installation successful!
mostra que estamos aptos. Outras informações são apresentadas, incluindo indicações de comandos e sites que o usuário pode seguir para maiores informações.
Para já irmos nos familiarizando com os termos. A linha colorida (verde no nosso caso) é chamada de prompt de comando e este é o terminal Linux.
Detalhando a linha completa, temos:
1. my-test: Este é o nome do usuário atualmente logado.
2. BioHacker: Este é o nome do host do seu sistema. (não precisa se preocupar com alguns termos como host ou outro).
3. ~: Este é o símbolo do til (~) que representa o diretório home do usuário.
4. $: O cifrão ($) indica que o prompt está pronto para aceitar comandos.
A partir de agora esse será nosso ambiente para inserir as linhas de comando.
Todas as vezes que você quiser entrar no sistema Linux, basta procurar pelo App com nome Ubuntu na barra de pesquisa do seu Windows e clicar. Então essa mesma janela acima irá abrir.
Mas se você quiser desativar a mensagem que é exibida, você pode criar o arquivo ~/.hushlogin. Você pode fazer isso com o seguinte comando:
touch ~/.hushlogin
Finalmente, você pode visualizar seu subsistema no seu Windows Explorer nas últimas seções inferiores. O símbolo consagrado do Linux aparece na imagem destacada.
Figura 12.
Ao clicar