O que é LLMOps?
Large Language Models (LLMs) são modelos de machine learning (aprendizado de máquina) que entendem e geram linguagem humana. LLMs como GPT-3, LLaMA e Falcon são ferramentas que aprendem com dados para produzir palavras e frases. À medida que essas ferramentas evoluem, as organizações precisam implementar práticas recomendadas para a operação desses modelos. É aqui que entra o LLMOps.
Large Language Model Operations (LLMOps) são métodos operacionais usados para gerenciar grandes modelos de linguagem. Com o LLMOps, o ciclo de vida dos LLMs é gerenciado e automatizado, desde o ajuste fino até a manutenção, o que ajuda os desenvolvedores e as equipes a implantar, monitorar e manter LLMs.
LLMOps e MLOps
Visto que os LLMs são uma parte dos modelos de ML, LLMOps é para os LLMs o que MLOps (machine learning operations) é para o machine learning. MLOps é um conjunto de práticas de fluxo de trabalho que visam otimizar o processo de implantação e manutenção de modelos de ML. O MLOps busca estabelecer uma evolução contínua para a integração de modelos de ML aos processos de desenvolvimento de software. De forma semelhante, o LLMOps busca experimentar, iterar, implantar e aprimorar continuamente o desenvolvimento do LLM e o ciclo de vida de implantação.
Apesar de similares em muitos aspectos, LLMOps e MLOps são processos diferentes. Algumas diferenças são:
Aprendizado: modelos tradicionais de ML são criados ou treinados do zero. Os LLMs partem de um modelo fundamental e passam por ajustes finos com dados para melhorar o desempenho das tarefas.
Ajuste: no caso dos LLMs, o ajuste fino melhora o desempenho e aumenta a precisão, acrescentando ao modelo conhecimento sobre determinado assunto. O ajuste de prompts melhora o desempenho dos LLMs em tarefas específicas. Outra diferença é o ajuste de hiperparâmetros. No caso da ML tradicional, esse ajuste prioriza a melhoria da precisão. Para os LLMs, o ajuste é importante tanto para a precisão, quanto para reduzir custos e para a capacidade necessária para o treinamento. Ambos os modelos se beneficiam do monitoramento e da otimização do processo de ajuste. O que varia é a ênfase dada em cada um. Por fim, é importante mencionar a geração aumentada de recuperação (RAG), o processo de usar conhecimento externo para garantir que fatos precisos e específicos sejam coletados pelo LLM para produzir melhores respostas.
Feedback: o aprendizado por reforço com feedback humano (RLHF) é uma melhoria no treinamento de LLMs. O feedback humano é essencial para o desempenho de um LLM. Os LLMs utilizam o feedback para avaliar a precisão, enquanto os modelos tradicionais de ML usam métricas específicas.
Métricas de desempenho: os modelos de ML contam com métricas de desempenho precisas, enquanto LLMs contam com diferentes conjuntos de métricas, como o Bilingual Evaluation Understudy (BLEU) e o Recall-Oriented Understudy for Gisting Evaluation (ROUGE), que requerem avaliações mais complexas.
Benefícios do LLMOps
À medida que o LLMOps se torna a melhor maneira de monitorar e melhorar o desempenho, três benefícios se destacam:
Eficiência: o LLMOps possibilita que as equipes desenvolvam modelos com mais rapidez, aprimorem a qualidade dos modelos e implantem rapidamente. Com uma abordagem de gerenciamento mais simplificada, as equipes colaboram melhor em uma plataforma que promove a comunicação, o desenvolvimento e a implantação.
Escalabilidade: o LLMOps melhora a escalabilidade e o gerenciamento. Dessa maneira, é possível gerenciar e monitorar mais de um modelo para fins de integração e entrega/implantação contínuas (CI/CD). O LLMOps também oferece uma experiência de usuário mais responsiva, com comunicação e resposta de dados aprimoradas.
Redução de riscos: o LLMOps promove mais transparência e estabelece maior conformidade às políticas da organização e do setor. O LLMOps aprimora a segurança e a privacidade ao proteger informações sensíveis e prevenir a exposição a riscos.
Casos de uso de LLMOps
O LLMOps apresenta alguns casos de uso.
Integração e entrega contínuas (CI/CD): a CI/CD tem como objetivo simplificar, acelerar e automatizar o ciclo de vida de desenvolvimento do modelo. Ele remove a necessidade de intervenção humana na criação de novos códigos, o que resulta em menor downtime e lançamentos de códigos mais rápidos. Ferramentas como o Tekton, no qual o Red Hat OpenShift Pipelines é baseado, contribuem com os fluxos de trabalho de desenvolvedores por meio da automatização de implantações em várias plataformas.
Coleta, rotulagem e armazenamento de dados: a coleta de dados usa diferentes fontes para reunir informações precisas. A rotulagem de dados categoriza os dados, e o armazenamento de dados coleta e retém informações digitais vinculadas a uma rede.
Ajuste fino, inferência e monitoramento de modelos: o ajuste fino otimiza os modelos para realizar tarefas específicas a uma área de conhecimento. A inferência de modelo pode gerenciar a produção a partir do conhecimento existente e, então, realizar ações com base em informações deduzidas. O monitoramento do modelo, que inclui feedback humano, coleta e armazena dados sobre o comportamento do modelo para prever como será seu desempenho com dados reais de produção.
Etapas do LLMOps
Todos os LLMOps têm etapas, componentes e práticas recomendadas:
Análise de dados exploratória (EDA): processo de avaliar os dados para preparação para o ciclo de vida de machine learning por meio da criação de conjuntos de dados.
- Coleta de dados: primeira etapa usada para treinar o LLM coletado de diferentes fontes, como arquivos de código e redes sociais.
- Limpeza dos dados: depois de coletados, os dados precisam ser inspecionados em preparação para o treinamento, o que inclui remover erros, corrigir inconsistências e eliminar duplicidades.
- Exploração dos dados: o próximo passo é analisar os dados para entender melhor suas características, identificar valores atípicos e detectar padrões.
Preparação dos dados e engenharia de prompt: processo de compartilhamento dos dados acessíveis para as equipes e desenvolvimento de prompts para os LLMs.
- Preparação de dados: os dados usados para treinar um LLM são preparados de diferentes formas, incluindo a síntese e a conclusão dos dados coletados.
- Engenharia de prompt: criação de prompts para texto, o que garante que os LLMs produzam o resultado desejado.
Ajuste fino do modelo: etapa de ajuste e incremento do desempenho do modelo utilizando bibliotecas open source conhecidas, como Hugging Face Transformers.
- Treinamento do modelo: depois que os dados são preparados, o LLM passa pelo treinamento ou ajuste fino utilizando um algoritmo de machine learning, com o objetivo de aprender padrões detectados nos dados.
- Avaliação do modelo: depois do treinamento, o LLM passa por uma avaliação de desempenho com o uso de um conjunto de dados que não tenha sido aplicado em seu treinamento.
- Ajuste fino do modelo: se o LLM não estiver apresentando bom desempenho, é possível ajustá-lo. Isso envolve a modificação dos parâmetros do LLM para melhorar os resultados.
Revisão e governança do modelo: processo de descobrir, compartilhar e colaborar em modelos de ML com a ajuda de plataformas de MLOps open source, como Kubeflow.
- Revisão do modelo: depois do ajuste fino, o LLM precisa passar por uma análise de segurança e confiabilidade, que compreende verificá-lo para vieses e riscos de segurança.
- Governança do modelo: processo de gerenciar o LLM ao longo de seu ciclo de vida, que compreende acompanhar seu desempenho, fazer alterações quando necessário e desativá-lo quando ele não for mais útil.
Serviço e inferência do modelo: processo de gerenciamento dos detalhes da produção, como a frequência de atualização de um modelo ou os tempos de solicitação.
- Disponibilização do modelo: depois de analisado e aprovado, o LLM pode ser implantado na produção por meio de uma interface de programação de aplicação (API).
- Inferência do modelo: a aplicação pode consultar a API para gerar texto ou responder a perguntas. Isso pode acontecer de várias maneiras, como por meio de uma interface de programação de aplicações para transferência de estado representacional (API REST) ou uma aplicação web.
Monitoramento do modelo com feedback humano: criação de monitoramento de dados e modelos fora do escopo ou comportamento negativo dos usuários.
- Monitoramento do modelo: depois de implantado, o LLM precisa ser monitorado para garantir que está sendo executado como esperado. O monitoramento conta com análise do desempenho, identificação de problemas e alterações, quando necessário.
- Feedback humano: utilizado para melhorar o desempenho do LLM, pode oferecer comentários sobre a qualidade do texto gerado pelo LLM ou identificar possíveis problemas com seu desempenho.
O que é uma plataforma de LLMOps?
Uma plataforma de LLMOps proporciona a desenvolvedores e equipes um ambiente que promove a colaboração por meio de análise de dados, rastreamento de experimentos, engenharia de prompt e gerenciamento de LLM. Também oferece monitoramento, implantação e transições de modelos gerenciados para LLMs. Com melhor gerenciamento de bibliotecas, a plataforma mantém os custos operacionais baixos e reduz a necessidade de integrantes capacitados executarem tarefas como pré-processamento de dados, monitoramento e implantação de modelos.
Por que escolher a Red Hat?
O Red Hat® OpenShift®, plataforma de aplicações em nuvem híbrida baseada no Kubernetes líder do setor, acelera a implementação de aplicações com IA em ambientes de nuvem híbrida, seja no data center, em várias nuvens ou na edge.
Com o Red Hat OpenShift, as organizações automatizam e simplificam o trabalho iterativo de integrar modelos aos processos de desenvolvimento de software, lançamento em produção, monitoramento, retreinamento e reimplantação para continuar produzindo previsões precisas.
O Red Hat OpenShift AI é uma plataforma de MLOps flexível e escalável, com ferramentas para criar, implantar e gerenciar aplicações usando inteligência artificial. Com ele, cientistas de dados e desenvolvedores de aplicações simplificam a integração da inteligência artificial nas aplicações de forma segura e consistente e em escala. O OpenShift AI oferece ferramentas de suporte ao ciclo de vida completo de modelos e testes de inteligência artificial e machine learning, tanto on-premise quanto na nuvem pública.
Com as funcionalidades do Red Hat OpenShift AI e do Red Hat OpenShift combinadas em uma única plataforma empresarial de aplicações de IA, as equipes podem trabalhar em um ambiente colaborativo, que promove consistência, segurança e escalabilidade.