speechbrain header
relaod

Descarregado 2 milhões de vezes

Pessoa Feliz

Contribuições de 140 programadores

receipt2x

Lançado sob licença Apache, versão 2.0

O contexto

O SpeechBrain é um toolkit open-source que visa tornar a IA conversacional mais acessível a todos. Criado pelo Dr. Mirco Ravanelli e pelo Dr. Titouan Parcollet, o SpeechBrain facilita a pesquisa e o desenvolvimento de tecnologias de processamento de fala neural, como reconhecimento de fala, compreensão de linguagem falada, aprimoramento de fala, conversão de texto em fala e muito mais.  O objetivo do SpeechBrain é desenvolver uma máquina que, à semelhança dos nossos cérebros, possa naturalmente compreender a fala, compreender o seu conteúdo e emoções, e participar em conversas cativantes com humanos.

Fig. 1
Fig. 1. A ideia conceptual do SpeechBrain. O objetivo é a criação de diferentes tecnologias que possam imitar as capacidades de comunicação do cérebro.

O SpeechBrain é atualmente um dos toolkits de processamento de linguagem open-source mais populares, fornecendo uma plataforma flexível e abrangente para uma comunidade internacional de investigadores, programadores e patrocinadores.

O desafio

Para lançar a sua última versão (1.0), a equipa do SpeechBrain precisava de implementar e suportar as tecnologias mais avançadas de Deep Learning, como a aprendizagem auto-supervisionada, a aprendizagem contínua, a modelação de linguagem de grande escala, os modelos de difusão, a busca por feixe avançada, as redes de fluxo contínuo, as redes neurais interpretáveis e muito mais. A implementação destas técnicas complexas é não apenas um desafio, mas também extremamente exigente do ponto de vista computacional. A principal dificuldade para o lançamento do SpeechBrain 1.0 foi encontrar recursos computacionais adequados para acompanhar o ritmo de uma tecnologia de ponta, que requer modelos e conjuntos de dados cada vez maiores.

Por exemplo, a equipa trabalhou na aprendizagem contínua, processo em que uma rede neural aprende e se adapta ao longo do tempo integrando novas informações sem esquecer o conhecimento anterior. O SpeechBrain adicionou interfaces a grandes modelos de linguagem, facilitando a sua afinação e a criação de chatbots por parte dos utilizadores. O SpeechBrain implementou algoritmos sofisticados para a busca por feixe, que é um método usado no reconhecimento de fala para encontrar a sequência mais provável de palavras, considerando várias possibilidades em cada etapa. Isso melhorou significativamente o desempenho dos seus reconhecedores de fala. Nesta linha, foram desenvolvidos reconhecedores de fala que podem trabalhar em tempo real, processando palavras faladas enquanto estão a ser ditas, o que os torna mais rápidos e reativos. As redes neuronais funcionam frequentemente como caixas negras, o que significa que o seu funcionamento interno não é facilmente compreendido. Para mitigar este problema, o SpeechBrain implementou vários métodos para tornar as redes neurais mais interpretáveis, aumentando a sua capacidade de serem compreensíveis e transparentes na forma como tomam decisões. Por fim, a equipa implementou modelos de difusão, que são técnicas avançadas para gerar áudio de alta qualidade através do seu aperfeiçoamento progressivo.

Para realizar tarefas tão exigentes, o SpeechBrain precisava de uma plataforma cloud escalável, capaz de suportar grandes modelos de IA treinados com quantidades crescentes de dados. Como o seu objetivo é democratizar a IA conversacional, o SpeechBrain também precisava de encontrar um parceiro que se alinhasse com os seus valores de abertura e transparência, bem como com os princípios open-source de portabilidade, interoperabilidade e reversibilidade.

A solução

Devido ao seu compromisso com a confiança e a abertura, e por oferecer soluções cloud baseadas em tecnologias open-source, a OVHcloud revelou-se uma escolha natural. O SpeechBrain adotou instâncias GPU NVIDIA® e o AI Training, ambas soluções alojadas na plataforma Public Cloud da OVHcloud.

Os GPU (Graphic Processing Units) são chips de computador em servidores, capazes de processar grandes conjuntos de dados e de realizar cálculos matemáticos a altas velocidades. Por esta razão, são utilizados por programadores de inteligência artificial e cientistas de dados para criar e executar modelos de treino IA. Os GPU NVIDIA são considerados os mais rápidos, e o SpeechBrain adotou os GPU NVIDIA Tesla® V100, NVIDIA Tensor Core A100 e NVIDIA Tensor Core H100 para dar resposta às suas necessidades específicas de treino IA. Estes GPU são virtuais e estão acessíveis como instâncias cloud no Public Cloud da OVHcloud, sem que seja necessário adquirir hardware físico.

O Tesla V100 proporciona o desempenho de 100 CPU num único GPU, o que hoje faz dele um dos GPU mais potentes do mercado. Oferece uma inferência 30 vezes superior e um rendimento 47 vezes superior à de um único CPU, reduzindo os tempos de treino IA de semanas para alguns dias. Estas altas velocidades permitiram ao SpeechBrain melhorar a eficácia do seu treino e acelerar o tempo de comercialização.

O GPU Tensor Core A100 veio proporcionar ainda mais desempenho, com velocidades de treino IA até 3 vezes superiores nos modelos de maior dimensão. Permite que múltiplas redes operem num único GPU ao mesmo tempo, além de poder ser particionado em várias instâncias para dar resposta a necessidades dinâmicas. O A100 também oferece uma maior capacidade de memória e uma inferência IA 249 vezes superior face aos CPU, pelo que é ideal para executar os modelos de reconhecimento de fala em larga escala do SpeechBrain.

Para dar conta de cálculos mais complexos, o SpeechBrain também adotou o GPU Tensor Core H100, que acelera o treino de grandes modelos de linguagem em até 30 vezes e inclui um Transformer Engine a fim de resolver modelos de biliões de parâmetros. Estas capacidades vieram oferecer a potência e a velocidade necessárias para treinar facilmente os modelos complexos do SpeechBrain.

Por fim, tendo em vista as suas tarefas de treino, o SpeechBrain recorreu à solução AI Training da OVHcloud. Alojada no Public Cloud e baseada na plataforma open-source Kubernetes, esta ferramenta permite lançar uma tarefa de treino em apenas alguns segundos e é compatível com bibliotecas de Machine Learning open-source como o PyTorch, o TensorFlow e o Scikit-learn. Os programadores também podem impulsionar projetos com os notebooks Jupyter pré-configurados e as imagens Docker pré-instaladas. Além disso, o AI Training otimiza a alocação de recursos GPU e possibilita a execução de várias tarefas em paralelo, permitindo que os programadores se concentrem no treino dos seus modelos de IA, sem terem de se preocupar com tarefas de engenharia complexas.

O resultado

A parceria com a OVHcloud equipou o SpeechBrain com a velocidade, o desempenho e as ferramentas necessários para os seus modelos de treino de IA conversacional em larga escala.

A adoção dos GPU NVIDIA e do AI Training permitiu ao SpeechBrain acelerar o seu treino de modelos IA e acomodar volumes crescentes de dados. Como todas estas soluções estavam alojadas no Public Cloud, o SpeechBrain pôde beneficiar de uma infraestrutura cloud escalável e fiável, com um compromisso de nível de serviço (SLA) de 99,99% e baseada em vários datacenters para assegurar uma elevada disponibilidade. Isto veio garantir que os GPU do SpeechBrain estão acessíveis a qualquer momento. O Public Cloud também oferece uma faturação transparente e um controlo de custos através da Área de Cliente OVHcloud, permitindo que o SpeechBrain seja ainda mais eficiente.

Graças a soluções baseadas em licenças open-source e à sua pertença de longa data à Open Invention Network (OIN), a escolha da OVHcloud como parceiro alinhou-se com os valores de abertura e transparência do SpeechBrain. Ambos planeiam continuar a colaborar para tornar a IA conversacional acessível a um público mais vasto e para apoiar a inovação mundial no domínio da IA.

«A nossa experiência mais positiva foi em torno da disponibilidade de recursos computacionais, especialmente os GPU. Eles encontravam-se acessíveis de forma consistente, mesmo quando precisávamos de múltiplos em simultâneo. Além disso, valorizamos bastante a introdução dos GPU H100, já que aceleraram significativamente o nosso progresso.»
Dr. Mirco Ravanelli, criador do SpeechBrain

Recursos
Website: https://speechbrain.github.io/
Repositório de código: https://github.com/speechbrain/speechbrain
Novidades do SpeechBrain: https://colab.research.google.com/drive/1IEPfKRuvJRSjoxu22GZhb3czfVHsAy0s?usp=sharing
SpeechBrain: Um toolkit de fala de utilização geral: https://arxiv.org/abs/2106.04624