Tecnologias e Ciencias Da Linguagem

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 121

Luciana Cidrim | Waslon Lopes | Francisco Madeiro

o r g a n i z a d o r e s

TECNOLOGIAS e
CIÊNCIAS DA LINGUAGEM:
vertentes e novas aplicações
TECNOLOGIAS e
CIÊNCIAS DA LINGUAGEM:
vertentes e novas aplicações
CONSELHO EDITORIAL:
Alexandre Cadilhe [UFJF]
Ana Cristina Ostermann [Unisinos/CNPq]
Ana Elisa Ribeiro [CEFET-MG]
Carlos Alberto Faraco [UFPR]
Cleber Ataíde [UFRPE]
Clécio Bunzen [UFPE]
Francisco Eduardo Vieira [UFPB]
Irandé Antunes [UFPE]
José Ribamar Lopes Batista Júnior [LPT-CTF/UFPI]
Luiz Gonzaga Godoi Trigo [EACH-USP]
Márcia Mendonça [IEL-UNICAMP]
Marcos Marcionilo [editor]
Vera Menezes [UFMG]
Luciana Cidrim | Waslon Lopes | Francisco Madeiro
o r g a n i z a d o r e s

TECNOLOGIAS e
CIÊNCIAS DA LINGUAGEM:
vertentes e novas aplicações
Diagramação: Telma Custódio

CIP-BRASIL. CATALOGAÇÃO NA FONTE


SINDICATO NACIONAL DOS EDITORES DE LIVROS, RJ

T253
Tecnologias e ciências da linguagem [recurso eletrônico] : vertentes
e novas aplicações / Luciana Cidrim, Waslon Terllizzie A. Lopes, Francisco
Madeiro. - 1. ed. - São Paulo : Pá de Palavra, 2019.
recurso digital

Formato: epub
Requisitos do sistema: adobe digital editions
Modo de acesso: world wide web
Inclui bibliografia e índice
ISBN 978-85-68326-39-8 (recurso eletrônico)

1. Tecnologia educacional. 2. Inovações educacionais. 3. Educação -


Efeito das inovações tecnológicas. 4. Livros eletrônicos. I. Cidrim, Luciana.
II. Lopes, Waslon Terllizzie A. III. Madeiro, Francisco.

19-60287 CDD: 371.337


CDU: 37.016:316.774:004

Meri Gleice Rodrigues de Souza - Bibliotecária CRB-7/6439

Direitos reservados à
PÁ DE PALAVRA
[O selo de autopublicação da Parábola Editorial]
Rua Dr. Mário Vicente, 394 - Ipiranga
04270-000 São Paulo, SP
pabx: [11] 5061-9262
home page: www.padepalavra.com.br
e-mail: [email protected]

Todos os direitos reservados. Nenhuma parte desta obra pode ser repro-
duzida ou transmitida por qualquer forma e/ou quaisquer meios (eletrônico
ou mecânico, incluindo fotocópia e gravação) ou arquivada em qualquer
sistema ou banco de dados sem permissão por escrito da editora.

ISBN: 978-85-68326-39-8
© da edição: Pá de Palavra, São Paulo, dezembro de 2019.
SUMÁRIO

Apresentação............................................................................................................................. 7

Capítulo 1 – Brincando de escrever: um aplicativo para auxiliar a escrita


de escolares com dislexia......................................................................................................... 9
Avelino Gomez, Luciana Cidrim e Francisco Madeiro

Capítulo 2 – Atividades educacionais em realidade aumentada para o


protagonismo dos alunos na aprendizagem dos conteúdos educacionais.................... 17
Annie Lezan Bittencourt de Moura

Capítulo 3 – Categorização de Documentos..................................................................... 33


Roberto H. W. Pinheiro e George D. C. Cavalcanti

Capítulo 4 – Mineração de dados textuais não estruturados utilizando redes


complexas................................................................................................................................. 49
Raquel Bezerra Calado e Alexandre Magno Andrade Maciel

Capítulo 5 – Introdução a Chatbots e suas aplicações em Ciências da Linguagem.... 67


Sílvio S. Bandeira, Anthony J. C. C. Lins, Fernando J. A. Wanderley,
Matheus B. L. Marinho, Waslon T. A. Lopes e Francisco Madeiro

Capítulo 6 – Reconhecimento de comandos de voz como instrumento de interface


para equipamentos eletroeletrônicos para pessoas portadoras de deficiência
físico-motora............................................................................................................................ 83
Fábio Cisne Ribeiro, Karla Julianne Negreiros de Matos e Paulo César Cortez

Capítulo 7 – Reconhecimento de emoções humanas em dados multimídia................ 95


Eanes Torres Pereira, Luciana Ribeiro Veloso e Sinara de Oliveira Branco

Sobre os autores..................................................................................................................... 115

5
APRESENTAÇÃO

A educação é o ponto de partida para a construção de sociedades mais


evoluídas, harmônicas e justas. Todos os documentos recentes lançados por
agências econômicas relevantes ao redor do mundo apontam para uma forte
correlação entre o número de horas de estudo dos seus cidadãos e o bem-es-
tar das pessoas nos diversos países. Por isso, torna-se imperativo o desenvol-
vimento das pessoas a partir de experiências educacionais bem-sucedidas, e
as ciências da linguagem são fundamentais neste contexto.
Não obstante a este importante aspecto, a humanidade está passando
por uma relevante transformação a partir das novas tecnologias que foram
desenvolvidas no século XX, mas que alcançaram a maturidade nos últimos
anos. Dispositivos com capacidade de interação que geram estímulos pra-
zerosos, sistemas inteligentes que prevêem o que as pessoas precisam de
forma customizada, sistemas sensores que monitoram as atividades, saúde
e rotina das pessoas, sistemas de armazenamento de informações utilizando
computação em nuvem, robotização de processos repetitivos, entre outros,
têm mudado não somente a forma como as pessoas vivem e se relacionam,
mas também como elas aprendem. O interesse das pessoas, principalmente os
mais jovens, parece estar cada vez mais associado ao uso de tecnologias que
tornem os processos de aprendizado e interação mais dinâmicos e lúdicos.
A tecnologia aparece atualmente como uma importante ferramenta para
o estímulo a novos aprendizados e novas experiências, bem como muda a
forma como as pessoas gerenciam conhecimentos já obtidos e como tendem
a buscar novos conhecimentos. Com isso, o desenvolvimento e a criação de
ferramentas e aplicativos que utilizam tecnologia para melhorar as experiên-
cias no processo de aprendizado, bem como sistemas que sejam capazes de
gerar novas possibilidades de interação, tornam-se essenciais para a educação

7
Tecnologias e ciências da linguagem

e comunicação no futuro que já se apresenta de forma contundente no pre-


sente. Os métodos de interação via diversas formas de linguagem precisam
continuar se reinventando para estimular, agregar e incluir pessoas.
Neste contexto, este livro apresenta uma série de novas possibilidades
relevantes não somente para educadores, mas também para desenvolvedo-
res de sistemas tecnológicos. Entre as diversas experiências trazidas no li-
vro, podemos citar aplicativos que suscitam de forma lúdica a vontade de
escrever e a utilização de realidade aumentada para gerar novas experiências
para o estudante como protagonista a partir de metodologias ativas, como
a sala de aula invertida. O livro também apresenta informações relevantes
sobre tarefas que estão associadas à categorização de informações e mine-
ração de dados, que podem melhorar as experiências de recomendação para
quem aprende. Ainda é discutida a utilização de Chatbots (assistente virtual)
e como estas ferramentas podem ser adaptadas para melhorar a experiências
de aprendizado. Outro importante aspecto tratado no livro é a inclusão de
pessoas com deficiência físico-motora, que é discutido à luz de ferramentas
de reconhecimento de comando de voz. Por último, mas não menos impor-
tante, discute-se sobre a questão das emoções humanas, que por muitas vezes
é negligenciada nos processos de aprendizado e comunicação entre as pes-
soas via plataformas tecnológicas, mas que é de fundamental importância
para que o aprendizado e comunicação sejam efetivos.
Por fim, todos os trabalhos desta coletânea, sob diferentes perspectivas,
apontam o papel fundamental da tecnologia e dos processos de interação
para melhoria dos processos educacionais e comunicação no novo mundo
que surge a partir da transformação digital. A abrangência e a diversidade
das diferentes contribuições farão desta obra uma referência para educado-
res, desenvolvedores de sistemas, pensadores e formuladores de políticas que
reconheçam na ciência da linguagem uma possibilidade estratégica na cons-
trução de um Brasil protagonista em educação e tecnologia.

Prof. Dr. Carmelo J. A. Bastos Filho


Universidade de Pernambuco - UPE

8
1
BRINCANDO DE ESCREVER
um aplicativo para auxiliar a escrita de escolares
com dislexia
Avelino Gomez
Universidade Católica de Pernambuco - UNICAP
Luciana Cidrim
Universidade Católica de Pernambuco - UNICAP
Francisco Madeiro
Universidade Católica de Pernambuco - UNICAP

1. INTRODUÇÃO
O uso das tecnologias da informação e da comunicação (TIC) moder-
niza a educação, abrindo possibilidades de ensino cada vez mais eficientes
(CIDRIM et al. 2015; CIDRIM; MADEIRO, 2017; KUSTER et al., 2018). Uma
das principais vantagens do uso das TIC no processo de ensino-aprendiza-
gem de crianças com transtornos de aprendizagem, em relação a propostas
tradicionais de jogos e materiais impressos, é promover uma interação mais
adequada (BORHAN et al., 2015, 2018; HOLZ et al., 2018). Os jogos educati-
vos, quando bem sucedidos, despertam o interesse da criança, aumentando
o envolvimento e a motivação para aprender (GARCIA; KLOOS; GIL, 2013;
RAJAGOPAL; JAYA, 2018).
Para crianças com transtornos de aprendizagem, em especial, a dislexia,
apenas as formas tradicionais de modelos de ensino podem não ser suficien-
tes para alcançarem condições de aprendizagem mais adequadas. Os disléxi-
cos necessitam de outros mecanismos de ensino baseados em estratégias mul-
tissensoriais, ou seja, por meio das relações entre imagens e sons (BORHAN
et al., 2015; CIDRIM; BRAGA; MADEIRO, 2018).
De um modo geral, as dificuldades de aprendizagem podem ser de-
sencadeadas por fatores relacionados à metodologia da alfabetização, como
também por fatores emocionais ou socioeconômicos, já a dislexia é decorrente

9
Tecnologias e ciências da linguagem

de uma combinação de fatores genéticos e neurológicos causando deficit no


processamento da informação (SHAYWITZ, 2006; CHIARAMONTE, SENO;
CAPELLINI, 2018). Nesse sentido, escolares com dislexia apresentam desorga-
nização no nível fonológico, ocorrendo problemas de conversão fonografêmi-
ca, ocasionando também dificuldades acentuadas na aprendizagem da língua
escrita (CHIARAMONTE; SENO; CAPELLINI, 2018).
O objetivo deste capítulo é apresentar um jogo digital destinado a auxi-
liar escolares disléxicos. O aplicativo utiliza o reconhecimento de manuscritos.

2. MÉTODO
O jogo foi desenvolvido para o sistema operacionail Android. Utilizou-se
a plataforma nas nuvens Firebase (FIREBASE, 2018) para o armazenamento de
informações online. Para o desenvolvimento da interface do jogo, procurou-se
seguir diretrizes para a criação de softwares para crianças disléxicas, como,
por exemplo, tipo de fonte utilizada e contrastes entre as cores (CIDRIM et
al., 2015), além de oferecer uma interface dinâmica, permitindo que a criança
personalize a aplicação. O jogo utiliza um sistema de login, onde o usuário
pode se cadastrar e/ou entrar em sua conta. Existem duas modalidades de
contas: usuários (jogadores) e administradores (profissionais que acompa-
nham as crianças).

3. RESULTADOS
Ao entrar no jogo, o usuário tem acesso ao menu principal da aplicação
(Figura 1), onde são apresentados os botões: “jogar”, “loja” e “configurações”,
além de: pontuação do usuário (canto superior esquerdo), nome do jogador
(topo da tela do aplicativo, à direita) e um botão de logout, caso o usuário
queira sair de sua conta. Ao clicar em “Jogar”, o usuário segue para a tela do
jogo (Figura 2), onde palavras passarão da esquerda para direita e a criança
deverá escrevê-las, tendo como opção escrever da forma cursiva (letra ma-
nuscrita) ou em letra de forma (letra de imprensa maiúscula). Ao terminar
de escrever a palavra, a criança deverá pressionar o botão “Ok”, que validará
a resposta. Se correto, a criança ganhará de um a três pontos, dependen-
do da dificuldade da palavra. Se o jogador errar ou a palavra sair da sua
visibilidade, perderá uma vida. A cada jogo o usuário tem 3 vidas. O jogo
termina quando as vidas se esgotam. É importante ressaltar que em caso de
erros durante a atividade, o usuário é notificado com uma pequena vibração
do aparelho com o intuito de não causar desmotivação durante a atividade.

10
Capítulo 1 – Brincando de escrever

Figura 1. Menu principal da aplicação

Figura 2. Tela do jogo

O menu de configurações (Figura 3) oferece as opções de: cor do lápis


e cor do papel. Cor do lápis permite que o jogador altere a cor do traçado do
lápis durante o jogo, tendo como opção uma paleta de 12 cores (verde escu-
ro, azul, branco, amarelo, vermelho, laranja, verde claro, marrom, rosa, lilás
claro, lilás escuro e cinza). A cor do papel permite que o jogador altere a cor
do background da aplicação. Na opção “Loja”, o usuário pode adquirir, através
de sua pontuação geral, elementos de customização do jogo, como alterar o
background da aplicação (Figura 4) e o avatar (Figura 5).
Na modalidade de administrador, o usuário tem acesso a dois botões:
“Listar” e “Configurações” (Figura 6). Ao clicar em “Listar”, aparece uma tela
com o nome dos usuários (Figura 7). Efetuando o toque em um dos nomes,
aparece um espaço para descrição que pode ser editada no campo “lembrete”
(escolaridade, escola, data de nascimento da criança) (Figura 8). Todas as telas
dos jogos realizados podem ser armazenadas com a escrita das palavras pe-

11
Tecnologias e ciências da linguagem

los usuários (Figura 9). Em “Configurações”, o administrador pode adicionar


novas palavras às listas de palavras já existentes (Figura 10).

Figura 3. Menu de configurações

Figura 4. Tela do background

Figura 5. Tela do avatar

12
Capítulo 1 – Brincando de escrever

Figura 6. Tela do administrador

Figura 7. Tela nome dos usuários

13
Tecnologias e ciências da linguagem

Figura 8. Tela de edição

Figura 9. Tela da escrita das palavras

14
Capítulo 1 – Brincando de escrever

Figura 10. Tela de adicionar novas palavras

4. CONCLUSÕES
Este jogo se propõe como uma ferramenta tecnológica auxiliar na in-
tervenção dos problemas de escrita por crianças disléxicas. A possibilidade
de adição de novas palavras ao aplicativo, a escrita da palavra através do
touchscreen­ com a própria letra e a personalização da interface são funciona-
lidades que proporcionam ao fonoaudiólogo ou pedagogo a possibilidade de
trabalhar de acordo com as dificuldades específicas de cada criança. Como
sugestão de trabalhos futuros estão: (1) inserção de animações e novas ima-
gens de background para o jogo; (2) realizar um estudo para avaliar o uso do
jogo na intervenção fonoaudiológica e (3) desenvolver o jogo para o sistema
operacional iOS.
Este capítulo é uma versão expandida do trabalho “Brincando de escre-
ver: um aplicativo para auxiliar a escrita de crianças disléxicas”, apresentado
em forma de poster no Brain Connection, realizado de 8 a 11 de novembro de
2018 na cidade de Belo Horizonte/MG.

15
Tecnologias e ciências da linguagem

REFERÊNCIAS
BORHAN, N.; SHARBINI, H.; AHMADI, M.; CHIU, P. Developing reading skills using sight
word reading strategy through interactive mobile game-based learning for dyslexic children.
International Journal for Innovation Education and Research, Vol. 3, n. 10, p. 1-10, 2015.
BORHAN, N.; SHIANAG, C.; CHIU, P.; SHARBINI, H.; PING PING, T.; OTHMAN, R.; PETER,
M. An enhancement of dyslexic mobile application using sight word reading strategy: results
and findings. Journal of Computer Science, Vol. 14, n.7, p. 919-929, 2018.
CHIARAMONTE, T.; SENO, M.; CAPELLINI, S. Relação do desempenho ortográfico de escolares
com dislexia do desenvolvimento. In: ALFERES (Org.). Qualidade e Políticas Públicas na
Educação 8. São Paulo: Atena Editora, p. 256-262, 2018.
CIDRIM, L.; CAJUEIRO, L.; BRAGA, P.; BEZERRA, R.; GAMA, C.; MADEIRO, F. DIS-
ORTOGRAFANDO: um aplicativo desenvolvido para auxiliar a intervenção com crianças
disléxicas. In: CIDRIM; COSTA (Orgs.) Tecnologias da Informação e da Comunicação (TIC)
Aplicadas às Ciências da Linguagem. Curitiba: CRV, 2015, p. 9-22.
CIDRIM, L.; MADEIRO, F. Studies about spelling on dyslexia: a literature review. Revista
CEFAC, Vol. 19, n. 6, p. 842-854, 2017.
CIDRIM L.; BRAGA, P.; MADEIRO, F. Desembaralhando: um aplicativo para intervenção no
problema do espelhamento de letras por crianças disléxicas. Revista CEFAC, Vol. 20, n. 1,
p. 13-20, 2018.
FIREBASE. [Acesso em: 08 Dez 2018]. Disponível em: https://firebase.google.com/summit/.
GARCIA, C.; KLOOS, D.; GIL, C. Game based spelling learning. IEEE Frontiers in Education
Conference (FIE). Saratoga Springs, New York, p. 11-15, 2013.
HOLZ, H.; BRANDELIK, K.; BEUTTLER, B.; BRANDELIK, J.; NINAUS, M. How to train your
syllable stress awareness – a digital game-based intervention for Gernan dyslexic children.
International Journal os Serious Games, Vol. 5, n. 3, p. 37-59, 2018.
KUSTER, S.; VAN WEERDENBURG, M.; GOMPEL, M.; BOSMAN, A. Dyslexie font does not
benefit reading in children with or without dyslexia. Annals of Dyslexia, Vol. 68, n. 1, p.
25-42, 2018.
RAJAGOPAL, K.; JAYA, S. “Spell it up!”: mobile application (app) for improving spelling skills
among the dyslexic students. Proceedings of International Conference on the future of
Education, IConFEd 2018. Institute os Teacher Education Tuanku Bainun Campus, Penang,
Malásia.
SHAYWITZ, S. Entendendo a dislexia. Um novo e completo programa para todos os níveis de
problemas de leitura. Porto Alegre: Artmed, 2006.

16
2
ATIVIDADES EDUCACIONAIS EM
REALIDADE AUMENTADA PARA O PROTAGONISMO
DOS ALUNOS NA APRENDIZAGEM DOS
CONTEÚDOS EDUCACIONAIS
Annie Lezan Bittencourt de Moura
CNA Inglês Definitivo

1. INTRODUÇÃO
Vamos iniciar este capítulo fazendo duas reflexões importantes. Primei-
ra reflexão: Você está preparado para ensinar aliando a Realidade Aumenta-
da, através da tecnologia móvel, com o uso de um aplicativo digital adaptado
ao conteúdo da disciplina que você leciona?
O processo de aprendizagem no século XXI não pode mais acontecer cen-
trado no professor. O aluno se motiva quando fica curioso e vai buscar/pesquisar
as suas próprias descobertas. O uso das metodologias ativas (VICKERY, 2016)
para o ensino é capaz de motivar o desenvolvimento do aprendiz deste milênio.
Visando tornar a sua aula menos centrada no professor e desenvolver a
autonomia do aprendiz, apresentamo-lhes aqui um formato de ensinar seus
conteúdos através do envolvimento de seus aprendizes com o auxílio do apli-
cativo digital HP Reveal (originalmente conhecido por Aurasma, mas recente-
mente adquirido pela HP, que alterou o nome do App) usando os smartphones
e dinâmicas, com os quais o seu aluno ficará ativamente envolvido no pro-
cesso de aprendizagem.
Segunda Reflexão: Você já ouviu falar no conceito BYOD para as aulas?
BYOD é a sigla para Bring Your Own Device, que em Português significa “Tra-
ga o seu próprio aparelho” (livre tradução feita pela autora) ou “traga seu
próprio dispositivo” (Revista Exame, 2013).

17
Tecnologias e ciências da linguagem

Este conceito traz novos desafios ao planejamento das aulas pelos pro-
fessores. Escolhas e desafios sobre autorizar ou não os alunos a usarem os
aparelhos celulares (smartphones) ou tablets nas aulas passam a rondar os pro-
fessores no início do século XXI. As dúvidas perpassam desde decidir se os
estudantes devem usar seus próprios dispositivos móveis ou os equipamen-
tos da escola, até sobre formas de garantir que os alunos irão permanecer na
tarefa se estiverem com os seus próprios dispositivos.
Os aparelhos móveis como os smartphones e os tablets invadiram a vida
das pessoas, mas há muitos educadores que ainda têm receio de trazê-los
para as suas salas de aula, pois, de certa forma, se a atividade não for mui-
to bem elaborada, o educador sente-se inseguro em não conseguir garantir
que os alunos permaneçam na tarefa, já que estarão com os seus próprios
dispositivos.
Percebendo que muitos professores ainda sentem-se inseguros em como
lidar com esses equipamentos nas aulas, será apresentada aqui uma lista de
atividades possíveis e já testadas para encorajar seus alunos a usarem os apa-
relhos móveis na sala de aula, de forma inovadora e criativa.
Segundo Strasser (2012, p.8-10), o uso de ferramentas tais como aplica-
tivos para celulares smartphones e/ou tablets pode transformar o processo de
aprendizagem em algo criativo, interativo, colaborativo, rápido, que expan-
de o conhecimento, oferece oportunidades autênticas de uso do conteúdo da
disciplina, estimula a alfabetização digital, é motivacional, é democrático, faz
bem ao meio-ambiente, além de ser uma fonte aberta e, em alguns casos, até
gratuita de recursos para a aprendizagem.
Assim, a autora deste texto, baseada na sua prática pedagógica, apre-
sentará a seguir técnicas de como usar a Realidade Aumentada para ajudar
os docentes a ensinarem na forma como as gerações de Millenials (aqueles
nascidos entre 1979 e 1995) e a geração Z (aqueles que nasceram entre 1992
e 2010), de acordo com escoladainteligencia.com.br (acessado em 20/04/19),
querem aprender: sendo ativos e protagonistas e com a tecnologia ao dispor
da palma de suas mãos.

2. NOSSOS OBJETIVOS
Ensinar e motivar os professores das mais diversas disciplinas a pensa-
rem seus planejamentos de aulas incluindo a utilização do HP Reveal, usando
a tecnologia móvel de forma a envolverem seus aprendizes de forma ativa na
aquisição do conhecimento e na consolidação dos conteúdos escolares.

18
Capítulo 2 – Atividades educacionais em realidade aumentada para o protagonismo dos alunos na aprendizagem dos conteúdos educacionais

Este capítulo visa oferecer sugestões de uso do aplicativo HP Reveal­


(antigo Aurasma) em atividades variadas para a fixação de conteúdos e apren-
dizagem através de atividades em realidade aumentada. As atividades pro-
postas ao longo deste texto foram testadas e adaptadas para o ensino de
diversos conteúdos escolares pela professora autora deste texto. Contudo, é
recomendado aos leitores que explorem ainda mais possibilidades e criem
suas próprias adaptações, expansões e variações.

3. REALIDADE AUMENTADA EM FOCO


A realidade aumentada (Augmented Reality ou AR)  é uma exibição ao
vivo, direta ou indireta, de um ambiente físico, no mundo real, cujos ele-
mentos são aumentados (ou completados) por estímulos sensoriais gerados por
computador, tais como som, vídeo, gráficos ou  dados de GPS. Ou em uma
definição mais simples, a Realidade Aumentada (RA ou AR, de  Augmented
Reality, em inglês) é uma tecnologia que “mistura” os mundos real e virtual,
onde o usuário pode interagir com o mundo dentro da tela, mesmo estando
fora dela, de acordo com Mena (2017).
De acordo com o Editorial QueConceito, a realidade aumentada é um
elemento das novas tecnologias que dispõe de uma visão diferente da reali-
dade. Consiste na combinação de elementos de um ambiente real com outros
elementos de um ambiente virtual que são criados em três dimensões. Ao
mesmo tempo, esses dois elementos se combinam em tempo real. A caracte-
rística principal desta tecnologia é a visualização de um ambiente virtual (por
exemplo, animais pequenos em maior tamanho) e sua interação (Editorial
QueConceito, 2019).
A realidade aumentada está relacionada com um conceito mais geral
chamado realidade mediada (Revista diálogo educacional 4, 2003), em que uma
vista da realidade é modificada (até mesmo diminuída em vez de aumentada)
por um computador. Como resultado, a tecnologia age alterando a percepção
atual da realidade. 
A realidade mediada  refere-se à habilidade de acrescentar ou subtrair
informação e até mesmo manipular a percepção da realidade através do uso
de um computador ou de um aparelho portátil como um smartphone.
Legal, mas isso faz o que? A Realidade Aumentada sobrepõe gráficos,
sons, aprimoramentos 2D e 3D de telas de computador em ambientes reais.
Na realidade aumentada, o ambiente é real, mas com informações e imagens

19
Tecnologias e ciências da linguagem

acrescentadas pelo programa ou aplicativo. Em outras palavras, a realidade


aumentada cria uma ponte entre o real e o virtual.
Além de envolver os nativos digitais, com a utilização do aplicativo HP
Reveal nos aparelhos móveis em sala de aula, o aluno e o professor podem
explorar e ampliar os conteúdos através de trabalhos cooperativos que envol-
vem Realidade Aumentada, onde a maioria do trabalho é feita por estudantes
em grupos cooperativos de aprendizagem.
Deste modo, é necessário um planejamento cuidadoso na elaboração das
tarefas com realidade aumentada por parte do professor. Controle de turma,
coordenação das atividades da aula, prática independente, trabalho em gru-
pos, coordenação com os conteúdos da disciplina são aspectos aos quais o
educador deve estar atento ao desenvolver aulas usando os aparelhos móveis
e aplicativos.
Além desses cuidados, é importante prestar atenção especial à motiva-
ção dos aprendizes e ao aumento do interesse em participar das atividades.
Através da experiência da autora, o uso dessas tecnologias promove maior
engajamento uma vez que esses artefatos estão em consonância com os estilos
de aprendizagem dos alunos e, normalmente, com seus desejos e vontades.
Dito isto, para exemplificar os benefícios de envolver os alunos com o
HP Reveal, seguem algumas ideias para demonstrar o uso de smartphones
conectados à internet com este aplicativo em sala de aula.

4. O APLICATIVO HP REVEAL

4.1. Descrição do APP


Este APP auxilia a criar e acessar a realidade aumentada para transformar
objetos e imagens do dia-a-dia em oportunidades interativas de envolver edu-
candos e seus pais. Este aplicativo usa animação, vídeos, áudio e conteúdo 3D.
Com o aplicativo HP Reveal, o professor pode envolver os alunos para
criarem e compartilharem as suas próprias experiências em realidade aumen-
tada. O aluno ou o próprio professor cria “AURAS” desenvolvendo gatilhos a
partir de fotos e objetos. Então, basta apontar o celular ou tablet para o objeto-
-gatilho que aparecerá a imagem ou vídeo ou áudio da “AURA” filmada pelo
professor ou aluno.
Dentro do próprio aplicativo, pode-se encontrar um detalhado passo-a-
-passo para ajudar o educador a criar suas Auras e poder compartilhar com
seus alunos, pais e colegas.
O educador pode a princípio usar seus próprios vídeos ou acessar os
milhares de vídeos disponíveis no aplicativo. As auras mais populares estão

20
Capítulo 2 – Atividades educacionais em realidade aumentada para o protagonismo dos alunos na aprendizagem dos conteúdos educacionais

na possibilidade de colocar dinossauros na rua da sua escola, ou colocar uma


mensagem de seu aluno explicando um dos conteúdos do livro a partir da
foto da capa deste mesmo livro, por exemplo.
Na página https://studio.hpreveal.com/landing é possível encontrar to-
dos os detalhes e explicações de como usar esse APP.

Ø É gratuito

Ø Plataforma
Android ou IOS

Ø Público alvo (Faixa etária)


Qualquer idade. Contudo, jovens e adolescentes mais familiarizados com
a tecnologia sentem-se mais confortáveis em criar atividades com o Aurasma.

Ø Benefícios
Motivação e surpreender os alunos com oportunidades interativas de
praticar o conteúdo brincando com a realidade aumentada, que tanto encanta
e prende a atenção do aprendiz.

Ø Inconvenientes
Às vezes o aplicativo trava e fica lento. Os vídeos mais curtos, de até 30
segundos, funcionam melhor.

Ø Tutoriais
• Como usar e visualizar realidade aumentada no aplicativo HP
Reveal­. Autoria: Power in your hands. Publicado em 20 de junho de
2018. Acessado em 30/03/19. https://youtu.be/NM9iV6pQnNs.
• Make your Own Augmented Reality - with PowerPoint and Auras-
ma (Now Called HP REVEAL). Autoria: PowerPoint Spice. https://
www.youtube.com/channel/UCIWglTtslnzN3rSEUbldzag. Publica-
do em 24 de abril de 2017. Acessado em 30/03/19. https://youtu.be/
pEVKtPEcgQg.
• Aurasma Demo (LARRY MAGID) - https://youtu.be/GBKy-hSedg8.
Publicado em 8 de abril de 2011. Acessado em 30/03/19.
• Aurasma Lite Tutorial 1 (Create your own Aura). Autor: Mii, Paraozle.­
Publicado em 27 de outubro de 2012. Acessado em 30/03/19. https://
youtu.be/q5uyFJR1-N8.

21
Tecnologias e ciências da linguagem

• Aurasma for Beginners- How to create an Aura. Autora: Sarah G.


Publicado em 30 de junho de 2017. Acessado em 30/03/19. https://
www.youtube.com/watch?v=tzz3yjwymBE.

4.2. Como usar o APP HP Reveal


Sua utilização é bem simples: basta iniciar o aplicativo; criar uma conta
na HP Reveal pelo próprio aplicativo; escolher a Trigger (imagem que servirá
de gatilho, para iniciar a animação) e as chamadas “Auras”, que serão as AR’s
já ativadas.
Após selecionar o elemento que deseja usar como Realidade Aumen-
tada (que pode ser uma foto, um símbolo etc.), você selecionará a “Aura”
que deseja utilizar, que pode ser uma imagem, um vídeo em flash ou uma
animação 3D.
A Realidade Aumentada criada ficará armazenada no seu usuário no
HP Reveal, que terá um canal próprio para você gerenciar e disponibilizar
suas Auras para seus amigos. Depois de criada a AR, basta pedir para
que seus amigos se inscrevam em seu canal e utilizem a sua Realidade
Aumentada.
Siga o passo a passo criado pela autora para servir de guia de como
montar a Realidade Aumentada usando o aplicativo HP Reveal/Aurasma:

A. Fazendo seu vídeo:


• Grave um vídeo de 20 segundos, aproximadamente. Este vídeo tem
que estar no seu celular.

B. Entendendo:
• Aura = Onde você aponta o celular (a foto ou desenho ou imagem
na camisa).
• Overlay = O vídeo que se sobrepõe à foto.

C. Criando o Overlay no HP Reveal.


• Baixe o HP Reveal na App Store (iPhone) ou Play Store (Android) e
abra o aplicativo. Crie um usuário e senha para você.
• Faça login com seus dados. Na tela a que exibe sua câmera, clique
no ícone do HP Reveal para ir ao menu principal, e depois no ícone
para criar um overlay.
• Selecione “Device” para criar um overlay a partir de um arquivo locali-
zado em seu dispositivo. Na parte superior direita, clique no “+” e se-
lecione “Camera” para utilizar sua câmera ou “Photo Album” para se-

22
Capítulo 2 – Atividades educacionais em realidade aumentada para o protagonismo dos alunos na aprendizagem dos conteúdos educacionais

lecionar uma foto/ vídeo em seu dispositivo e toque em escolher. Dê


um nome (opcional) ao seu overlay e clique em Finish para terminar.

D. Associando o Overlay à foto (Choose Overlay)


• Na aba “Create” (Criar) selecione o overlay que deseja usar e toque em
select (escolher).
• Aponte a câmera para a foto que deseja usar. Atente para o medidor. Ele
deve estar pelo menos na área verde para garantir a qualidade da foto e
funcionamento do overlay. Clique no ícone da câmera para tirar a foto.
• Posicione e redimensione como desejar que seu overlay apareça sobre
a foto.
• Nomeie seu overlay e defina sua privacidade (privado ou público).
Você pode marcar “Add to a channel” para adicioná-lo a um canal seu.
Para criar um canal, clique em “+” e preencha os dados. Clique em
Finish para terminar.

5. U SO PEDAGÓGICO: SUGESTÕES PARA O ENSINO DE VARIADOS CONTEÚDOS COM IDEIAS


DE ATIVIDADES PARA AULA

5.1. Gincanas em vídeo ao redor da escola usando sobreposições de AR


Gincana ou caçada ao tesouro, onde as “pistas” (Figura 1A) são descober-
tas ao fazer o aluno apontar seu aparelho móvel (smartphone ou tablet), como
demonstrado na Figura 1B. Na caçada ao tesouro (Figuras 1A e 1B), as “pistas”
são descobertas ao fazer o aluno apontar seu aparelho móvel para o “gatilho”.
Uma após a outra, as “pistas” vão sendo descobertas ao longo da atividade.

Figura 1A. Gincana de caçada às pistas Figura 1B. Caçada às pistas


Fonte: Fotos pertencentes ao acervo da autora.

23
Tecnologias e ciências da linguagem

5.2. Projetos
Peça aos alunos que façam vídeos de atividades de sala de aula que eles
fazem normalmente e criem sobreposições de AR em suas tarefas e projetos,
explicando os conteúdos. É recomendável o professor criar um projeto onde
os alunos filmam-se explicando determinado conteúdo ou assunto. Estes ví-
deos serão as AURAS para outros estudantes aprenderem novos assuntos, ao
apontarem seus celulares para uma foto ou imagem desenhada pela criança
(Figura 2). Este é um modo interessante de fazer um aluno ensinar ao outro.
Na imagem 2, observe que, a partir de um desenho produzido pelos alunos, o
HP Reveal traz em Realidade Aumentada um vídeo com um dos aprendizes
explicando o conteúdo do desenho.

Figura 2. Vídeo em realidade aumentada explicando a imagem


Fonte: Fotos pertencentes ao acervo da autora.

5.3. T arefa de casa para aula no formato Sala de Aula Invertida


(Flipped Classroom)
Para criar aulas no formato Aprendizagem Invertida (LOCKWOOD,
2014), faz-se necessário entender primeiro que, neste formato, as atividades
de apresentação do novo conteúdo devem ser feitas em casa e as atividades
de prática, que antes seriam passadas como tarefa de casa, passam na sala de
aula invertida a serem feitas em classe.

24
Capítulo 2 – Atividades educacionais em realidade aumentada para o protagonismo dos alunos na aprendizagem dos conteúdos educacionais

Para a sala de aula invertida acontecer, pode-se usar a tecnologia como


a mais comum forma de levar a informação sobre os novos conteúdos para
o aluno fazer em casa, pois os alunos assistem às apresentações e instruções
dos professores em casa, preparando-se para a prática na turma. Na sala de
aula invertida, em classe, o aluno participa de debates, trabalha na solução
de problemas, faz trabalhos colaborativos para resolver questões e desenvol-
vem projetos.
O gatilho da realidade aumentada pode ser um objeto da escola (uma
camisa de uniforme, um quadro, a capa de um livro, etc) e a aura pode ser
um vídeo criado pelos próprios alunos ou mesmo pelo professor dando as
direções de como ganhar a gincana chegando ao “tesouro” (Figura 3). As
imagens na parede servem de gatilho para a visualização da Aura.
Assim, o exemplo que se quer mostrar aqui é a possibilidade de o pro-
fessor filmar-se explicando as instruções ou dicas para que os alunos possam
reproduzir, através da realidade aumentada, a partir do desenho na camisa
do uniforme escolar do aluno. O aluno aponta seu celular para o logo do co-
légio no uniforme e aparece um vídeo em realidade aumentada do professor
da disciplina, explicando a lição a ser estudada.
Deste modo, o aluno pode repetir a explicação e assisti-la novamente
quantas vezes precisar.

Figura 3. Na foto, a partir do desenho em uma camiseta,


surge um vídeo da professora explicando e resumindo o conteúdo da lição.
Fonte: Fotos pertencentes ao acervo da autora.

25
Tecnologias e ciências da linguagem

5.4. Estudando o corpo humano


Estimule os alunos a criarem “layers” (camadas) explicativos em camise-
tas. Na Figura 4 veja a imagem da camiseta como gatilho para aparecerem os
órgãos do tórax humano em realidade aumentada. Mas para a aprendizagem
se tornar mais ativa e menos receptiva, recomenda-se que o professor esti-
mule seus alunos a criarem seus próprios vídeos explicando as funções de
órgãos, por exemplo. Pois a construção do vídeo explicativo ajudará os alunos
a aprenderem melhor os conteúdos estudados, muito mais ativamente do que
sendo meros espectadores de vídeos criados pelos professores.

Figura 4. Camisa explicativa

5.5. F aça o seu “Gallery Walks” (caminhadas em supostas galerias)


ganhar vida com fotos e vídeos
A partir de desenhos feitos pelos alunos (Figura 5A), fotos de persona-
gens históricos (Figura 5B) ou fotografias dos próprios alunos (Figura 5C), que
servem como “gatilhos” para disparar o vídeo do HP Reveal como realidade
aumentada. O vídeo pode ter sido gravado e filmado pela própria criança ou
estudante. Esta é uma forma de fazer o aluno pesquisar sobre um tema, fil-
mar-se falando e explicando sobre este mesmo tema para poder usar este vídeo
como “overlay” no HP Reveal. Nas imagens das Figuras 5A, 5B e 5C, demons-
tramos atividades tipo “galeria” com Realidade Aumentada.

26
Capítulo 2 – Atividades educacionais em realidade aumentada para o protagonismo dos alunos na aprendizagem dos conteúdos educacionais

Figura 5A. Explicando personagens Figura 5B. Passeio no museu Figura 5C. Outras imagens
de passeio no museu
Fonte: Fotos pertencentes ao acervo da autora.

5.6. Memory Games (Jogos de Memória)


A partir de fotos como gatilhos, alunos ouvem frases ou dicas para
fazer “par” no jogo de memória (Figura 6). Por exemplo, ao estudar uma lín-
gua estrangeira, a imagem de um animal servirá de gatilho para um vídeo
com o som da pronúncia do nome deste animal, que o levará a formar o
par com a ortografia do nome deste mesmo animal. Na matemática, pode-se
colocar equações de tabuada para através do aplicativo de realidade aumen-
tada o aluno ouvir a explicação do professor. Exemplo, num cartão o aluno
encontra a expressão 9 x 5. Ao colocar o celular com o aplicativo, o aluno
ouve a resposta 45. Então, o aluno deverá fazer o par com o cartão que tiver
o número 45 escrito.

5.7. Fichas de atividades


Nas fichas de atividades (Figura 7), os comandos das tarefas poderão vir
explicados através dos “layers” em vídeos no aplicativo HP Reveal de Reali-
dade Aumentada.
Crie a sua ficha de tarefas a serem feitas na casa do aluno, e crie vídeos
com realidade aumentada para explicar ao aluno o que ele deverá pesquisar
sobre a imagem como tarefa a ser trazida para a próxima aula.
Por exemplo, coloque uma imagem de uma pintura impressionista (Figu-
ra 7) na ficha de atividades. Ao apontar o celular para a pintura impressa na fi-
cha, o aluno ouvirá a pergunta do professor, na língua alvo, assim: “Esta é uma
pintura Impressionista. Pesquise onde começou o movimento impressionista e

27
Tecnologias e ciências da linguagem

quais princípios fundamentais regiam as pinceladas dos artistas.” Ou mesmo,


assistir a um breve vídeo sobre aquela obra impressa na ficha de atividades.
Com atividades e fichas de tarefas assim, o aluno sentir-se-á como se esti-
vesse levando o professor para casa e poderá ouvir a pergunta ou a explicação
do professor, quantas vezes achar necessário para dar conta da tarefa proposta.

Figura 6. Jogo da memória


Fonte: Fotos pertencentes ao acervo da autora.

Figura 7. Ficha de atividade para casa


Fonte: Fotos pertencentes ao acervo da autora.

28
Capítulo 2 – Atividades educacionais em realidade aumentada para o protagonismo dos alunos na aprendizagem dos conteúdos educacionais

5.8. Mais ideias e inspirações


Caso você queira ter acesso a mais ideias e inspirações, recomenda-se
uma ampla pesquisa no youtube, no vídeo Teaching with Aurasma. Autor Coo-
per­, Charles. Publicado em 18 de janeiro de 2013. https://www.youtube.com/
watch?v=uHIxYpBW7sc
Neste vídeo você poderá inspirar-se com ideias para atividades de ma-
temática e sua resolução através da realidade aumentada feita com o auxílio
do App HP Reveal.
Princípios da teoria de Bloom podem ser reconhecidos através da expli-
cação feita pelo professor Charles Cooper no vídeo. Ele ensina como, a partir
de um quadro de avisos, você pode instigar a curiosidade de seus alunos
sobre os mais diversos temas. Uma vasta variedade de informações e ideias
podem ser visualizada no vídeo inspirador de Prof. Cooper.
Para encerrar o vídeo, o Prof. Cooper mostra também como fazer o qua-
dro de avisos ganhar vida a partir dos trabalhos desenvolvidos pelos alunos,
pois coloca-se um overlay do autor do trabalho explicando seu conteúdo com
riqueza de detalhes.

6. CONSIDERAÇÕES FINAIS
Por que usar Realidade Aumentada (Augmented Reality ou AR) nas suas
aulas?
Na opinião da autora, a AR está primeiramente alinhada com a teoria da
aprendizagem sócio-construtivista, pois pode ajudar o professor a posicionar
o aprendiz dentro de um contexto físico e social do mundo atual em que o
Millennial vive, o mundo da tecnologia digital. Para essa geração que nasceu
com um smartphone nas mãos, envolver os processos de aprendizagem parti-
cipativamente através do uso de um aplicativo de realidade aumentada pode
transformar o aluno num “mágico transformador da realidade” (citação pró-
pria) e nele despertar a vontade de partir para a investigação autêntica, ativa
observação, coaching entre pares, ensino recíproco e participação periférica
legítima com múltiplos modos de representação.
Observa-se que este único App (HP Reveal) pode ser adaptado para di-
versos conteúdos escolares, fornecendo aos professores mais de sete possi-
bilidades ou sugestões de tarefas aqui descritas. O objetivo principal deste
capítulo foi colocar nas mãos dos docentes uma ferramenta (HP Reveal App)
capaz de estimular professores e alunos a transformarem suas aulas e envol-
ver os aprendizes através de uma metodologia ativa de ensino.

29
Tecnologias e ciências da linguagem

Há, no uso do HP Reveal/Aurasma, novas oportunidades de prática na


matéria a ser aprendida/ensinada, promovendo a interação com pares mais
desenvolvidos, e promovendo maior proximidade nas relações entre os alu-
nos e o professor, a fim de motivar o aprender.
Através do aplicativo HP Reveal/Aurasma, os alunos passam a atuar
como agentes ativos com oportunidades de explorar e revisitar as áreas do
conhecimento nas disciplinas escolares.
Concluímos que usar Realidade Aumentada (Augmented Reality) nas au-
las pode despertar, tanto nos educadores quanto nos alunos, maior envolvi-
mento e motivação. Todos poderão tornar-se mais independentes e estimula-
dos, já que este aplicativo cativa a atenção do aluno, o envolve e o estimula.
Como Pérez Gómez (2015, p.111) diz em seu capítulo Primazia da ati-
vidade em novas formas de ensinar e aprender, “o ensino e a aprendizagem
relevantes exigem a atividade do sujeito em um processo contínuo de construção e
reconstrução.”
E nada melhor do que usar uma ferramenta que surpreende o aprendiz
e dá-lhe vontade de desenvolver vídeos (layers) para servirem de camadas
para as mais variadas áreas do conhecimento. Este aplicativo, sem dúvidas, é
sim, uma ferramenta que pode transformar o aprender e o ensinar.

REFERÊNCIAS BIBLIOGRÁFICAS
Aurasma for Beginners- How to create an Aura. 2017. Disponível em: https://www.youtube.
com/watch?v=tzz3yjwymBE. Acesso em 30/03/19.
Características da geração Z e as suas influências em sala de aula. Disponível em: https://
escoladainteligencia.com.br/caracteristicas-da-geracao-z-e-as-suas-influencias-em-sala-de-
aula/. Acesso em 20/04/19.
Editorial QueConceito. Conceito de Realidade Aumentada. Disponível em: https://queconceito.
com.br/realidade-aumentada. Acesso em 30/03/19.
Estúdio ABC. Você sabe o que é BYOD? As siglas invadem nossas vidas por todos os lados e, às
vezes, ficamos confusos com tanta informação, mas guarde estas letras na sua mente: BYOD
– do inglês, bring your own device (traga seu próprio dispositivo). 2013. Disponível em:
https://exame.abril.com.br/tecnologia/voce-sabe-o-que-e-byod/. Acesso em: 01/04/2019.
Geração Y (millennials). Conceito, o que é, Significado. Disponível em: https://conceitos.com/
geracao-y/. Acessado em 20/04/19.
KENSKI, V. Aprendizagem mediada pela tecnologia. Revista diálogo educacional Vol. 4, n. 10,
2003. Acesso em 30/03/19.
LOCKWOOD, R. Flip it! Strategies for the ESL Classroom. Estados Unidos da América:
University of Michigan Press, 2014.
MAGID, L. Aurasma Demo. 2011. Disponível em: https://www.youtube.com/watch?v=GBKy-
hSedg8. Acesso em 30/03/19.
MENA, I.  Verbete Draft: o que é Realidade Aumentada. 2017. Disponível em: https://
projetodraft.com/verbete-draft-o-que-e-realidade-aumentada/. Acesso em: 22/04/2019.

30
Capítulo 2 – Atividades educacionais em realidade aumentada para o protagonismo dos alunos na aprendizagem dos conteúdos educacionais

MII, P. Aurasma Lite Tutorial 1 (Create your own Aura). 2012. Disponível em: https://www.
youtube.com/watch?v=q5uyFJR1-N8. Acesso em 30/03/19.
MILCHELL, K.; SCHOLZ, M. iPads in ESL Classrooms. iBook by OREGON STATE UNIVERSITY,
2012.
MORAN, J. Os Novos Espaços de Atuação do Professor com as Tecnologias. Revista Diálogo
Educacional, Vol. 4, n. 12. 2004. Disponível em: http://www.pucrs.br/ciencias/viali/tic_
literatura/artigos/tic_professores/189117821002.pdf. Acesso em 22/04/2019.
MOTTERAM, G. (org) Innovations in learning for English language teaching. British Council,
2013.
NOGUEIRA, N. O professor atuando no Ciberespaço: reflexões sobre a utilização da internet
com fins pedagógicos. São Paulo: Érica, 2002.
OLIVEIRA NETTO, A. Novas Tecnologias e Universidade: da didática tradicionalista à
inteligência artificial: desafios e armadilhas. Petrópolis: Vozes, 2005.
PÉREZ GÓMEZ, Á. Educação na era digital: a escola educativa. Porto Alegre: Penso, 2015.
Power in your hands. Como usar e Visualizar realidade aumentada no aplicativo HP Reveal.
2018. Disponível em: https://www.youtube.com/watch?v=NM9iV6pQnNs. Acesso em
30/03/19.
PowerPoint Spice. Make your Own Augmented Reality - with PowerPoint and Aurasma (Now
Called HP Reveal)https://www.youtube.com/channel/UCIWglTtslnzN3rSEUbldzag.
2017. Disponível em: https://www.youtube.com/watch?v=pEVKtPEcgQg. Acesso em
30/03/19.
PUCHTA, H.; WILLIAMS, M. Teaching Young Learners to Think. Helbling Languages, 2011.
STRASSER, T. Mind the app! Helbling Languages, 2012.
VICKERY, A. Aprendizagem Ativa nos anos iniciais do Ensino Fundamental. Porto Alegre:
Penso. 2016.
WIKIPÉDIA, a enciclopédia livre. Geração Y. Disponível em: https://pt.wikipedia.org/wiki/
Geração_Y. Acesso em 12/04/2019.

31
3
CATEGORIZAÇÃO DE DOCUMENTOS
Roberto H. W. Pinheiro
Universidade Federal do Cariri - UFCA

George D. C. Cavalcanti
Universidade Federal de Pernambuco - UFPE

1. INTRODUÇÃO
Os computadores não são tão inteligentes quanto a maioria das pessoas
pensa. Existe até um certo misticismo no quão avançados são os computado-
res nos dias de hoje. É compreensível, pois os avanços são vários e ocorrem
com uma velocidade surpreendente. Mal conseguimos assimilar uma nova
tecnologia e já surge outra. São muitas mentes pensantes em torno desse
mundo tecnológico e, por isso, terminamos nos perdendo no que é realidade
e no que é mito. Afinal, as máquinas realmente conseguem pensar? Conse-
guem ler textos? Interpretá-los? Quais são os tipos de problemas resolvidos
pelos computadores? Eu vou perder meu emprego?
Todos esses questionamentos são explorados há alguns anos e seguem
sendo estudados. A área da computação é vasta e com certeza demandaria
inúmeros especialistas para explorar tamanho escopo. Portanto, precisamos
afunilar nossa abrangência para que o estudo seja proveitoso. Que tal fo-
car em textos? Algo aparentemente simplório, tendo em vista que as pessoas
veem robôs conversando na televisão. Porém o texto é um elemento funda-
mental para desenvolver sistemas mais complexos. Especialmente nos dias de
hoje. Quem nunca usou uma rede social? Quem nunca leu textos na Internet?
Quem não tem um WhatsApp? Grande parte da informação presente nes-
ses locais é textual. Imagine o potencial de exploração desses dados brutos?
Quem nunca teve a impressão que está sendo espionado pelo seu próprio
computador ou celular? Talvez você esteja sendo.

33
Tecnologias e ciências da linguagem

Aplicações inteligentes usando textos iniciaram em meados de 1950. Em


plena Guerra Fria, tentava-se elaborar um tradutor de Russo para Inglês. Quatro
grupos tentaram elaborar seu tradutor em desafio proposto pela IBM. O escopo
do desafio era bem específico: poucas palavras e, em sua maioria, ligadas à quí-
mica (HUTCHINS, 2005). Apesar do pequeno escopo, isso abriu portas para no-
vas pesquisas envolvendo tradução. Nessa mesma época, surgiu uma importante
área envolvendo texto, chamada de Recuperação de Informação, que podemos
resumir sua definição como um sistema de busca de documentos (LANCASTER,
1978). Décadas mais tarde, com o surgimento da Internet, a quantidade de docu-
mentos aumentou exponencialmente. Com tamanho crescimento, o custo compu-
tacional dos Sistemas de Recuperação de Informação cresceu e os textos passaram
a ser mais visados do ponto de vista científico. Chegou no momento em que não
tínhamos apenas tradução e busca, mas uma série de ramificações de aplicações e
problemas envolvendo texto. Uma das ramificações é o que conhecemos hoje por
Categorização de Documentos (SEBASTIANI, 2002; PINHEIRO, 2017).
Suponha uma base de dados de notícias. Existem notícias de esportes,
política, educação, economia e tantas outras. Vamos chamar cada um desses
tipos de notícias de rótulo. Esses rótulos fazem parte de um universo finito e
pré-estabelecido de categorias. Deste modo, dizemos que a Categorização de
Documentos é a tarefa de atribuir pelo menos um rótulo a um determinado
texto em linguagem natural. Um Sistema de Categorização de Documentos é
capaz de pegar uma notícia recém escrita e rotulá-la como sendo pertencente
a uma ou mais das categorias previamente definidas. Esse será o foco deste
Capítulo: Categorização de Documentos.
Nas seções seguintes vamos conhecer como funciona um Sistema de
Categorização de Documentos, quais são as suas diversas aplicações e nas
Considerações Finais fechamos o Capítulo destacando a importância da área
e vislumbres do futuro.

2. ETAPAS DE UM SISTEMA DE CATEGORIZAÇÃO DE TEXTO


Agora que conhecemos a função de um Sistema de Categorização de
Documentos, faz-se necessário saber como seria o seu funcionamento. Como
qualquer sistema complexo, um Sistema de Categorização de Documentos
requer uma série de etapas distintas e em sequência para atingir seu objetivo
final. Na realidade, vamos dar um passo para trás e pensar que antes das eta-
pas temos duas grandes fases distintas: Fase de Treinamento e Fase de Teste.
Durante a Fase de Treinamento, o sistema está sendo preparado para uti-
lização. Então, é nesse momento que nós obtemos os documentos, definimos

34
Capítulo 3 – Categorização de Documentos

as categorias e aprendemos cada uma delas. O ato de aprender cada categoria


é a essência da Fase de Treinamento. No caso desse sistema, treinar é apren-
der e aprender é treinar. A nomenclatura aprender é originária da área de
Aprendizagem de Máquina (MITCHELL, 1997), que se resume a construir um
programa de computador capaz de melhorar automaticamente com experiência
passada. Logo, a Categorização de Documentos é um domínio de aplicação da
Aprendizagem de Máquina. Afinal, em um Sistema de Categorização de Docu-
mentos, usamos documentos já conhecidos e suas categorias para compreender
seu funcionamento e aplicar esse conhecimento futuramente. O resultado final
da Fase de Treinamento é um componente chamado Classificador, que é capaz
de dizer qual é a categoria de um documento desconhecido.
Uma vez concluída a Fase de Treinamento, é possível usufruir da Fase de
Teste. Essa segunda fase nada mais é do que o uso do Classificador. Neste mo-
mento, novos documentos, ainda sem categoria, serão entregues ao Classifica-
dor para que este dê sua resposta: a categoria que aquele documento pertence.
Em resumo pode até parecer que um Sistema de Categorização de Do-
cumentos é simples, mas um olhar mais de perto nos faz compreender sua
complexidade. As Fases de Treinamento e Teste são a visão mais de longe
do sistema. Uma visão mais de perto nos permite observar uma série de
etapas, que vamos chamar de módulos. Os módulos mais importantes de um
Sistema de Classificação de Documentos são: Pré-processamento, Extração
de Características e Classificação. Temos vários outros módulos que podem
opcionalmente fazer parte de um Sistema de Classificação de Documentos,
como Seleção de Características, mas dada a quantidade de conteúdo, vamos
nos focar apenas nos principais.
A Figura 1 apresenta um fluxograma contendo a Fase de Treinamento e
a Fase de Teste, bem como os principais módulos de um Sistema de Catego-
rização de Documentos. A seguir, cada um dos módulos é descrito.

a. Pré-processamento
Geralmente, o pré-processamento é a primeira etapa em um Sistema de
Categorização de Documentos, pois trata-se de operações realizadas sobre os
documentos originais. O principal objetivo do módulo de Pré-processamento
é melhorar o texto presente em cada documento para facilitar a etapa seguin-
te de Extração de Características. Esse módulo transforma o texto corrido em
vários termos facilmente identificáveis e separados. Existem diversas rotinas
de pré-processamento de texto. A utilização, ou não, dessas rotinas depende
do domínio de aplicação. Por exemplo, não faz sentido aplicar uma rotina de
Corretor Ortográfico em documentos que contêm apenas números.

35
Tecnologias e ciências da linguagem

Figura 1. Sistema de Categorização de Documentos (Pinheiro, 2017).

É importante salientar que a maioria das rotinas de Pré-processamento


são dependentes da língua (INDURKHYA; DAMERAU, 2019). Algumas lín-
guas possuem caracteres delimitadores de palavras e sentenças (como espaços
e pontos), enquanto outras não possuem esses delimitadores (como manda-
rim e japonês). Portanto, dependendo da autonomia desejada para o Sistema
de Categorização de Documentos, seria necessário um módulo de Identifica-
ção da Língua. Em línguas que possuem caracteres exclusivos, como grego e
hebraico, é possível determinar apenas observando os caracteres, mas existem
outras comparações que podem ser realizadas. Uma abordagem simples, mas
efetiva, é ordenar os caracteres dos documentos por frequência de aparição
na base de dados e criar uma espécie de assinatura para comparar com a
assinatura das línguas. Línguas que usam o mesmo conjunto de caracteres
variam em sua contagem por caractere. Por exemplo, a letra y aparece mais
vezes em inglês do que as letras k, w e y somadas aparecem em português.

36
Capítulo 3 – Categorização de Documentos

A etapa de Pré-processamento é muito importante, pois quando mal rea-


lizada afetará negativamente todo o Sistema de Categorização de Documentos.
O Pré-processamento precisa ser robusto o suficiente para lidar com erros
ortográficos, siglas e abreviações, caso contrário, etapas posteriores sofrerão as
consequências de lidar com algo indecifrável como tentar adivinhar o que é
“vms” (palavra “vamos” abreviada em algum meio de comunicação informal).
As principais rotinas de Pré-processamento são:
— Análise Léxica: Converte o texto original para uma lista de pala-
vras. Normalmente remove pontuação, hifens e dígitos, além de
transformar letras maiúsculas em minúsculas. Entretanto, algumas
remoções podem alterar o sentido do texto ou, até mesmo, eliminar
informações relevantes (números em documentos com datas rele-
vantes ou hifens em documentos com muitas palavras compostas).
Portanto, dependendo do domínio de aplicação, algumas remoções
devem ser evitadas.
— Stopwords: são palavras pertencentes a uma lista composta por ter-
mos que não possuem um significado semântico relevante para fins
de Categorização de Documentos. Em geral, são artigos, conjunções
e preposições. Essas palavras são removidas de todos os documen-
tos. Uma lista padrão é utilizada dependendo da língua, mas essa
lista também pode ser elaborada para atender especificamente certos
domínios de aplicação, inclusive, sendo esta a melhor abordagem
para utilizar esta rotina.
— Stemming: A tarefa do stemming é reduzir as palavras ao seu radical,
pois é irrelevante manter termos de mesmo radical separados (plu-
ral, mudança de gênero e tempo verbal). Deste modo, a quantidade
de termos é reduzida e unida para compor termos mais relevantes.
Dado que a construção dos prefixos, sufixos e radicais varia para
cada língua, os algoritmos costumam ser criados para solucionar o
problema em uma determinada língua. Uma proposta mais ampla
foi a utilização de pseudo-radicais (MAYFIELD; MCNAMEE, 2003),
isto é, radicais criados independente da língua de acordo com o tex-
to em mãos. Entretanto, essa generalização impactou negativamente
nos resultados ao serem comparados com algoritmos específicos de
cada língua.
— Tesauro: é um dicionário de sinônimos de uma língua. Sua função
é similar ao stemming, unir vários termos em um único termo, mas
nesse caso utilizando sinônimos em vez do radical. Essa rotina de
pré-processamento pode ser implementada com o apoio do WordNet

37
Tecnologias e ciências da linguagem

(MILLER, 1995), um grande Tesauro online. Essa também é uma roti-


na dependente da língua.
— Grupos Nominais: são termos compostos (por exemplo, “Inteligên-
cia Artificial”). Sua função também é similar ao stemming, pois visa
unir vários termos em um único termo, mas nesse caso é a união de
blocos de termos em sequência.
— Corretor Ortográfico: Um dos desafios ao se trabalhar com texto
são os erros ortográficos. Esses erros criam termos irreais, pois a
mesma palavra é escrita de várias maneiras diferentes. Um corretor
ortográfico pode reduzir esses problemas, mas também pode criar
outros problemas, seja ao substituir palavras incorretas por uma
palavra indesejada ou ao substituir palavras corretas desconheci-
das no vocabulário do corretor (por exemplo, a sigla “ONU” pode
se tornar “ônus”).

b. Extração de Características
Os documentos em sua estrutura original são formados por diversos
caracteres compondo palavras e frases. Os dados apresentados dessa maneira
não são fáceis de serem processados em um sistema automático, pois não é
trivial lidar com a complexidade de uma linguagem natural. Assim, os do-
cumentos precisam ser convertidos para uma forma de representação mais
compacta e mais adequada ao processamento computacional. Uma das for-
mas mais comuns e mais utilizadas é transformar o texto em um vetor de
características.
Um vetor de característica é uma sequência de valores que representa
um dado documento em um espaço vetorial. De maneira geral, essa nova
representação inviabiliza que os documentos sejam lidos ou interpretados.
Por outro lado, essa forma de representar documentos em um espaço vetorial
facilita o uso de abordagens computacionais.
Cada documento é transformado em um vetor e cada posição desse vetor
representa uma característica. A palavra “característica” possui dois signifi-
cados em Categorização de Documentos (XUE; ZHOU, 2009). Um significado
refere-se à unidade que será utilizada para representar o documento (chama-
do de unidade da característica). O outro é referente a qual valor traz melhor
representatividade às características (chamado de valor da característica).
Com relação às unidades das características, podemos utilizar palavras
isoladas, sentenças ou até recortes de sequências de caracteres. Palavras isola-
das são sequências de caracteres que iniciam em um caractere alfanumérico e

38
Capítulo 3 – Categorização de Documentos

são finalizadas por algum símbolo delimitador (espaço, ponto, vírgula) espe-
cificado pelo desenvolvedor. As sentenças são cadeias de palavras, como: “o
cachorro atravessou a rua” ou “enviou uma carta”. A definição do que é uma
sentença depende do limite imposto pelas especificações do algoritmo utili-
zado. Existem algoritmos que fazem uso da gramática da língua (DUMAIS
et al., 1998) (SCOTT; MATWIN, 1999) e outros que usam algum formalismo
estatístico para definir as sentenças (TZERAS; HARTMANN, 1993). Por fim,
o recorte de sequências de caracteres, mais conhecido como n-grams (LODHI
et al., 2002) é a composição de características com recordes a cada n caracteres.
Por exemplo, a palavra “teste” usando 3-grams seria representada pelas ca-
deias “tes”, “est”, “ste”. A abordagem n-grams pode ser bastante interessante
em línguas como chinês ou japonês, que não fazem uso do espaço, não sendo
possível segmentar este tipo de documento por palavras.
Com relação aos valores das características (Salton; Buckley, 1988), as
três formas de representação mais conhecidas são: presença ou ausência do
termo, frequência do termo e Term Frequency – Inverse Document Frequency
(TF-IDF). A primeira forma é a mais simples e atribui uma representação
binária (true ou false) para cada termo ou característica. Esse valor é usado
para indicar a presença ou a ausência desta característica em um determina-
do documento. É pouco custoso em termos de memória e de processamento,
mas essa simplicidade remete a uma baixa representatividade. Afinal, uma
palavra estar presente em um documento não indica que ela é de fato rele-
vante para definir sua categoria. Nada impede que um texto sobre Religião
tenha a palavra “jogada” e essa palavra pode confundir o sistema em di-
reção à categoria de Esportes. Na sequência, temos a Frequência do Termo,
sendo esta forma mais completa que a primeira, pois não indica apenas a
presença ou ausência da característica. O valor da frequência do termo cor-
responde à quantas vezes a característica aparece em um dado documento.
Sua implementação é mais custosa e mais complexa que a representação por
valor binário. A Figura 2 exemplifica essa representação. Por fim, temos a
abordagem mais popular, conhecida como TF-IDF. Apesar de ter sido pro-
posta em 1988 (SALTON; BUCKLEY, 1988), TF-IDF é uma forma bastante
utilizada mesmo em pesquisas atuais, especialmente como base comparativa
para propostas mais recentes (CHEN et al., 2016; YAVAH et al., 2019). Seu fun-
cionamento segue a lógica de que apenas a Frequência do Termo não é su-
ficiente, pois se um termo aparecer em muitos documentos, ele perde parte
de sua relevância por ser generalista demais. Então, para uma característica
ter um valor elevado, é necessário que ela apareça muito em determinado
documento, mas pouco nos demais documentos.

39
Tecnologias e ciências da linguagem

Figura 2. Exemplo de Vetor de Característica composto por palavras com valor da Frequência do Termo.
Como o vetor de características é o mesmo para todos os documentos de uma base, existem termos
de valor zero em todos os documentos. Isto é um indicativo que aquele termo existe em
algum documento da base, mas não no atual.

c. Classificação
Computadores resolvem problemas usando algoritmos que são uma se-
quência de instruções para obter uma saída a partir de uma entrada. Por
exemplo, algoritmos de ordenação são capazes de, dada uma lista de núme-
ros como entrada, gerar como saída essa lista com os números ordenados.
Existem inúmeros algoritmos para essa mesma tarefa, tais como: Bubble sort,
Insertion sort, Shell sort, Quick sort, para citar apenas alguns.
Entretanto, não existe um algoritmo para todas as tarefas. Ou talvez
exista, mas nós não conseguimos criar um para cada tarefa. Por exemplo,
como elaborar um algoritmo capaz de classificar um documento como sendo
de Política ou Clima? Podemos pensar em algumas regras, mas essas regras
podem não contemplar todo o universo de possibilidades textual que pode
ocorrer nesses documentos. Nós, seres humanos, poderíamos realizar essa ta-
refa com certa facilidade, mas não somos capazes de explicar todo o processo
que usamos. Não é como ordenar uma lista. Nem de longe.
A dificuldade em criar algoritmos para um sistema de tamanha com-
plexidade é por não conseguirmos definir claramente as etapas necessárias
para sua resolução. Nos falta conhecimento ou, simplesmente, autoconheci-
mento. Entretanto, sabemos que cada notícia tem uma lógica, não são textos
aleatórias. Existem padrões que podem ser detectados. Deste modo, podemos
observar os dados em busca de respostas. É aqui que entra a Classificação.
A Classificação tem o objetivo de fazer o computador aprender a partir
de exemplos rotulados. Temos então uma tarefa que possui entrada e saída
conhecidas e desejamos gerar um modelo ou uma função capaz de aprender
esse mapeamento entre a entrada e a saída. Supondo a nossa representação
em Vetor de Características, um classificador nada mais é do que um sis-
tema que consegue dividir as categorias no espaço das características, con-
forme mostrado na Figura 3. No exemplo da Figura 3, temos três categorias

40
Capítulo 3 – Categorização de Documentos

Figura 3. Exemplos sendo divididos em classes por um Classificador (curvas pontilhadas) em um cenário
hipotético. Valores dos termos variam entre 0 e 1 devido à normalização. Termos 1 e 2 são termos
genéricos meramente ilustrativos (Pinheiro, 2017).

sendo separadas por um classificador multi-classe, isto é, capaz de discri-


minar várias classes. Todos os pontos presentes na figura são exemplos de
treinamento, utilizados para treinar o Classificador. Perceba, entretanto, que
existem exemplos que se encontram em regiões incorretas de acordo com
sua categoria (exemplos de Tecnologia na região de Esporte, como notícias
sobre Inteligência Artificial aplicadas ao Xadrez). Esses erros ocorrem pela
necessidade do Classificador ter um maior poder de generalização. Esse po-
der de generalização permite que tenha maior sucesso na Fase de Teste com
os exemplos sem rótulo.
Então, voltando para nosso Sistema de Categorização de Documentos. A
etapa da Classificação está presente tanto na Fase de Treinamento como na
Fase de Teste, pois na primeira é necessário treinar o Classificador, enquanto
que na segunda este será utilizado para rotular os Documentos, isto é, iden-
tificar as classes (categorias) de cada um dos documentos sem rótulo.
Existem diversos Classificadores diferentes, sendo os mais utilizados
para Categorização de Documentos: Support Vector Machines e Naive Bayes.
Não iremos aprofundar no detalhamento de cada um deles, mais informações
podem ser encontradas em (VAPNIK, 1995) (MCCALLUM; NIGAM, 1998).

41
Tecnologias e ciências da linguagem

3. APLICAÇÕES
Existem diversas aplicações envolvendo Categorização de Documentos.
Como vimos na seção anterior, a Categorização de Documentos é um pro-
cesso de aprendizagem com base em um conhecimento prévio adquirido por
meio de documentos rotulados. Existem inúmeras aplicações práticas dentro
deste universo. Vamos conhecer algumas delas?

a. Detecção de Spam
Um dos exemplos clássicos de aplicação em Categorização de Documen-
tos é detecção de Spam. Nessa aplicação, deseja-se encontrar e posteriormente
remover mensagens de conteúdo suspeito e propagandas. Não se restringe
aos e-mails, podendo ser aplicado em comentários do Twitter, Youtube ou até
mesmo do seu blog no Wordpress. É uma ferramenta útil, mas para render
bons frutos é necessário que esteja em constante processo de atualização.
Um sistema de Detecção de Spam é um problema de, geralmente, duas
classes: spam ou não spam. Pode contar com um sistema de Aprendizado
por Reforço (LAI et al., 2009) com opções para que o próprio usuário ajude a
melhorar a precisão do sistema informando se algo é ou não spam. Esse tipo
de auxílio do usuário deixa o sistema mais robusto e preciso para as neces-
sidades do usuário.

b. Análise de sentimento
Apesar do nome poético, a análise de sentimento nada mais é do que
designar uma emoção como classificação para um determinado texto. Deste
modo, é possível, por exemplo, classificar um Twitter como positivo ou nega-
tivo (SEVERYN; MOSCHITTI, 2015).
Pode parecer trivial ou até mesmo pouco prático, mas é uma aplicação
útil para facilitar a compreensão de grandes quantidades de dados, espe-
cialmente em redes sociais. Na realidade, pode-se dizer que é um dos sis-
temas com maior aplicabilidade dentre os listados, tendo em vista o quanto
de informação pode gerar de retorno para uma empresa sobre sua base de
consumidores.

c. Identificação da Língua
Já falamos um pouco sobre Identificação de Língua (Seção 2a). Geral-
mente, as aplicações nessa linha não chegam ao ponto da utilização de um

42
Capítulo 3 – Categorização de Documentos

Classificador. Afinal, o conhecimento linguístico está avançado o suficiente


para elaborar regras e até mesmo algoritmos capazes de realizar essa identifi-
cação. Como as Línguas têm um caráter quase que estático, não é tão relevan-
te que o sistema seja adaptado em curtos intervalos de tempo para se ajustar
a tendências e novas modificações. Claro, tudo isso depende do linguajar e
do domínio dos documentos avaliados. Quanto mais moderno e informal for
o meio de comunicação, maior a necessidade de adaptabilidade do sistema.

d. Identificação de paráfrases
Paráfrase é uma nova formulação de um texto usando outras palavras.
Geralmente, utilizam-se paráfrases para esclarecer algo, tendo em vista faci-
litar a compreensão do sentido da frase. Sendo assim, Identificar Paráfrases
é verificar se duas frases são semanticamente equivalentes, isto é, possuem
o mesmo sentido.
A utilidade dessa aplicação está em facilitar várias tarefas envolvendo
textos, como resumo de textos, recuperação de informação, traduções e até a
própria Categorização de Documentos como um todo. Afinal, se um texto é
escrito com palavras distintas, mas possui o mesmo significado do outro, ele
deve possuir o mesmo rótulo.
Não é uma tarefa trivial, tendo em vista que existem dois grandes pro-
blemas, pois a partir do momento que partimos para uma análise semântica,
o processo torna-se mais complexo. Os dois problemas mais notáveis são do
significado e da ordem das palavras. O problema do significado é basica-
mente encontrar o significado real, independente das palavras presentes. Isso
é extremamente complexo de ser realizado em termos computacionais, pois
geralmente as aplicações lidam com análises léxicas e sintáticas. Já o outro, é
o fato de palavras em ordens distintas possuírem sentidos diferentes (“amigo
velho” e “velho amigo”). Trabalhos mais recentes tentam inserir análises se-
mânticas para melhorar o desempenho do sistema e tratar desses problemas
da área (FERREIRA et al., 2018).

e. Fake News
Sim, é possível detectar Fake News automaticamente. Afinal, por que não
seria possível? A ideia é bastante similar à Detecção de Spam, com o dife-
rencial de que Fake News é muito recente e pode faltar informação (banco de
dados e literatura). Apesar de ser recente, é notável a utilidade dessa aplicação
em nossas vidas, pois é perceptível o impacto das Fake News no nosso mundo

43
Tecnologias e ciências da linguagem

político e social. Um estudo da área (AHMED et al., 2017), com uma base de
dados controlada, conseguiu classificar corretamente 90% das notícias como
sendo ou não Fake News. Essa aplicação no mundo real não conseguiria taxas
tão elevadas, mas acreditamos que com o tempo será possível utilizar essas
aplicações no dia-a-dia para aumentar a confiabilidade das notícias, em vez
de confiar nas mensagens recebidas em grupos de WhatsApp.

f. Avaliação de Legibilidade
A Avaliação de Legibilidade é capaz de indicar o quão fácil ou difícil
seria a leitura de um determinado texto. Talvez não fique claro a priori a uti-
lidade de uma aplicação assim, mas ela pode servir para saber se um texto
é adequado para crianças, para pessoas aprendendo o idioma, para pessoas
com baixo grau de alfabetização ou até mesmo como parte de um sistema
ainda maior, capaz de simplificar textos (ALUISIO et al., 2010). Portanto, a
Avaliação de Legibilidade é uma aplicação que visa a acessibilidade de con-
teúdo para uma abrangência maior de pessoas.

g. Resposta Automática de e-mails


A Resposta Automática de e-mails é uma aplicação que é, claramente,
produto do crescimento da base de usuários da Internet e do seu uso para
contato com empresas. Apesar de e-mail não ser a ferramenta mais moderna
de comunicação, ainda é a mais utilizada, especialmente nos meios profissio-
nais e empresariais. Dependendo do tamanho da empresa, a demanda por
respostas destes e-mails pode ser gigantesca, sendo necessário um setor res-
ponsável apenas para responder dos e-mails mais triviais aos mais complexos.
Entretanto, é possível automatizar parte do processo e reduzir a ne-
cessidade de pessoal e também de tempo gasto. Portanto, um sistema de
Categorização de Documentos é capaz de ser aplicado para responder e-mails
automaticamente. Basta elaborar respostas pré-definidas como se fossem as
Categorias do sistema. Apesar dessa descrição trivial, a aplicação não é tri-
vial, pois um sistema dessa importância requer altas taxas de acerto. Afinal,
uma resposta automática incorreta acarretaria em desconfiança e reclama-
ções do cliente. Além disso, o processo de descobrir qual resposta dar pode
não estar contemplado no sistema original, o sistema precisa saber quando
responder e quando não responder, isto é, na evolução que estamos ainda
não é possível se livrar completamente do setor responsável pelas respostas
(SNEIDERS, 2018).

44
Capítulo 3 – Categorização de Documentos

h. Sistemas de Recomendação
Sistemas de recomendação são muito utilizados na recomendação de
produtos. Nesse contexto, o objetivo de um sistema de recomendação é indi-
car itens que sejam do interesse de um indivíduo. Para alcançar esse objetivo,
o sistema recebe um conjunto de usuários e um conjunto de itens, para apren-
der a função capaz de encontrar um valor real para cada par usuário-item.
Este valor real representa o potencial interesse do usuário em determinado
item. Quanto maior o valor, maior a chance de o item ser recomendado para
o usuário (ZAFARANI et al., 2014).
Existem dois métodos clássicos de recomendação: Recomendação Base-
ada em Conteúdo e Filtragem Colaborativa. Estudos recentes permanecem
utilizando esses métodos como base, mas adicionando cada vez mais infor-
mações, especialmente informações obtidas em redes sociais.
Os sistemas de recomendação baseados em conteúdo se apoiam no fato
de que o interesse de um usuário deve corresponder à descrição dos itens
recomendados. Assim, quanto mais similar é a descrição de um item com
relação ao perfil do usuário, maior é a chance de o usuário achar essa re-
comendação interessante. Portanto, o sistema calcula a similaridade entre a
descrição de um item e o perfil do usuário, para verificar o quão recomen-
dável é aquele item.
A Filtragem Colaborativa usa uma matriz item-usuário, na qual cada
valor da matriz possui um valor real que representa uma avaliação dada pelo
usuário, ou valor nulo caso o usuário ainda não tenha avaliado aquele item.
O objetivo da filtragem colaborativa é predizer as avaliações ausentes e, possi-
velmente, recomendar os itens com a maior avaliação prevista para o usuário.

i. Triagem de Bugs
A Triagem de Bugs é capaz de categorizar os diversos reportes1 reali-
zados por usuários e outros programadores com relação a um determinado
programa. Sua utilidade reside em facilitar o trabalho dos desenvolvedores
em identificar os bugs e corrigi-los sem precisar ler milhares de reportes e
comentários. Adicionalmente, esse tipo de aplicação pode gerar estatísticas e
outras informações relevantes para os desenvolvedores do sistema baseado
nesses reportes, possibilitando priorizar certas correções com base na ocor-
rência e no grau de insatisfação dos usuários.

1
Proveniente do inglês, bug report é um jargão da área para indicar um relatório sobre os possíveis
problemas de um software.

45
Tecnologias e ciências da linguagem

Uma das maiores dificuldades em aplicações desta natureza é perce-


ber que um novo reporte é um bug ou não. Talvez seja uma característica
mal compreendida pelo usuário. Deste modo, muitas vezes são necessárias
pessoas responsáveis apenas por Triagem de Bugs em projetos maiores. Ain-
da é uma área com suas dificuldades e com resultados abaixo do esperado
(MURPHY; CUBRANIC, 2004), mas com o tempo talvez seja possível se livrar
completamente do responsável humano pela triagem, que poderá ser alocado
em outras tarefas mais relevantes para o desenvolvimento do software.

4. CONSIDERAÇÕES FINAIS
Acreditamos que as aplicações tenham exibido a importância da Catego-
rização de Documentos e áreas afins. É perceptível que a gama de aplicações
é vasta e versátil, possibilitando colaboração nas mais diversas áreas. De modo
geral, essas aplicações são facilitadoras e não finalizadoras, isto é, elas tornam a
vida das pessoas mais fáceis e, raramente, resolvem o problema por completo.
Portanto, respondendo à brincadeira inicial: não, você não vai perder
seu emprego. Obviamente, o desejo de qualquer pessoa em uma área de au-
tomação é deixar um sistema completamente livre da interferência humana,
isto é, em autonomia completa. Entretanto, sabemos que isso é um processo
demorado e, dependendo da aplicação, bastante desafiador. Deste modo, to-
das as aplicações que vimos aqui servem apenas de auxílio. São aplicações
para tornarem nossas vidas mais fáceis e mais dinâmicas. Um Sistema de
Recomendação não vai tirar seu emprego ou mudar sua vida drasticamente,
mas poderá lhe encaminhar para o melhor filme da sua vida. Uma Análise
de Sentimento não vai fazer você compreender o que se passa na cabeça das
pessoas, mas poderá lhe dar uma noção muita boa de qual público você de-
verá focar seus esforços e quais dos seus produtos estão fadados ao fracasso
ou ao sucesso.
Foi observado, na descrição de um Sistema de Categorização de Docu-
mentos, a presença forte de aspectos léxicos e sintáticos. Por muitos anos a
semântica foi deixada de lado, provavelmente pela dificuldade em integrá-la
aos sistemas automáticos. Entretanto, o rumo natural de evolução de todas
essas aplicações e da área como um todo será investir na semântica.
Representações como word2vec (GOLDBERG; LEVY, 2014) demonstram
esse interesse na semântica, criando uma espécie de espaço composto por pa-
lavras. Deste modo, é criada uma espécie de contexto linguístico das palavras
de modo que palavras que se posicionem próximas nesse espaço são tidas
como próximas em contexto. Essa descrição pode fazer o word2vec ser similar

46
Capítulo 3 – Categorização de Documentos

a um Tesauro (Seção 2a), mas não é assim tão simples. Um Tesauro é capaz de
identificar que homem e rapaz podem ser equivalentes, mas não é capaz de
dizer que homem está mais próximo de rapaz do que de criança. Nesse espa-
ço, palavras como rei e homem possuem a mesma distância de palavras como
rainha e mulher, pois o contexto é o mesmo mudando apenas o referencial do
sexo. O potencial dessa representação é enorme, mas devido à sua complexi-
dade não é tão popular, ainda, quanto os modelos citados neste capítulo.

REFERÊNCIAS
AHMED, H.; TRAORE, I.; SAAD, S. Detection of online fake news using N-gram analysis
and machine learning techniques. In: International Conference on Intelligent, Secure, and
Dependable Systems in Distributed and Cloud Environments. Springer, Cham. p. 127-138.
2017.
ALUISIO, S.; SPECIA, L.; GASPERIN, C.; SCARTON, C. Readability assessment for text
simplification. In Proceedings of the NAACL HLT 2010 Fifth Workshop on Innovative
Use of NLP for Building Educational Applications (pp. 1-9). Association for Computational
Linguistics. 2010.
CHEN, K., ZHANG, Z., LONG, J., ZHANG, H. Turning from TF-IDF to TF-IGM for term
weighting in text classification. Expert Systems with Applications, v. 66, p. 245-260, 2016.
DUMAIS, S.; PLATT, J.; HECKERMAN, D.; SAHAMI, M. Inductive learning algorithms
and representations for text categorization. In Proceedings of the seventh International
Conference on Information and Knowledge Management (pp. 148-155). ACM. 1998.
FERREIRA, R.; CAVALCANTI, G. D.; FREITAS, F.; LINS, R. D.; SIMSKE, S. J.; RISS, M. Combining
sentence similarities measures to identify paraphrases. Computer Speech & Language, 47,
p. 59-73. 2018.
GOLDBERG, Y; LEVY, O. word2vec Explained: deriving Mikolov et al.’s negative-sampling
word-embedding method. arXiv preprint arXiv:1402.3722, 2014.
HUTCHINS, J. The history of machine translation in a nutshell. Retrieved December, v. 20, p.
2009, 2005.
INDURKHYA, N.; DAMERAU, F. (Ed.). Handbook of natural language processing. CRC Press.
Cambridge, UK, 2010.
LAI, G. H.; CHEN, C. M.; LAIH, C. S.; CHEN, T. A collaborative anti-spam system. Expert
Systems with Applications, Vol. 36, n. 3, p. 6645-6653. 2009.
LANCASTER, F. Information retrieval systems: charactistics, testing and evaluation. 2. ed.
New York, NY: Wiley. 1978.
LODHI, H.; SAUNDERS, C.; SHAWE-TAYLOR, J.; CRISTIANINI, N.; WATKINS, C. Text
classification using string kernels. Journal of Machine Learning Research, Vol. 2, n. 1, p.
419-444. 2002
MAYFIELD, J.; MCNAMEE, P. Single n-gram stemming. In: ACM. Proceedings of International
Conference on Research and Development in Information Retrieval. [S.l.], p. 415–416, 2003.
MCCALLUM, A.; NIGAM, K. A comparison of event models for naive bayes text classification.
In: AAAI PRESS. Proceedings of Workshop on Learning for Text Categorization. [S.l.], 1998.
p. 41–48.
MILLER, G. A. WordNet: a lexical database for English. Communications of the ACM, Vol. 38,
n. 11, p. 39-41, 1995.

47
Tecnologias e ciências da linguagem

MITCHELL, T. Machine Learning. McGraw-Hill Education, Portland, OR. 1997.


MURPHY, G.; CUBRANIC, D. Automatic bug triage using text categorization. In Proceedings of
the Sixteenth International Conference on Software Engineering & Knowledge Engineering.
2004.
PINHEIRO, R. Combinação de classificadores em diferentes espaços de características para
classificação de documentos. Tese [Doutorado em Ciência da Computação], Universidade
Federal de Pernambuco, 2017.
SALTON, G.; BUCKLEY, C. Term-weighting approaches in automatic text retrieval. Information
Processing & Management, Vol. 24, n. 5, p. 513-523, 1988.
SCOTT, S.; MATWIN, S. Feature engineering for text classification. In: Proceedings of
International Conference on Machine Learning. [S.l.: s.n.], p. 379–388. 1999
SNEIDERS, E.; SJÖBERGH, J.; ALFALAHI, A. Automated email answering by text-pattern
matching: Performance and error analysis. Expert Systems, Vol. 35, n. 1, p. e12251, 2018.
SEBASTIANI, F. Machine learning in automated text categorization. ACM computing surveys
(CSUR), v. 34, n. 1, p. 1-47, 2002.
SEVERYN, A.; MOSCHITTI, A. Twitter sentiment analysis with deep convolutional neural
networks. In: Proceedings of the 38th International ACM SIGIR Conference on Research and
Development in Information Retrieval. ACM, p. 959-962. 2015.
TZERAS, K.; HARTMANN, S. Automatic indexing based on bayesian inference networks.
In: ACM. Proceedings of International Conference on Research and Development in
Information Retrieval. [S.l.], p. 22–35. 1993.
VAPNIK, V. N. The nature of statistical learning theory. [S.l.]: Berlin: Springer-Verlag, 1995.
YAHAV, I.; SHEHORY, O.; SCHWARTZ, D. Comments Mining With TF-IDF: The Inherent Bias
and Its Removal. IEEE Transactions on Knowledge and Data Engineering, Vol. 31, n. 3, p.
437-450, 2019.
XUE, X. B.; ZHOU, Z. H. Distributional features for text categorization. IEEE Transactions on
Knowledge and Data Engineering, Vol. 21, n. 3, p. 428–442, 2009.
ZAFARANI, R.; ABBASI, M.; LIU, H. Social media mining: an introduction. Cambridge
University Press, 2014.

48
4
MINERAÇÃO DE DADOS TEXTUAIS NÃO
ESTRUTURADOS UTILIZANDO REDES COMPLEXAS
Raquel Bezerra Calado
Universidade de Pernambuco - UPE
Alexandre Magno Andrade Maciel
Universidade de Pernambuco - UPE

1. CONTEXTUALIZAÇÃO
A necessidade de extrair conhecimento relevante em documentos de tex-
to vem se tornando indispensável às organizações que buscam uma gerência
de dados eficiente. Uma enorme quantidade de dados textuais vem sendo
produzida em massa diariamente. O volume de informações desse tipo cresce
a uma taxa média de aproximadamente 62% ao ano, podendo atingir em 2022
um total de 93% dos dados digitais existentes (SCACCHI, 2017). Neste cená-
rio, acredita-se que utilizar técnicas de Mineração Textual (MT) para extração
de conhecimento em dados não estruturados tem um grande valor potencial
comercial e acadêmico.
A MT realiza um processo de extração de informações úteis e desconhe-
cidas de documentos textuais escritos em linguagem natural (PIATETSKY-
-SHAPIRO; FAYYAD; SMITH, 1996). Para realizar a extração de informação,
a mineração de texto abrange uma estrutura que integra diversas áreas de
estudo, como técnicas de mineração de dados, aprendizado de máquina, pro-
cessamento de linguagem natural, recuperação de informações (IR) e geren-
ciamento de conhecimento (CHAKRABORT; PAGOLU; GARLA, 2014).
Os dados contidos em documentos textuais são, do ponto de vista com-
putacional, classificados como não estruturados, ou seja, não organizados em
uma estrutura uniforme. Porém, analisando o texto de uma perspectiva lin-
guística, mesmo um documento bastante inócuo demonstra uma rica quan-

49
Tecnologias e ciências da linguagem

tidade de estrutura semântica e sintática (FELDMAN; SANGER, 2007). Essa


riqueza é a principal ferramenta das técnicas de mineração textual.
Para modelar a estrutura de representação textual, a MT faz uso de abor-
dagens específicas. Dentre elas, análise de conteúdo através da montagem de
Redes Complexas têm ganhado crescente visibilidade. A técnica busca re-
presentar a estrutura textual graficamente, através de um conjunto de nós
e arestas, no qual as palavras do texto representam os nós e a relação entre
elas, as arestas. Com a estrutura gráfica, consegue-se quantificar a influência
de cada uma das palavras dentro de um texto.
Este trabalho tem como objetivo apresentar as Redes Complexas como
uma técnica viável e eficiente a ser utilizada na mineração de dados textuais
não estruturados.

2. REDES COMPLEXAS
O termo Redes Complexas, comumente encontrado na literatura como
Ciência das Redes, refere-se a um grafo que apresenta uma estrutura topo-
gráfica não trivial, composto por um conjunto de vértices (nós) que são inter-
ligados por meio de arestas (BARABÁSI, 2003).
O início dos estudos envolvendo redes baseadas em grafos data de me-
ados de 1920, nos quais os esforços se concentravam em ilustrar as relações
entre entidades sociais, comunicação entre membros de um grupo, negocia-
ções entre nações ou transações econômicas entre corporações. Tais pesquisas
objetivaram analisar os relacionamentos sociais através das características pe-
culiares destas redes, como a centralidade, que representa o vértice central, e
a conectividade, representada pelos vértices com maior número de conexões
(BOCCALETTI et al., 2006).
Desde então, se originou um novo movimento de interesse e pesquisa no
estudo de redes complexas. As redes se tornaram uma forma paradigmática
de representar sistemas complexos nos quais o padrão de interações entre
suas partes constituintes é intrincado e está evoluindo junto com a dinâmica
do sistema estudado (TOROCZKAI, 2005).
Diversos aspectos do mundo real podem ser representados por meio das
Redes Complexas para a resolução de problemas específicos. No campo de
mineração textual, as redes podem ser montadas a partir do relacionamento
entre as palavras dentro de um texto, conforme ilustra a Figura 1.
Para uma melhor visualização da rede proposta, as preposições e arti-
gos foram retiradas da montagem da rede, mantendo somente substantivos,
adjetivos, advérbios e verbos na ilustração.

50
Capítulo 4 – Mineração de dados textuais não estruturados utilizando redes complexas

As arestas ilustradas nesta rede estabelecem a relação entre duas pala-


vras (nós). É possível quantificar a influência de cada palavra dentro desse
texto através da extração de determinadas medidas estruturais a partir do
gráfico, denominadas medidas de centralidade. Para a Figura em questão,
as palavras que possuem uma maior importância no texto estão destacadas
através de um círculo vermelho.
A partir da imagem, podemos inferir que os termos “nunca” e “esque-
cerei” possuem uma maior influência para este texto, pois eles se relacionam
com um maior número de palavras entre as sentenças em relação às demais.

“No meio do caminho tinha uma pedra

Tinha uma pedra no meio do caminho

Tinha uma pedra

No meio do caminho tinha uma pedra.

Nunca me esquecerei desse acontecimento

Na vida de minhas retinas tão fatigadas.

Nunca me esquecerei que no meio do caminho

Tinha uma pedra

Tinha uma pedra no meio do caminho

No meio do caminho tinha uma pedra.”

(Carlos Drummond de Andrade)

Figura 1. Rede Complexa


Fonte: Os Autores.

2.1. Medidas de Centralidade


A importância de um determinado nó em relação a toda a rede é dada
a partir das medidas de centralidade. Estas medidas se associam à ideia da
distribuição de poder dentro da rede, sendo o referido poder uma caracte-
rística que emerge das conexões entre os nós. Desta maneira, os nós que se
localizam em posições centrais dentro da rede detém maior poder em relação
aos demais (HANNEMAN; RIDDLE, 2005).
Existem mais de uma centena de medidas de centralidade aplicáveis
às Redes Complexas (COSTA et al., 2007). Neste trabalho, três das principais
medidas são abordadas a seguir.

2.1.1 Grau de conectividade


O grau (degree) de um nó qualquer corresponde ao número de arestas
que conectam aquele nó, ou seja, o número de ligações que ele possui. Quanto

51
Tecnologias e ciências da linguagem

maior o número for, maior será o grau de conectividade do nó. Tais conexões
são bilaterais, ou seja, para um mesmo nó haverá conexões de entrada e saí-
da, definindo respectivamente o grau de entrada (Indegree) e o grau de saída
(Outdegree). O uso do grau de conectividade como medida de centralidade é
ideal para problemas em que se almeja extrair a importância dos nós a partir
de sua influência na rede.

2.1.2 Intermediação
A intermediação (betweenness) associa elevados valores de centralida-
de para os nós que são acessados um grande número de vezes pelas arestas
da rede, levando em consideração todas as possíveis conexões entre nós
dentro da rede. Os nós que possuírem alto valor de betweenness consequen-
temente possuem uma elevada influência na rede, pois são esses nós que
controlam a distribuição de informação. O valor calculado pelo betweenness
é utilizado para indicar quantitativamente os principais nós da rede. Esta
medida de centralidade pode ser aplicada a problemas em que se busca
descobrir qual nó detém a maior taxa do fluxo de informações que está
correndo pela rede.

2.1.3 Proximidade
Proximidade, ou closeness, calcula quão próximo um determinado nó
está dos demais nós da rede. A distância média de um nó para outro dentro
da rede é inversamente proporcional à sua centralidade de proximidade, sen-
do assim, quanto menor for a distância média de um nó para outro, maior
será o valor do seu closeness.

2.2. Modelos de Redes Complexas


Com o desenvolvimento das pesquisas em RC, vários modelos para tais
redes foram implementados, nesta subseção, discutiremos três dos principais
modelos existentes: Redes Aleatórias, propostas por Erdös-Rényi (1959); Redes
Pequeno-mundo, propostas por Watts-Strogatz (1998) e Redes Livres de Esca-
la, propostas por Barabási-Albert (1999).

2.2.1 Redes Aleatórias


Este é o modelo mais simples, no qual inicialmente todos os vérti-
ces da rede estão desconectados. A partir disto, arestas conectando dois
vértices distintos são adicionadas aleatoriamente, de maneira a evitar re-

52
Capítulo 4 – Mineração de dados textuais não estruturados utilizando redes complexas

petições nas conexões dos vértices. A Figura 2 apresenta um exemplo de


Rede Aleatória.

Figura 2. Rede Aleatória.


Fonte: Os Autores.

2.2.2 Redes Pequeno-mundo


Watts e Strogatz (1998) afirmam que algumas redes tendem a formar
pequenas quantidades de conexões em cada vértice, o que forma uma rede
que se assemelha a um anel, no qual conexões entre os vértices mais próxi-
mos são estabelecidas. Nesse modelo, a distância média entre quaisquer dois
vértices de uma rede muito grande não ultrapassa um número pequeno de
vértices (BUCHANAN; ALDANA-GONZALES, 2003). A Figura 3 apresenta
uma Rede Pequeno-mundo.

Figura 3. Rede Pequeno-mundo


Fonte: Os Autores.

53
Tecnologias e ciências da linguagem

2.2.3 Redes Livres de Escala


Uma das principais características do modelo proposto por Barabási e
Albert (1999) é a conexão preferencial servindo como base ao crescimento das
redes. Este tipo de conexão defende que um novo vértice deve se conectar a
um outro vértice da rede que tenha um elevado grau de conexões. Esta nova
configuração de escolha de conexões tende a formar redes com um pequeno
número de vértices altamente conectados, em contrapartida, gera muitos vér-
tices com poucas conexões. A Figura 4 apresenta uma Rede Livre de Escala.

Figura 4. Rede Livre de Escala


Fonte: Os Autores

3. TÉCNICAS COMPLEMENTARES
O objetivo desta seção é fornecer ao leitor informações acerca de técnicas
que podem ser combinadas à utilização de Redes Complexas, com a intenção
de manter no conteúdo textual somente o que for realmente relevante.
Documentos textuais trazem uma vasta quantidade de informação, po-
rém, dentro destes mesmos documentos, existem algumas palavras e termos
que não agregam valor semântico ao texto do ponto de vista computacional.
Dada esta realidade, a etapa de filtragem ou pré-processamento textual se
faz necessária para manter somente o que realmente importa antes de passar
para a extração de conhecimento.

54
Capítulo 4 – Mineração de dados textuais não estruturados utilizando redes complexas

Montar uma Rede Complexa é um processo custoso, por isto, distin-


tas características de um texto devem ser manipuladas a fim de simplificar
o conteúdo de entrada da rede, removendo termos desnecessários. Diversas
técnicas podem ser utilizadas para realizar esta filtragem, envolvendo uma
série de etapas, descritas a seguir.

3.1. Part-of-speech tagging


Esta técnica visa marcar cada uma das palavras dentro de um texto de
acordo com sua classe gramatical, ou seja, dividir as palavras em substanti-
vos, verbos, adjetivos, advérbios etc. (KAO; POTEET, 2007). A Figura 5 ilustra
esta marcação.

“Um matemático é um “Um matemático é um dispositivo para transformar café em teoremas”.

dispositivo para transformar


café em teoremas”.

(Alfréd Rényi) Artigo Substantivo Verbo Preposição

Figura 5. Part-of-speech tagging


Fonte: Os Autores.

3.2. Remoção de Stopwords


Existem termos que aparecem com alta frequência no texto, mas não
apresentam muita relevância para o seu significado. Um exemplo disto são
palavras como ‘a’, ‘ao’, ‘aos’, ‘aquela’, ‘aquelas’, ‘aquele’, ‘aqueles’, ‘aquilo’ etc. (SI-
NOARA et al., 2017). A lista de stopwords depende da aplicação que está sendo
utilizada para fazer a remoção. A exclusão de palavras sem valor semântico
relevante simplifica a análise do texto. A Figura 6 apresenta um exemplo de
remoção de stopwords.

“Se as coisas são inatingíveis... ora!


Não é motivo para não querê-las... Coisas inatingíveis
Que tristes os caminhos, se não fora Não motivo de querê-las
A presença distante das estrelas!” Tristes caminhos não fora
Presença distante estrelas
(Mário Quintana)

Figura 6. Remoção de Stopwords


Fonte: Os Autores.

55
Tecnologias e ciências da linguagem

3.3. Tokenização
Também denominada de atomização, esta técnica busca dividir o fluxo
contínuo de palavras em unidades mínimas de texto previamente estabeleci-
das, conhecidas como tokens (REHMAN et al., 2013). A depender da necessida-
de, pode-se dividir o texto em unidade de palavras, ou em conjuntos (tokens)
de n palavras. A Figura 7 apresenta a tokenização de um fluxo de caracteres
levando em consideração que a divisão utilizada foi com o n = 1, ou seja, as
palavras separadas individualmente.

“O sucesso normalmente contempla aqueles Tokenização


que estão ocupados “O”, “sucesso”, “normalmente”,
demais para procurar por ele.” “contempla”, “aqueles”, “que”, “estão”,
“ocupados”, “demais”, “para”, “procurar”,
(Henry D. Thoreau)
“por”, “ele”.

Figura 7. Tokenização
Fonte: Os Autores.

3.4. Normalização
Esta etapa visa simplificar conteúdo do texto através do agrupamento
de termos semelhantes. As técnicas mais utilizadas para a normalização das
palavras são o Stemming, Lematização e Thesaurus.
• Stemming: Esta técnica reduz as palavras do texto às suas respec-
tivas raízes (sem levar em conta a classe gramatical). O stemming
permite a utilização de vocábulos primitivos anteriores às variações,
como plurais e inflexões verbais (PORTER, 1980). Esse processo corta
as extremidades das palavras, incluindo a remoção de afixos deriva-
cionais. A Figura 8 apresenta um exemplo da aplicação da técnica.

Figura 8. Stemming
Fonte: Os Autores

56
Capítulo 4 – Mineração de dados textuais não estruturados utilizando redes complexas

• Lematização: Tem o propósito de agrupar as várias formas flexiona-


das de uma palavra para que elas possam ser analisadas como um
único item (SINOARA; ANTUNES; REZENDE, 2017), ou seja, as pa-
lavras no plural são transformadas em sua forma singular, os verbos
são transformados em sua forma infinitiva e os nomes são converti-
dos em sua forma masculina. A Figura 9 apresenta um exemplo de
lematização.

Figura 9. Lematização
Fonte: Os Autores

• Thesaurus: Constituem os dicionários de vocábulos e podem ser


definidos como um conjunto de termos importantes para o domínio
da aplicação, sendo associada a cada termo uma lista de palavras
relacionadas (BAEZA-YATES; RIBEIRO, 2011). A Figura 10 apresenta
um exemplo de agrupamento de termos utilizando Thesaurus.

Figura 10. Thesaurus


Fonte: Os Autores

4. FERRAMENTAS
Esta seção apresenta ferramentas que viabilizam a implantação das téc-
nicas discutidas em qualquer conteúdo textual. A Tabela 1 apresenta algumas
destas ferramentas.

57
Tecnologias e ciências da linguagem

Ferramenta Descrição Endereço Eletrônico Suporte ao


Português

Pacote para trabalhar com redes com-


NetworkX plexas, esta ferramenta permite a cria- http://networkx.github.io/ X
ção, manipulação e estudo da estrutu-
ra, dinâmica e funções destas redes.

A biblioteca IGraph permite a análise


IGraph de Redes Complexas, bem como a ma- https://igraph.org/ X
nipulação destes gráficos de maneira
eficiente.

O CoGrOO possui técnicas como part-


CoGrOO -of-speech tagging, lematização e cor- http://cogroo.org/ X
retor gramatical.

A biblioteca Spacy reúne recursos


Spacy como tokenização, lematização, stem- https://spacy.io/ X
ming e part-of-speech tagging, além
de outras técnicas como extração de
entidades nomeadas.

O NLTK possui funções como lematiza-


NLTK ção, stemming, tokenização, remoção https://www.nltk.org/ X
de stopwords, part-of-speech tagging
e thesaurus, além de uma numerosa
gama de outras funções para proces-
samento de linguagem natural.

Este pacote possui um rico dicionário


Py-thesaurus de sinônimos a partir de uma coleção https://pypi.org/project/
online de termos. Esta biblioteca im- py-thesaurus/
plementa a técnica thesaurus.

Esta ferramenta suporta as principais


OpenNLP tarefas do processamento de lingua- https://opennlp.apache.org/
gem natural. Além das técnicas de
tokenização e part-of-speech tagging
já discutidas. Suporta também extra-
ção de entidades nomeadas, detecção
de idioma e resolução de referência.

Esta biblioteca tem suporte de tarefas


UIMA como tokenização e part-of-speech ta- https://uima.apache.org/ X
gging, além de detecção de entidade,
detecção de relações.

LX-Center trata-se de uma conjunto de


LX-Center ferramentas que possui: lematizador, http://lxcenter.di.fc.ul.pt/
conjugador verbal, flexionador nomi-
nal, dentre muitas outras funções para
processamento de linguagem natural.

Tabela 1. Ferramentas para Mineração de Texto


Fonte: Os Autores.

58
Capítulo 4 – Mineração de dados textuais não estruturados utilizando redes complexas

5. DISCUSSÃO
Várias pesquisas sobre a utilização de Redes Complexas em problemas
envolvendo dados textuais não estruturados têm sido desenvolvidas. Nesta
seção, serão apresentados alguns destes trabalhos. Recentes contribuições em
distintas áreas de aplicações dentro da mineração textual foram levantadas,
onde, nestes estudos, as técnicas aqui descritas foram utilizadas e resultados
promissores obtidos. A Tabela 2 apresenta alguns desses trabalhos.

Tema (s) Título Autores Veículo de Ano


Publicação

Atribuição de Autoria A Complex Network AMANCIO, D. R. PloS One. 2015


e Problemas de Approach to Stylometry
detecção de gênero

Atribuição de Autoria Author Attribution AL ROZZ, Y.; International 2018


Using Network Motifs MENEZES, R. Workshop on
Complex Networks.

Desambiguação do Word sense CORREA, E. A., Information Science 2018


sentido das palavras disambiguation via LOPES, A. A., &
bipartite representation AMÂNCIO, D. R.
of complex networks

Estudo da evolução do How does language CHEN, H; CHEN, X.; 2018


sistema de linguagem change as a lexical LIU, H. PloS One.
chinesa. network? An
investigation based
on written Chinese
word co-occurrence
networks

Análise de Conteúdo An Approach for MACHADO, C. J. R; International 2019


Thematic Relevance RODRIGUES, R. L; Journal Of
Analysis Applied to MACIEL, A. M. A; Distance Education
Textual Contributions in MENEZES, R. P. Technologies
Discussion Forums

Classificação de Mineração de CALADO, R. B. Dissertação 2019


categoria textual dados jurídicos não de Mestrado.
estruturados utilizando Universidade de
ensemble dinâmico Pernambuco.

Tabela 2. Trabalhos Relacionados


Fonte: Os Autores.

Amâncio (2015) apresenta uma abordagem híbrida, na qual foram de-


senvolvidas técnicas para combinar características tradicionais e topológicas.
Tal combinação foi considerada de suma importância para melhorar a qua-
lidade das estratégias de classificação. O estudo aplicou pré-processamento
textual, fazendo uso de stemming e remoção de stopwords, para então, formar

59
Tecnologias e ciências da linguagem

as Redes Complexas referentes as bases de dados estudadas. A eficácia da


combinação de características textuais tradicionais e medições topológicas de
redes foi avaliada no contexto de duas tarefas de processamento de lingua-
gem natural: atribuição de autoria e problemas de detecção de gênero. Nesse
trabalho, um framework que pode ser utilizado para aplicações textuais seme-
lhantes foi desenvolvido. O autor concluiu que combinar redes complexas aos
métodos tradicionais melhora a qualidade e os resultados das estratégias de
classificação textuais.
Al Rozz e Menezes (2018) buscaram atribuir textos aos respectivos auto-
res. O trabalho contou com uma base de dados de 100 livros, escritos por 10
autores famosos. Para cada autor havia 10 livros no conjunto de dados, todos
os textos em língua inglesa. As etapas de pré-processamento foram aplicadas
para remover pontuação, números e alfabetos não latinos. Além disso todas
as letras foram convertidas em minús-
culas. Os autores optaram por manter
as stopwords no texto, pois, segundo os
mesmos, a frequência dessas palavras
reflete aspectos estilísticos do texto e
melhora a tarefa de atribuição de au-
toria. Após essa primeira etapa, os au-
tores criaram as redes complexas de
cada um dos livros analisados, conse-
guindo, através do estudo da topologia
das redes, distinguir o estilo de escrita
de 10 autores famosos. Esse trabalho
obteve uma taxa de acerto de 77% na
classificação de 100 livros escritos por
10 autores distintos.
A Figura 11 apresenta um dos
textos utilizados por Al Rozz e Mene-
zes (2018) para classificação de autoria
utilizando redes complexas. Os autores
demonstram o pré-processamento rea-
lizado e a estrutura topológica gerada
a partir do conteúdo. Com a constru-
ção desses gráficos, torna-se possível
Figura 11. Atribuição de Autoria
analisar como o texto de cada um dos
Fonte: Al Rozz e Menezes (2018) autores analisados se comporta.

60
Capítulo 4 – Mineração de dados textuais não estruturados utilizando redes complexas

Correa, Lopes e Amâncio (2018) buscaram resolver ambiguidades em


textos escritos através da utilização de modelos baseados em Redes Com-
plexas. O trabalho concentrou-se nas relações semânticas entre palavras que
caracterizam o texto e palavras ambíguas. O método proposto se destaca por
não apenas representar os textos como gráficos, mas também por construir
uma estrutura que torna possível a realização da discriminação dos sentidos
das palavras. A abordagem proposta nesse trabalho pode ser útil para melho-
rar a caracterização semântica dos textos. Nos experimentos realizados, os au-
tores definiram algumas palavras-alvo para realizar a desambiguação, a sa-
ber: “interesse”, “linha”, “servir” e “duro”. O método proposto obteve maiores
taxas de acerto em relação a maioria dos algoritmos tradicionais utilizados
para realizar a comparação de desempenho. Os autores obtiveram resultados
significativos mesmo quando uma quantidade relativamente pequena de da-
dos foi submetida ao modelo proposto.
Chen, Chen e Liu (2018) aplicaram o estudo da co-ocorrência de palavras
dentro do texto para investigar a evolução da linguagem ao passar do tempo.
Os autores utilizaram textos escritos durante os últimos 2.000 anos (em re-
lação à data de publicação) para formar quatro redes complexas baseadas na
co-ocorrências dos termos nos conteúdos textuais. A partir desse estudo, os
autores puderam inferir que a hierarquia das redes lexicais chinesas de fato
evoluiu em vários aspectos ao longo do tempo. Essa inferência tomou por
base as mudanças observadas nas redes a partir dos experimentos realizados.
Com a análise dos resultados, os autores afirmam que esta evolução deu-se
com o desenvolvimento da sociedade, os recentes conteúdos escritos trazem
consigo uma composição linguística cada vez mais refinada. As palavras de
campos específicos começaram a formar grandes grupos sub-lexicais. Cláu-
sulas e sentenças também começaram a se alongar. Para equilibrar o aumento
de unidades de linguagem e a eficiência das comunicações de linguagem,
novos padrões de colocação de palavras começaram a aparecer e as ordens
de palavras tornaram-se mais flexíveis.
Machado et al. (2019) propuseram o desenvolvimento de uma solução
que realizasse a análise de relevância temática das postagens feitas por es-
tudantes em fóruns de discussão em ambientes de ensino a distância (EAD),
visando avaliar o conteúdo produzido pelos estudantes e a relevância do
mesmo em relação ao tema sugerido na abertura do fórum. Para tanto, os
autores utilizaram técnicas de mineração textual e redes complexas, a fim
de identificar a relevância temática do que foi produzido pelos alunos. Os
resultados obtidos foram promissores chegando a uma máxima de 76,95% de
acerto para a relevância temática dos textos.

61
Tecnologias e ciências da linguagem

A Figura 12 apresenta as técnicas utilizadas por Machado et al. (2019)


para pré processar o texto e dar origem à Rede Complexa. Em (a), o texto ori-
ginal é apresentado, enquanto (b) apresenta o texto pré-processado com lema-
tização e tokenização, além de part-of-speech tagging para identificar as palavras
classificadas como verbo, substantivo, adjetivo ou advérbio, eliminando todas
as demais classes gramaticais da análise, considerando-as como stopwords. Por
fim, (c) exibe a Rede Complexa gerada a partir do conteúdo apresentado.

Figura 12. Análise de Relevância Temática


Fonte: Machado, C. J. R et al. (2019).

Calado e Maciel (2019) realizaram mineração de dados em textos dos


diários oficiais do país. Para tanto, aplicaram o estudo em um case real dentro
de uma empresa que trabalha com a categorização desses textos. A referida
empresa realiza a categorização através de expressões regulares, que são re-
gras pré-definidas. Por categorização, entenda-se a subdivisão do texto dos
diários oficiais em categorias como “processo”, “nome de juiz”, “vara”, “fó-
rum”, “órgão” dentre outras. Como a dinamicidade dos textos não segue os
mesmos padrões ao passar dos anos, o estudo provou que aplicar técnicas de
aprendizado de máquina e Redes Complexas torna-se mais eficiente do que
seguir regras pré-definidas.
Nas etapas de pré-processamento textual, os autores utilizaram técnicas
como lematização, part-of-speech tagging, remoção de stopwords e tokenização.
Após isto, Redes Complexas referentes aos conteúdos dos diários oficiais fo-
ram geradas, com o objetivo de extrair os betweenness das palavras dos tex-
tos e enviar essas informações para um ensemble dinâmico, que consiste em
um conjunto de algoritmos trabalhando juntos, escolhidos dinamicamente de
acordo com as amostras a ele expostas, para resolver um problema.

62
Capítulo 4 – Mineração de dados textuais não estruturados utilizando redes complexas

No trabalho, um framework privado denominado Judeasy, reunindo uma


coletânea de técnicas de aprendizado de máquina e pré-processamento tex-
tual foi desenvolvido, com o intuito de automatizar a descoberta de conhe-
cimento em uma ferramenta com interface amigável, de fácil manipulação.
O trabalho conseguiu acertos acima de 90% nos experimentos realizados,
superando todos as taxas anteriormente obtidas com as expressões regulares.
A Figura 13 apresenta uma Rede Complexa referente a um texto classifi-
cado corretamente na categoria “Processo”. Para a montagem da rede, todo o
pré-processamento textual adotado pelos autores foi aplicado previamente, an-
tes da geração da estrutura gráfica. Esse estudo foi capaz de mostrar que cada
uma das categorias tende a formar redes similares, o que leva a concluir que
as redes que se assemelham com a estrutura ilustrada, pertencem à categoria
“Processo”, assim como todas as demais categorias analisadas formam sua pró-
pria estrutura gráfica, permitindo um agrupamento de arranjos semelhantes. A
partir da Rede Complexa gerada, os autores extraem os valores de betweenness
para cada uma das palavras contidas na Rede, e este valor é agregado ao pro-
cesso de extração de conhecimento pelo algoritmo de ensemble dinâmico.

Figura 13. Rede Complexa de um Processo


Fonte: Calado e Maciel (2019)

6. CONSIDERAÇÕES FINAIS
Apesar de ser um tópico relativamente recente à mineração textual, mui-
tos estudos já foram realizados sobre vários aspectos de Redes Complexas no
campo linguístico. Tais estudos trazem à tona o quão promissora esta técnica

63
Tecnologias e ciências da linguagem

tem se mostrado. RC têm elevado a mineração textual a outro patamar, tra-


zendo mais precisão e qualidade aos trabalhos que delas fizeram uso.
Este trabalho focou na apresentação dessa técnica como grande aliada ao
processo de MT. Os trabalhos discutidos são encorajadores. A ideia de formar
uma estrutura gráfica capaz de mapear a configuração topológica de um tex-
to não é somente fascinante, como eficiente quando adicionada ao processo
de extração de informação.
Neste capítulo foi discutido o papel das redes complexas no processo de
mineração textual, bem como foram apresentadas outras técnicas de minera-
ção textual que podem ser combinadas às redes para resultados mais consis-
tentes. Também foram apresentadas algumas das principais ferramentas que
implementam as técnicas discutidas neste trabalho.

AGRADECIMENTOS
À Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
pela concessão da bolsa de apoio financeiro a primeira autora e à empresa
Kurier Tecnologia pelo apoio financeiro e tecnológico ao longo da pesquisa.

REFERÊNCIAS
ROZZ, Y. A.; MENEZES, R. Author attribution using network motifs. Springer. International
Workshop on Complex Networks. [S.l.], 2018. p. 199–207.
AMANCIO, D. R. A complex network approach to stylometry. PloS One, Vol. 10, n. 8, p. e0136076,
2015.
BAEZA-YATES, R.; RIBEIRO, B. D. A. N. Modern information retrieval. New York: ACM Press;
Harlow, England: Addison-Wesley, 2011.
BARABÁSI, A.; ALBERT, R. Emergence of scaling in random networks. Science, Vol. 286, n. 5439,
p. 509-512, 1999.
BARABÁSI, A. L. How everything is connected to everything else and what it means for business,
science and everyday life. New York: Plume Books, 2003.
BOCCALETTI, S.; LATORA, V.; MORENO, Y.; CHAVEZ, M.; HWANG, D. U. Complex networks:
Structure and dynamics. Physics Reports, Vol. 424, n. 4-5, p. 175-308, 2006.
BUCHANAN, M.; ALDANA-GONZALES, M. Nexus: Small worlds and the ground-breaking
science of networks. Physics Today, Vol. 56, p. 71-72, 2003.
CALADO, R.; MACIEL, A.; Mineração de dados jurídicos não estruturados utilizando ensemble
dinâmico. Dissertação (Mestrado em Engenharia da Computação) - Escola Politécnica do
Recife, Universidade de Pernambuco. Recife. 2019.
CHAKRABORTY, G.; PAGOLU, M.; GARLA, S. Text mining and analysis: practical methods,
examples, and case studies using SAS. 1ª Edição. Cary, NC, USA. SAS Institute Inc., 2013.
COSTA, L. D. F.; RODRIGUES, F. A.; TRAVIESO, G.; VILLAS BOAS, P. R. Characterization of complex
networks: A survey of measurements. Advances in Physics, Vol. 56, n. 1, p. 167-242, 2007.
CORREA, E. A.; LOPES, A. A.; AMÂNCIO, D. R. Word sense disambiguation. Information
Sciences: an International Journal, Vol. 442, n. C, p. 103-113, 2018.

64
Capítulo 4 – Mineração de dados textuais não estruturados utilizando redes complexas

CHEN, H.; CHEN, X.; LIU, H. How does language change as a lexical network? An investigation
based on written Chinese word co-occurrence networks. PloS One, Vol. 13, n. 2, p. e0192545,
2018.
ERDOS, P.; RENYI, A. On random graphs. I. Publicationes Mathematicae Debrecen, Vol. 6, p.
290-297, 1959.
FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analyzing
unstructured data. Cambridge University Press, 2007.
GUPTA, V.; LEHAL, G. S. A survey of text mining techniques and applications. Journal of
Emerging Technologies In Web Intelligence, Vol. 1, n. 1, p. 60-76, 2009.
HANNEMAN, R. A.; RIDDLE, M. Introduction to social network methods. Riverside, CA:
University of California, 2005. Disponível em: <https://faculty.ucr.edu/~hanneman/>.
Acesso em: 08 fev. 2019.
KAO, A.; POTEET, S. R. (Ed.). Natural language processing and text mining. Springer-Verlag,
New York, Inc. Secaucus, NJ, USA, 2007.
MACHADO, C.; RODRIGUES, R.; MACIEL, A.; MENEZES, R. An approach for thematic
relevance analysis applied to textual contributions in discussion forums. International
Journal Of Distance Education Technologies, 2019.
REHMAN, Z.; ANWAR, W.; BAJWA, U. I.; XUAN, W.; CHAOYING, Z. Morpheme matching
based text tokenization for a scarce resourced language. PloS one, Vol. 8, n. 8, p. e68178, 2013.
PORTER, M. An algorithm for suffix stripping. Program, Vol. 14, n. 3, p. 130-137, 1980.
PIATETSKY-SHAPIRO, G.; FAYYAD, U.; SMITH, P. From data mining to knowledge discovery:
An overview. Advances in Knowledge Discovery And Data Mining, Vol. 1, p. 35, 1996.
SCACCHI, M.: Competitive intelligence and unstructured data: the business case for text mining.
Competitive Intelligence Magazine, Vol. 20, n. 1, p 26-40, 2017.
SINOARA, R. A.; ANTUNES, J.; REZENDE, S. O. Text mining and semantics: a systematic
mapping study. Journal of the Brazilian Computer Society, Vol. 23, n. 1, p. 9, 2017.
TOROCZKAI, Z. Complex networks: the challenge of interaction topology. Los Alamos Science,
n. 29, pp. 94–109, 2005.
WATTS, D. J.; STROGATZ, S. H. Collective dynamics of ‘small-world’ networks. Nature, Vol..
393, n. 6684, p. 440, 1998.

65
5
INTRODUÇÃO A CHATBOTS E SUAS APLICAÇÕES
EM CIÊNCIAS DA LINGUAGEM
Sílvio S. Bandeira
Universidade Católica de Pernambuco - UNICAP
Anthony J. C. C. Lins
Universidade Católica de Pernambuco - UNICAP
Fernando J. A. Wanderley
Universidade Católica de Pernambuco - UNICAP
Matheus B. L. Marinho
Universidade Católica de Pernambuco - UNICAP
Waslon T. A. Lopes
Universidade Federal de Campina Grande - UFCG
Francisco Madeiro
Universidade Católica de Pernambuco - UNICAP

1. INTRODUÇÃO
O termo chatbot é uma abreviação de duas palavras “bate-papo” (chat,
em inglês) e robô (robot ou bot, em inglês). Um chatbot é também denominado
assistente virtual, agente virtual ou, simplesmente, bot. O chatbot é basicamen-
te um programa de computador que pode interagir com pessoas fazendo e
respondendo perguntas.
No cenário de aplicações comerciais, os chatbots têm sido amplamente
utilizados na automação de sistemas de atendimento ao cliente (SAC). Um
relatório da Empresa Gartner (CRM, 2011) projeta que, em 2020, 85% das inte-
rações com clientes serão realizadas por chatbots. Dois exemplos importantes
de chatbots são o IBM Watson e o Microsoft Bot Framework.
Em se tratando de educação e aprendizagem, os chatbots têm sido con-
templados em vários estudos. Hiremath et al. (2018), por exemplo, usam bases
de dados locais e da Internet para construir um sistema escalável, amigável e
interativo. A ideia chave é usar aprendizagem de máquina, reconhecimento

67
Tecnologias e ciências da linguagem

de padrões e algoritmos de processamento de dados para obter palavras-


-chave de questionamento dos estudantes para produzir respostas baseadas
em conhecimento local ou em conteúdo online.
Nos últimos anos, as pesquisas relacionadas com Interação Humano-
-Computador (Human-Computer Interaction - HCI) buscam apresentar inter-
faces interativas para realização de tarefas que envolvem um processamen-
to que simule raciocínio e que produzam um fluxo de possíveis respostas
dentro de um contexto aproximando o diálogo entre humanos e máquinas
(­CIECHANOWSKI et al., 2019).
Um chatbot, também conhecido como talkbot, chatterbot, bot, agente in-
terativo (interactive agente), ou entidade de conversação artificial (artificial
conversational entity), é um programa (software) que conduz um diálogo em
linguagem natural através de técnicas de reconhecimento de voz ou até
mesmo através de processamento de texto, entendendo a intenção do usuá-
rio e enviando uma resposta baseada nas regras e dados de contexto especí-
fico (NIVAMAT; CHAMPANERIA, 2017). Ciechanowski et al. (2019) afirmam
que os chatbots são exemplos de mecanismos inteligentes de interações com
os usuários através de técnicas de processamento de linguagem natural e
inteligência artificial. Desde os experimentos iniciais na década de 1960,
confundiam os usuários por fazerem acreditar que estavam interagindo
com humanos reais, mas que, apesar da “brincadeira”, os chatbots seriam
exemplos do estado-da-arte da implementação de Inteligência Artificial (IA)
orientada ao consumidor, simulando comportamentos humanos baseados
em modelos formais.
Outro termo associado aos chatbots é agente de conversação embutido
(Embodied Conversational Agent - ECA), que é um tipo de interface humano-
-computador utilizando personagens virtuais, humanos ou desenhos (carto-
ons), que se comunicam usando recursos verbais e não-verbais (PICKARD;
ROSTER; CHEN, 2016). Langlet e Clavel (2016) indicam que os ECAs realizam
conversações com usuários humanos em diferentes cenários de interação, de-
sempenhando vários papéis, tais como acompanhantes, tutores e assistentes.
Um dos cenários de utilização do ECA tem sido na transmissão de estra-
tégias de mudança comportamental para pacientes (GARDINER et al., 2017),
através da entrega de conteúdos sobre mindfulness (no contexto de gerencia-
mento do estresse), alimentação saudável e atividade física. O agente respon-
de a perguntas e testa a compreensão do paciente sobre os principais fatos
de saúde. Outro estudo produziu resultados positivos na utilização de ECAs
para fornecer educação em saúde nos cuidados com relação à pré-concepção
(JACK et al., 2015).

68
Capítulo 5 – IntroduçÃo a Chatbots e suas aplicações em Ciências da Linguagem

De acordo com um relatório feito pela Universidade de Harvard, a in-


teligência artificial, aplicada em contextos de chatbots, pode ajudar em seis
tipos de problemas governamentais, entre eles a escassez de especialistas e
as realizações de tarefas repetitivas (MEHR; ASH; FELLOW, 2017). Em recente
trabalho, Androutsopoulou et al. (2018) ressaltaram que através dos chatbots
os setores públicos podem reduzir a carga administrativa e promover uma
maior comunicação entre o governo e os cidadãos, contribuindo para a di-
minuição da burocracia. Os chatbots têm se tornado cada vez mais presentes
no cotidiano das pessoas, promovendo uma maior automatização de tarefas
repetitivas e burocráticas, servindo de assistentes pessoais, inseridos em seus
contextos sociais através de seus dispositivos móveis e suas respectivas pla-
taformas de conversação, como por exemplo: Siri1, Google Now2 e Cortana3,
provendo a capacidade de agilizar as tomadas de decisões do dia a dia.
Recentemente, o Bank of America4 e a MasterCard, em parceria com
diversas startups, anunciaram o lançamento de chatbots para facilitar o rela-
cionamento com clientes por meio de um serviço de perguntas e respostas a
respeito das contas-correntes. As novas ferramentas também proporcionam o
início de operações e até a obtenção de aconselhamento financeiro por meio
de mensagens de texto ou em mensageiros como o Facebook Messenger. No
campo da inteligência de marketing, os chatbots têm sido utilizados nas me-
lhorias dos relacionamento com os clientes, proporcionando o aumento de
vendas cruzadas (cross-selling).
De acordo com a revisão sistemática realizada por Kuyven et al. (2018),
na qual foram levantados artigos que relacionam chatbot e educação, pode-se
destacar a utilização dos agentes em temas como: tutoriais inteligentes, onde o
agente se adapta ao estilo de aprendizagem do usuário; a utilização de c­ hatbot­
para apoiar o auto aprendizado; e utilização de agentes por alunos com baixa
alfabetização.
Neste capítulo são abordados temas como: chatbot adaptado ao usuário,
chatbot em educação e chatbot aplicado ao ensino do inglês.

2. CHATBOT ADAPTADO AO USUÁRIO


Følstad et al. (2018) apresentam os benefícios da utilização de chatbots e
suas variações em contextos sociais. Desde o projeto ELIZA, na década de 60,

1
Apple Siri - https://www.apple.com/br/siri/
2
Google Now - https://www.google.com/intl/pt-BR/landing/now/
3
Microsfot Cortana - https://www.microsoft.com/pt-br/windows/cortana
4
AI ChatBot Erica for Bank of America - goo.gl/V9q8n7

69
Tecnologias e ciências da linguagem

às recentes plataformas de mensagens online, como o Facebook e o Whatsapp,


bem como as interfaces de conversação com usuários, tais como a Alexa
(Amazon), Google Home e Siri (Apple), esses agentes de conversação tornam
real a promessa de um diálogo cada vez mais significativo, envolvente e
onipresente usando linguagem natural com usuários. As aplicações com
chatbots vêm sendo cada vez mais exploradas por provedores de serviços.
Ciechanowski et al. (2019) trazem um experimento para analisar o nível
de interação de diferentes abordagens de chatbots, baseados em uma versão
textual e outra com um avatar, representando uma personagem “humana”,
e os participantes do experimento foram submetidos a análises fisiológicas
através de dados coletados via exames de Eletrocardiograma (ECG), Eletro-
miografia (EMG), Respirômetro (RSP) e de Atividade Eletrodermal (EDA),
além de avaliação via séries de questionários relacionados à experiência da
interação entre bots e humanos. Uma das análises desse experimento resul-
tou que os usuários apresentaram maior empatia e nível de interação com
a abordagem baseada em textos comparada às interações com o avatar, que
despertou emoções mais intensas que a textual. O trabalho dos autores pode
direcionar o desenvolvimento de interfaces humano-computador mais sofisti-
cadas, usando metodologias diversas, incluindo análises do usuário do ponto
de vista da psicologia comportamental.
Os chatbots e suas variações apontam para benefícios nas interações hu-
mano-computador, em diversos contextos. Na área de saúde há exemplos do
uso de sistemas baseados em chatbots de baixo custo, tais como: o Babylon,
para facilitar a triagem médica através da análise dos sintomas informados
pelo usuário; o Woebot, para apoio no âmbito de saúde mental (depressão,
ansiedade etc.) através da construção de narrativas baseadas na Terapia Com-
portamental Cognitiva (Cognitive Behaviour Therapy - CBT); o aplicativo Flo-
rence, para indicar mudanças de comportamento para promoção da saúde,
lembrando horários de medicamentos, objetivos diários a serem cumpridos,
como caminhar, tomar água, dormir, dentre outras atividades (FØLSTAD et
al., 2018).
Também citado por Følstad et al. (2018), no contexto da cidadania, ou
participação cívica, os chatbots podem, por exemplo, ser utilizados no cenário
de votação, como no caso do site Hello Vote, que organiza todas as informa-
ções necessárias para o usuário realizar seu voto, indicando local de votação,
dicas para o dia da votação, dentre outras informações. Para a área de edu-
cação e treinamentos, o site Differ combina perfis de estudantes e professores
criando mensagens privadas através de chatbots, facilitando a comunicação
entre possíveis mentores e seus orientandos.

70
Capítulo 5 – IntroduçÃo a Chatbots e suas aplicações em Ciências da Linguagem

Atualmente, pode-se encontrar uma grande quantidade de agentes in-


teligentes na internet que interagem através de linguagem natural, de sis-
temas de reservas de pacotes turísticos a catálogos de vendas de produtos
eletrônicos.
O trabalho de Hill, Ford e Farreras (2015) apresenta uma análise sobre a
forma como os humanos interagem numa Comunicação Mediada por Com-
putador (CMC) difere da comunicação entre humanos. Sistemas baseados em
CMC são de grande importância para pesquisas de exploração com simulação
da linguagem natural.
Algumas oportunidades, do ponto de vista da HCI, podem ser explo-
radas com a aplicação de chatbots e suas variações em diferentes contextos
e formatos de interações com usuários, tais como o combate à segregação
digital, para análise do discurso em processos de conversação, análises de
dados massivos para adequação e construção das interações, salvaguardar
a ética e a privacidade identificando condutas consideradas desrespeitosas,
imorais, agressivas ou que possam ter uma conotação negativa, principalmen-
te no contexto de redes sociais e/ou no tratamento de informações pessoais
de usuários (FØLSTAD; BRANDTZAEG, 2017).
Kar e Haldar (2016) afirmam que resolver as deficiências da experiência
do usuário dos sistemas baseados nas tecnologias disponíveis para Internet
das Coisas (Internet of Things - IoT) pode ser uma oportunidade significativa
para os chatbots. Os chatbots podem orientar e aconselhar os usuários sobre as
configurações certas para o sistema, criando processos de configuração passo
a passo. Isso reduz o esforço humano envolvido na configuração do sistema.

3. AGENTES DE DIÁLOGO PERSONIFICADOS


Nesta seção analisamos sistemas chamados agentes de diálogo personi-
ficados (do inglês Embodied Conversational Agent ou ECA), que são plataformas
de aprendizado de línguas assistidas por computador. Inicialmente discutimos
as aplicabilidades desses sistemas e suas características. Em seguida, descreve-
mos os principais problemas enfrentados no projeto e execução dos ECAs. No
final da seção, fazemos um estudo de três sistemas destacando suas principais
características e as estratégias utilizadas para resolver cada problema.
ECAs são sistemas utilizados para auxiliar o aprendizado de línguas e
têm como objetivo principal servirem de complemento ao instrutor ou pro-
fessor, podendo, em alguns casos, ser o principal instrumento de estudo. A
principal motivação da construção de um ECA é compensar as dificuldades
do ensino presencial de línguas, a saber:

71
Tecnologias e ciências da linguagem

• Baixa disponibilidade de cursos/professores.


• Pouco tempo gasto em conversações diretas.
• Custo.
• Ansiedade/Timidez/Autoconfiança do estudante.
No aprendizado de línguas, a conversação, especialmente com interlo-
cutores nativos da língua estudada, é um instrumento de fundamental im-
portância por dar oportunidades ao estudante de exercitar a interpretação
e a criação de sentenças (JIA, 2009). Neste sentido, não só a qualidade da
interação influencia no aprendizado, como também a média diária de tempo
utilizado na prática.
Em muitas regiões, a baixa disponibilidade de professores pode ser um
importante obstáculo ao estudo de línguas. Mesmo tendo acesso a uma sala
de aula, o tradicional método de conversação quase sempre toma a forma um
para um (entre o professor e um dos alunos), que fornece uma quantidade
insuficiente de oportunidades de praticar a conversação para cada membro.
Em outras ocasiões, a timidez do estudante na interação com professores e
participantes de uma turma também pode inibir a iniciativa em participar
de uma conversa.
Exatamente nesses casos, os ECAs constituem-se em alternativas, poden-
do ser muito úteis devido a características como:
• Alta disponibilidade.
• Possibilidade de acesso em praticamente qualquer lugar.
• Baixo custo.
• Menor timidez/ansiedade do aluno pela interação com um persona-
gem virtual.
Idealmente, um ECA precisa ser desenvolvido com qualidade suficiente
para fornecer ao estudante um ambiente de imersão que seja, ao mesmo tem-
po, rico e estimulante. A riqueza do ambiente inclui a interpretação correta
das expressões do aluno, não só em termos de sintaxe e semântica das sen-
tenças, como também de características subjetivas da linguagem.
Um ambiente que forneça um contexto social interessante e uma varie-
dade de respostas aumenta a disposição do aluno a se comunicar na língua
em estudo (AYEDOUN; HAYASHI; SETA, 2015), e essa disposição, por sua
vez, vai aumentar o tempo dedicado ao aprendizado.
O estímulo ao estudante quanto ao desejo de se comunicar pode ser
fornecido com a criação de histórias/contextos sociais criativos e geração de
respostas adequadas do ECA, evitando sentenças erradas, monótonas ou fora
de contexto. Outra estratégia interessante é o uso da abordagem de jogos (do
inglês gamification). Jogos são desenvolvidos com o objetivo de dar o prazer

72
Capítulo 5 – IntroduçÃo a Chatbots e suas aplicações em Ciências da Linguagem

do engajamento (WIK; HJALMARSSON, 2009), aumentando, desta forma, o


tempo gasto pelo usuário no programa. É patente a forma como os jogos
bem projetados cativam e prendem a atenção, especialmente do público mais
jovem, por horas a fio.
A ideia de utilizar o computador como parceiro de conversação não é
nova. Batizados de chatbots, os sistemas iniciais tinham sérias limitações de-
vido à enorme complexidade que a linguagem humana impõe. Um dos pri-
meiros chatbots conhecidos na literatura foi o ELIZA (JIA, 2009) e limitou-se a
produzir respostas baseadas apenas na análise sintática parcial das sentenças
digitadas pelo estudante. A análise era usada para identificar padrões e/ou
palavras-chave e o uso de regras que mapeavam esses padrões com respostas
pré-inseridas na base de dados do programa. O sistema apenas buscava par-
tes do texto de entrada para produzir as saídas, desprezando a sintaxe e se-
mântica completas das sentenças. Analisemos, por exemplo, a seguinte regra:

“Eu sou * um estudante.” → “Você gosta de ser um estudante?”

O asterisco corresponde a qualquer quantidade de caracteres interme-


diários na sentença à esquerda da regra. Portanto, a entrada do usuário casa
com esta regra apenas se começar com a parte “eu sou” e terminar com “um
estudante”.
Para contemplar uma gama maior de possíveis entradas do usuário, o
sistema precisaria contar com uma enorme quantidade de regras. Mesmo as-
sim, sutilezas importantes da linguagem natural não podem ser tratadas com
uma abordagem tão cartesiana.
O sistema ELIZA não possuía qualquer tipo de memória da conversa.
Por exemplo, o sistema não se “lembrava” dos fatos relevantes sobre o usu-
ário, como sua condição de estudante. Caso a mesma frase, ou equivalente,
fosse entrada novamente, o sistema daria a mesma resposta.
Os únicos pontos positivos destes chatbots iniciais eram a resposta rápida
e os potenciais de baixo custo e alta disponibilidade.
Os atuais sistemas de conversação por computador utilizam estratégias
tanto mais inteligentes, aproveitando-se dos avanços em linguística, velocida-
de e tecnologia computacionais.
Algumas das tendências modernas incluem, mas não se limitam a:
reconhecimento de fala (do inglês automatic speech recognition ou ASR), ao
invés de apenas texto; análise sintática e semântica completas; variação de
cenários e contextos da conversação; personagens de iteração com variadas
personalidades e que utilizam expressões faciais e de fala compatíveis com

73
Tecnologias e ciências da linguagem

o contexto; possibilidade de aumento das bases de dados de assuntos ge-


rais, através do uso de sistemas disponíveis na Internet e coletando dados
a partir das próprias iterações; uso de APIs (do inglês application program
interfaces) de acesso a plataformas na nuvem, para sistemas com hardware
limitado (e.g, smartphones e wearables); evolução automática através do uso
de inteligência artificial.
Podemos destacar alguns dos desafios mais importantes aos sistemas de
conversação assistidos por computador:
● Das características gerais do sistema:
○ Adequar a relação entre velocidade e qualidade das respostas.
O processo de conversação é uma atividade que se enquadra
como tempo real. O tempo de resposta é determinante para sua
qualidade.
○ Criar uma boa experiência de imersão, estimulando o usuário.
○ Melhorar o vocabulário.
○ Servir tanto como professor quanto como parceiro de comunica-
ção (onde o estabelecimento de uma conversa interessante é mais
importante que a correção das sentenças).
● Da interpretação da entrada do usuário
○ Análise sintática e semântica completas, extraindo informações
importantes para o contexto atual da conversa.
○ Captar minimamente o encadeamento de ideias e relacionamento
entre as diferentes entradas.
○ Detectar características subjetivas, como intenção, ênfase, pressa,
humor.
○ Detectar/corrigir erros de pronúncia.
○ Captar informações úteis para enriquecimento da base de conhe-
cimento do sistema, melhorando a capacidade de criar conversas
em diferentes tópicos.
○ Tratar a ambiguidade inerente à linguagem natural, ao menos
para evitar prejuízos à conversação.
● Da geração de respostas:
○ Garantir consistência e fluidez na comunicação, como adequar a
troca de falas entre os interlocutores.
○ Evitar respostas erradas e/ou fora de contexto.
○ Uso da voz sem erros de pronúncia, mesmo na criação de senten-
ças sob demanda.
○ Criação de boas histórias e contextos interessantes.

74
Capítulo 5 – IntroduçÃo a Chatbots e suas aplicações em Ciências da Linguagem

Para melhor ilustrar os conceitos envolvidos, vamos analisar três siste-


mas de ECAs para entendermos quais estratégias cada um utiliza para lidar
com requisitos tão complexos e frequentemente conflitantes.

ESTUDOS DE CASOS

WTC
O primeiro caso, descrito em (AYEDOUN; HAYASHI; SETA, 2015), con-
siste em um ECA projetado ao redor de um princípio: aumentar a disposição
do aluno de conversar na língua estrangeira, a que se referem com a sigla
WTC (do inglês willing to communicate).
Os responsáveis por esse sistema identificaram que o WTC é a chave
para que o estudante melhore seu aprendizado quando evidenciaram que,
mesmo após vários anos de estudo, os alunos, em sua maioria, não se sentem
espontaneamente dispostos a conversar na língua estrangeira, ou seja, a ini-
ciativa em procurar oportunidades de comunicação é pequena. Como causas
desse fato, acharam dois tipos de fatores:
• Fatores estáveis: como personalidade, autoconfiança, situação social
e auto-motivação.
• Fatores influenciáveis: como ansiedade, percepção da própria com-
petência na língua estrangeira no contexto da conversação, desejo de
se comunicar com uma determinada pessoa e oportunidades de uso
da língua.
Os fatores influenciáveis são os que se apresentam com melhores chan-
ces de melhoria através de um ECA. Então, o sistema precisa ajudar o aluno
a reduzir a ansiedade e melhorar sua autoconfiança na comunicação, apre-
sentando contextos de conversação variados, interessantes e adequados ao
seu nível.
O ECA foi projetado com duas partes principais, cada uma delas com-
posta por módulos desenvolvidos e mantidos pelo próprio grupo e outros
disponíveis na Internet. O papel de cada uma das duas partes é bem simples:
a primeira parte, chamada de gerenciador de diálogos, que recebe a entrada
vocal do aluno, é responsável por decidir qual a resposta que o sistema dará
ao aluno e quando será emitida. A segunda parte, chamada de gerador mul-
timodal de respostas, é responsável pela apresentação da saída do sistema, ou
seja, ele decide como a resposta será emitida.
O gerenciador de diálogos precisa, em primeiro lugar, entender o que
o aluno falou e, para isto, utiliza o serviço de um módulo especializado de

75
Tecnologias e ciências da linguagem

reconhecimento de fala chamado Wit.ai (AYEDOUN; HAYASHI; SETA, 2015),


que, como o próprio website do sistema diz: “Transforma o que o usuário fala
em ações”. Este sistema consegue extrair da entrada do aluno informações
importantes como intenção, ações, entidades/objeto de que trata a fala e, tam-
bém, informa o grau de confiança em cada interpretação que retorna, per-
mitindo que o ECA identifique erros ou solicite ao aluno, por exemplo, que
repita a entrada caso o grau de confiança da fala anterior tenha sido baixo.
Disponível na Internet com uma interface de fácil integração em sistemas web
comuns, o Wit.ai tem a grande vantagem da melhoria incremental ao coletar
dados de inúmeras iterações via diferentes sistemas, tornando o ECA (que o
utiliza) flexível e adaptativo a variados contextos.
Outra parte importante do gerenciador são os scripts de diálogo. Basica-
mente, o desenvolvedor do ECA programa scripts para cada cenário de con-
versação que queira inserir no sistema. Os scripts se assemelham a máquinas
de estado e são usados para melhor controle do fluxo da conversa e evitar
que respostas inadequadas sejam geradas. Ajudam, também, a determinar se
e quando o agente deve tomar a iniciativa na comunicação.
Cada script é composto de steps, ou passos. Cada passo indica o “estado”
em que a conversa se encontra, como no momento em que o usuário entra
em uma loja. Neste caso o primeiro step seria o cumprimento e, depois disto,
o próprio ECA, personificando o vendedor, poderia perguntar o que a pes-
soa deseja comprar, tomando, desta forma, a iniciativa, sem precisar esperar
qualquer entrada do usuário.
Por diminuir a gama de possibilidades de estados dentro de uma con-
versação, os steps ajudam a controlar mais eficientemente a ambiguidade, que
é um enorme desafio para o tratamento de linguagens naturais.
A segunda parte do ECA, o gerador multimodal de respostas, recebe do
gerenciador de diálogos a mensagem a ser apresentada ao aluno juntamente
com instruções não verbais (e.g. expressões faciais, movimentos dos lábios e
olhos) e vai, então, representar a mensagem utilizando o personagem esco-
lhido para o cenário atual.
Dois módulos externos são utilizados pelo gerador multimodal: um
para transformar o texto da mensagem em áudio e outro que gera as anima-
ções faciais para produzir a parte não verbal da saída. O primeiro módulo
é o AT&T-TTS (AYEDOUN; HAYASHI; SETA, 2015), que fornece uma varia-
da gama de vozes naturais e controle da saída vocal através de tags XML.
O segundo módulo externo utilizado é o CrazyTalk (AYEDOUN; HAYASHI;
SETA, 2015), um sistema que fornece uma série variada de avatars e inúmeras
possibilidades de aparência, além de expressões faciais realistas, movimentos

76
Capítulo 5 – IntroduçÃo a Chatbots e suas aplicações em Ciências da Linguagem

automáticos e sincronia entre fala e movimentos labiais. O ECA, portanto,


pode apresentar um avatar diferente e adequado a cada cenário programado.

CSIEC
O segundo ECA que analisamos, descrito em (JIA, 2009), é, sem dúvida,
o mais complexo dos três. Composto por mais de vinte módulos, o CSIEC
(do inglês computer simulation in educational communication) foi projetado para
rodar em um servidor web e tem como características mais marcantes a com-
pleta análise sintática e semântica da entrada do usuário e o uso ostensivo da
memória das conversas, inclusive, enriquecendo as novas com conhecimentos
específicos e gerais das antigas. Disponível na Internet, o sistema evolui à
medida em que é usado.
O ECA alimenta vários módulos com a mesma entrada do usuário, seja
em texto ou voz. Desta forma, o sistema consegue diminuir o tempo médio
de resposta ao usuário pois os módulos que rodam em paralelo conseguem
gerar respostas de complexidades diferentes, decidindo se uma resposta mais
rápida ao usuário é mais adequada ou a saída de um módulo mais complexo
é exigida pelo contexto.
Ao invés de ter cenários pré-programados de interação, o sistema rea-
liza a análise ontológica das sentenças de entrada juntamente com a análise
semântica, e os chamados fatos do usuário coletados são alimentados em uma
base local e formam o contexto da conversa, que pode ser enriquecido com
esses mesmos dados locais e bases de conhecimentos gerais remotas. O sis-
tema armazena fatos novos extraídos da conversa e tanto esses fatos como
características da personalidade do próprio avatar são utilizados para geração
das respostas. Por exemplo, se o usuário fala que é um estudante pela segun-
da vez, o sistema identifica que aquele “fato” já se encontra na memória do
sistema e pode responder “Sim eu sei. O que você está estudando?” ao invés
de repetir a mesma resposta anterior. Desta forma, ao invés de ter cenários
pré-programados de interação, o contexto é montado e adaptado à medida em
que o diálogo progride, o que dá flexibilidade à conversação.
As respostas geradas pelo ECA podem vir de três fontes diferentes:
• Módulo de respostas diretas, que forma saídas mais rápidas basea-
das em regras no modelo do sistema ELIZA, onde se tenta casar a
sentença do usuário em um dos padrões existentes, com a grande
diferença na flexibilidade de criação de sentenças que uma análise
semântica completa pode fornecer. Os pares de padrão e resposta
são escritos em uma tabela de respostas diretas e pode haver várias

77
Tecnologias e ciências da linguagem

saídas para o mesmo padrão, evitando que o sistema seja repe-


titivo. A geração de respostas diretas normalmente usa apenas a
sentença de entrada, mas pode consultar a base local de fatos do
usuário e do próprio avatar (fatos da sua personalidade) e fatos da
memória do diálogo
• Módulo de inferência ou GTE (Generation of Textual Entailment): o
sistema pode usar o conhecimento de uma base de inferência cujas
regras são armazenadas localmente. Este mecanismo pode encontrar
o encadeamento de ideias entre sentenças diferentes de uma manei-
ra grosseiramente comparável aos sistemas criados com a linguagem
PROLOG no passado. Este módulo pode inclusive gerar explicações
das próprias respostas baseando-se no encadeamento lógico de fatos
do usuário ou do avatar
• Bases de conhecimentos comuns: o ECA mantém uma base de co-
nhecimentos gerais que pode ser consultada e enriquecida com os
diálogos. Além desta, outra base de conhecimentos gerais mais
abrangente pode ser acessada. Chamada de WordNet (JIA, 2009),
esta base remota tem uma vasta coleção de substantivos, verbos, ad-
jetivos e advérbios da língua inglesa agrupados em uma rede de
relacionamento entre palavras e conceitos, relembrando superficial-
mente o Thesaurus.
Em um diálogo no CSIEC, a geração da resposta obedece ao fluxo se-
guinte: se não há uma resposta direta para a sentença de entrada, usando
os fatos do usuário e/ou do avatar, a tabela de inferência e a base local de
conhecimentos comuns são pesquisadas. Se ainda nenhuma resposta estiver
disponível, o sistema WordNet será pesquisado para se recuperar o significa-
do de alguma palavra da entrada a ser usado como resposta.
O CSIEC pode ser usado tanto como interlocutor em uma conversação
quanto como ferramenta de análise ortográfica e gramatical, incluindo exer-
cícios, embora apenas para a língua inglesa.
Também neste sistema, os autores identificaram que a duração das
conversas é um fator importante tanto na aceitação da ferramenta como no
aprendizado do estudante. Embora o sistema não tenha sido projetado espe-
cificamente para este fim, como visto no caso anterior, o tempo de uso da fer-
ramenta é muito bem usado como medida de validação e qualidade do ECA,
com análises estatísticas bem fundamentadas. Uma das observações mais
importantes reportadas é que a evolução incremental do sistema, melhoran-
do as respostas tanto em quantidade quanto em qualidade das informações,
aumenta consistentemente o tempo das conversações, o uso continuado da

78
Capítulo 5 – IntroduçÃo a Chatbots e suas aplicações em Ciências da Linguagem

plataforma e as notas dos exames de linguagem dos alunos. Outra observa-


ção relevante das análises é que a grande maioria dos usuários prefere usar
o sistema em conversas casuais ao invés de em análises de textos.

Ville/DEAL
O terceiro caso que analisamos, descrito em (WIK; HJALMARSSON,
2009), é na verdade composto de dois ECAs: Ville e DEAL, ambos desenvol-
vidos para a língua sueca. O primeiro é um auxiliar no treino de vocabulário
e pronúncia, personificando um professor virtual. O segundo foi projetado
como um jogo para a prática de conversação.
Esses dois ECAs são aplicações a serem baixadas em um computador
local, ao invés de serem usadas a partir da web. Utilizam avançados recursos
visuais próprios com especial cuidado no sincronismo entre a fala e as ex-
pressões visuais, incluindo movimentos de cabeça e partes da face para dar
uma impressão mais realista ao avatar. Os agentes são flexíveis e responsivos,
e podem fazer uso de feedback neutro para manter a palavra (e.g., “ok”, “yes”,
“hum…”) enquanto a próxima resposta é gerada.
Ambos os sistemas privilegiam o retorno qualitativo ao aluno sobre o
quantitativo, ou seja, ao invés de retornar um número indicando a “nota” do
aluno, retornam frases de estímulo (e.g., “excelente”, “muito bem”). Os ECAs
são projetados de forma que suas bases de dados possam ser incrementadas
e expandidas pelos participantes do projeto a partir de conhecimento espe-
cializado, como professores treinados, e dos usuários habituais do sistema.
De fato, os responsáveis pelo sistema são bem ativos no sentido de ampliar o
sistema, construindo de forma contínua as bases de perfis de usuários, as ba-
ses de conhecimento, cenários de conversação e exercícios. Fizeram também
um excelente trabalho de análise estatística do uso do ambiente.
O ECA Ville é um professor virtual de língua com o objetivo de guiar o
estudante e, frequentemente, escolhe as palavras que o aluno deve dizer nos
exercícios e simulações, o que facilita bastante a análise (especialmente da
pronúncia). Como Ville precisa ser um modelo de pronúncia correta para o
estudante, sua voz é criada de trechos pré-gravados.
Uma característica singular do Ville é a habilidade de detectar e dar
retorno ao estudante nos erros de pronúncia mais comuns. Ainda mais inte-
ressante é que foi desenvolvido um conjunto de regras baseadas em conheci-
mento (knowledge-based rules) que explicita os erros de pronúncia mais prová-
veis na língua estrangeira dependendo da língua nativa do aluno. Algumas
das análises mais especializadas de pronúncia do Ville são: ênfase das sílabas

79
Tecnologias e ciências da linguagem

tônicas, remoção de consoante após uma vogal tônica, inserção de vogal in-
devida e duração das vogais, sempre apoiadas por exercícios de percepção.
Outra ideia muito bem sucedida do Ville é evitar dar retorno repeti-
tivo ao aluno sempre que ele comete o mesmo erro. Ao invés disto, o ECA
dispõe de várias “luzes de semáforo” na parte inferior da tela para algumas
categorias de erro e, quando o aluno comete um deles, a luz correspondente
acende em vermelho. Este sinal pode ser simplesmente ignorado mas, caso
o usuário queira saber qual erro cometeu, basta clicar na luz correspondente
que receberá o retorno.
Na questão de vocabulário, o Ville emprega os conhecidos flashcards,
que são cartões com uma palavra de um lado e seu significado/tradução no
outro. A inovação neste item fica por conta da inclusão não apenas da tradu-
ção da palavra, mas também de uma figura, o áudio e a possibilidade de o
aluno poder gravar sua própria pronúncia e receber o retorno da análise de
erros. Mais ainda, o histórico dos áudios de uma mesma palavra pronuncia-
da pelo aluno é armazenado para acompanhar o aprendizado ao longo do
tempo. Essa gama de informações gravadas pode ser utilizada para estudos
do desempenho no aprendizado da língua em diferentes classes de pessoas,
agrupadas por gênero, idade, sexo e país de origem. Outra utilidade promis-
sora da coleção é servir de base de treinamento para outros sistemas, espe-
cialmente os que façam uso de inteligência artificial.
O ECA DEAL toma o lugar de um interlocutor de diálogo casual, com o
objetivo de criar e manter uma conversa interessante. Por sua natureza mais
flexível, as vozes dos agentes no DEAL são criadas sob demanda utilizando
um sistema de sintetização vocal (do inglês text-to-speech ou TTS).
Foi projetado para fazer uso de cenários diversos onde o estudante é
estimulado a usar seu aprendizado para realizar alguma tarefa como, por
exemplo, comprar um item de uma loja. Esta abordagem é bem mais aproxi-
mada de um jogo que nos outros ECAs analisados.
Uma possibilidade muito criativa do sistema é combinar o Ville com o
DEAL em um jogo em que o aluno precisa adquirir o conhecimento de uma
“fase” no Ville, e ser testado em um cenário correspondente no DEAL para
poder “passar” para a próxima fase. Os cenários do DEAL são feitos para
construir um contexto de prática onde o estudante precisa exercitar estraté-
gias e pensamento lógico combinados com o uso da linguagem. Por exemplo,
em um determinado cenário o usuário precisa entrar em uma loja e comprar
todos os itens de uma lista levando consigo dinheiro insuficiente para tal.
Desta forma, ele precisa negociar os preços dos produtos com o vendedor
para conseguir comprar todos e completar a tarefa.

80
Capítulo 5 – IntroduçÃo a Chatbots e suas aplicações em Ciências da Linguagem

A combinação dos dois ECAs cria um ambiente de aprendizado diver-


tido e desafiador que proporciona um meio eficaz de cativar o estudante e
estimular o aprendizado.

REFERÊNCIAS
ANDROUTSOPOULOU, A.; KARACAPILIDIS, N.; LOUKIS, E.; CHARALABIDIS, Y.
Transforming the communication between citizens and government through AI-guided
chatbots. Government Information Quarterly, 2018.
AYEDOUN, E.; HAYASHI, Y.; SETA, K. A conversational agent to encourage willingness to
communicate in the context of english as a foreign language. Procedia Computer Science,
[S. l.], n. 60, p. 1433-1442, 2015.
CIECHANOWSKI, L.; PRZEGALINSKA, A.; MAGNUSKI, M.; GLOOR, P. In the shades of the
uncanny valley: An experimental study of human–chatbot interaction, Future Generation
Computer Systems, Vol. 92, n.1, p. 539-548, 2019.
CRM. CRM Strategies and Technologies to Understand, Grow and Manage Custumer Experiences,
Gartner 360 Summit 2011, March 30-April 1, Los Angeles, 2011.
FØLSTAD, A.; BRANDTZAEG, P. B. Chatbots and the new world of HCI, Interactions, Vol. 24,
n. 4, p. 38-42, 2017.
FØLSTAD, A.; BRANDTZAEG, P. B.; FELTWELL, T.; LAW, E. L-C.; TSCHELIGI, M.; LUGER,
E. A. SIG: Chatbots for Social Good, Extended Abstracts of the 2018 CHI Conference on
Human Factors in Computing Systems, ACM, n. 6, p. 1-4, 2018.
GARDINER, P.; MCCUE, K.; NEGASH, L.; CHENG, T.; WHITE, L.; YINUSA-NYAHKOON,
L.; BICKMORE, T. W. Engaging women with an embodied conversational agent to deliver
mindfulness and lifestyle recommendations: A feasibility randomized control trial. Patient
Education and Counseling, Vol.100, n.9, p. 1720-1729, 2017.
HILL, J.; FORD, W.; FARRERAS, I. Real conversations with artificial intelligence: A comparison
between human–human online conversations and human–chatbot conversations, Computers
in Human Behavior, Vol. 49, n. 1, p. 245-250, 2015.
HIREMATH, G.; HAJARE, A.; BHOSALE, P.; NANAWARE, R. Chatbot for education system.
International Journal of Advance Research, Ideas and Innovations in Technology, Vol. 4,
n. 3, 2018.
JACK, B.; BICKMORE, T.; HEMPSTEAD, M.; YINUSA-NYAHKOON, L.; SADIKOVA, E.;
MITCHELL, S.; DAMUS, K. Reducing preconception risks among African American women
with conversational agent technology. The Journal of the American Board of Family Medicine,
Vol. 28, n.4, p. 441-451, 2015.
JIA, J. CSIEC: A computer assisted English learning chatbot based on textual knowledge and
reasoning. Knowledge-Based Systems, [S. l.], n. 22, p. 249-255, 2009.
KAR, R.; HALDAR, R. Applying chatbots to the internet of things: Opportunities and architectural
elements, International Journal of Advanced Computer Science and Applications
(IJACSA), Vol. 7, n. 11, p. 147-154, 2016.
KUYVEN, N.; ANTUNES, C.; DE BARROS VANZIN, V.; DA SILVA, J.; KRASSMANN, A.;
TAROUCO, L. Chatbots na educação: uma Revisão Sistemática da Literatura. RENOTE,
Vol.16, n.1, 2018.
LANGLET, C.; CLAVEL, C. Grounding the detection of the user’s likes and dislikes on the topic
structure of human-agent interactions. Knowledge-Based Systems, Vol. 106, n.1, p. 116-124,
2016.

81
Tecnologias e ciências da linguagem

MEHR, H.; ASH, H.; FELLOW, D. Artificial intelligence for citizen services and government.
Ash Center for Democratic Governance and Innovation, Harvard Kennedy School, v.2 p.1-2.
2017.
NIVAMAT, K.; CHAMPANERIA, T. Chatbots: An overview types, architecture, tools and future
possibilities. International Journal for Scientific Research & Development. Vol.5, n.7, 2017.
PICKARD, M.; ROSTER, C.; CHEN, Y. Revealing sensitive information in personal interviews:
Is self-disclosure easier with humans or avatars and under what conditions? Computers in
Human Behavior, Vol. 65, n. 1, p. 23-30, 2016.
WIK, P.; HJALMARSSON, A. Embodied conversational agents in computer assisted language
learning. Speech Communication, [S. l.], n. 51, p. 1024-1037, 2009.

82
6
RECONHECIMENTO DE COMANDOS DE VOZ
COMO INSTRUMENTO DE INTERFACE PARA
EQUIPAMENTOS ELETROELETRÔNICOS
PARA PESSOAS PORTADORAS DE
DEFICIÊNCIA FÍSICO-MOTORA
Fábio Cisne Ribeiro
Universidade Federal do Ceará – UFC

Karla Julianne Negreiros de Matos


Universidade Estadual do Ceará – UECE

Paulo César Cortez


Universidade Federal do Ceará – UFC

1. INTRODUÇÃO
A comunicação é um dos principais instrumentos de resolução de pro-
blemas da humanidade, sendo um meio de diálogo e de expressão, inclusive
emocional, do ser humano. A comunicação têm dado provas de sua impor-
tância para a sobrevivência e para o desenvolvimento da sociedade. Assim,
desde o surgimento dos dispositivos eletrônicos, como calculadoras, compu-
tadores, telefones, eletrodomésticos, eletrônicos, os meios de interação e/ou
comunicação dos seres humanos com os dispositivos eletrônicos, também
chamados de interface homem-máquina, tornaram-se alvo de estudos e apli-
cações nas mais diversas áreas, desde o início do século XX. Devido a isso,
essa área de pesquisa tem sido de bastante interesse da comunidade acadê-
mica (RIBEIRO, 2019).
A linguagem pode ser expressada pelos mais diversos meios, sendo
a voz a via de comunicação mais natural e mais utilizada, haja vista não

83
Tecnologias e ciências da linguagem

necessitar de contato visual ou físico. Para entender como a tecnologia au-


xilia a comunicação homem-máquina por meio da voz através de dispositi-
vos específicos, inicialmente, é preciso distinguir “reconhecimento de voz”
de “reconhecimento de comandos de voz”. Sistemas de reconhecimento de
voz objetivam reconhecer tudo o que um interlocutor está falando de forma
contínua, usando todo o dicionário da língua nativa. O reconhecimento de
comandos de voz é mais específico e visa reconhecer apenas um conjunto de
palavras pré-definidas, que funcionam como comandos para interação com
os sistemas. Assim, o reconhecimento de comandos de voz se torna mais
eficiente, em termos da assertividade na identificação do comando falado,
em comparação ao reconhecimento de voz, devido à restrição do dicionário.
Contudo, um sistema de reconhecimento de comandos de voz se restringe
aos comandos para os quais foi projetado, não permitindo, por exemplo, a
transcrição de texto falado, visto não abranger toda a língua nativa do sistema
(RIBEIRO, 2019; KOSTOULAS et al., 2013).
Dentre os principais problemas enfrentados por essa tecnologia estão as
fontes de perturbações, como o ruído do ambiente ou oriundo da natureza
fonológica humana, como sopro, estalo da língua e dos lábios, entonações
características de cultura fonética, entre outros. Assim, sistemas de reconhe-
cimento de voz estão constantemente em processo de aperfeiçoamento para
ampliar as suas potencialidades e melhorar a abrangência do reconhecimento
perante a variabilidade de linguagens, sotaques, dialetos que especializam o
dicionário da língua nativa. Além disso, as diversas variações de ambiente
como fábricas, indústrias, ruas movimentadas, veículos, interferem na percep-
ção da fala (TURAN; ERZIN, 2016).
Sendo assim, a aplicação destes sistemas em Tecnologia Assistiva (TA)
pode aumentar ou melhorar as capacidades funcionais das pessoas com de-
ficiências, através de produtos ou softwares que as permitam executar tarefas
complexas, às vezes impossíveis sem o uso de tais tecnologias. Esta tecnologia
auxilia pessoas com dificuldades de falar, digitar, escrever, lembrar, apontar,
ver, ouvir, aprender, andar e muitas outras atividades pessoais e/ou profis-
sionais (STEINHAUSER; MELLO, 2012).

2. PESSOAS PORTADORAS DE DEFICIÊNCIA FÍSICO-MOTORA


Segundo WHO (2018), mais de um bilhão de pessoas em todo mundo
tem algum tipo de deficiência ou incapacidade, correspondendo a cerca de 15%
da população mundial. Esses mesmos dados mostram uma estimativa média
de que 10% dos nascidos portam algum tipo de deficiência física, mental ou

84
Capítulo 6 – Reconhecimento de comandos de voz como instrumento de interface para equipamentos eletroeletrônicos

sensorial. Outro dado importante é o fato da desigualdade que ocorre em in-


vestimentos para essa população em países de baixo índice de desenvolvimen-
to humano, apenas 3% dos portadores de deficiência recebem algum tipo de
assistência. Estima-se que no Brasil há 45 milhões de pessoas com deficiência
(WHO, 2012). Segundo o PORTAL BRASIL (2015), o governo brasileiro custeia
71 grupos que trabalham em pesquisa e produção de tecnologia assistiva.
A Lei Brasileira de Inclusão da Pessoa com Deficiência (BRASIL, 2015;
BRASIL, 2018) tem como objetivo proteger e promover saúde e condições bá-
sicas que permitam, à pessoa com deficiência, ter uma vida com qualidade
e a possibilidade de viver em sociedade de forma digna. Esta lei também
descreve em seu art. 2 que:

“considera-se pessoa com deficiência aquela que tem impedimento de longo prazo
de natureza física, mental, intelectual ou sensorial, o qual, em interação com uma
ou mais barreiras, pode obstruir sua participação plena e efetiva na sociedade em
igualdade de condições com as demais pessoas”.

Já a Décima Primeira revisão da Classificação Internacional de Defici-


ências, Incapacidades e Desvantagens (CID-11), elaborada pela Organização
Mundial de Saúde (2019), conceitua a deficiência como toda privação, perda
ou desequilíbrio de uma estrutura ou função vital, podendo ser psicológica,
fisiológica ou anatômica. A incapacidade, como toda restrição ou dificuldade
devido a uma deficiência na realização de algo considerado usual ou habitual
para um ser humano, que confina ou impede a ação de uma atividade do seu
cotidiano (em função de idade, sexo e fatores sociais e culturais).
Além disso, esse estudo enfatiza os contextos ambientais e as potencia-
lidades, ao invés das incapacidades e das limitações. Em seu texto também
ocorre a inclusão dos transtornos mentais. Assim, a limitação da atividade,
antes conceituada incapacidade, é agora entendida como dificuldade no de-
sempenho pessoal (OMS, 2019).

3. INTERFACE PARA EQUIPAMENTOS ELETROELETRÔNICOS PARA PESSOAS PORTADORAS DE


DEFICIÊNCIA FÍSICO-MOTORA
A tecnologia de reconhecimento de comando de voz, através de disposi-
tivos integrados de hardware e software, permite usar a fala como instrumen-
to de operação de equipamentos tecnológicos. Para isso, pode-se dividir o
processo de reconhecimento de comando de voz em quatro etapas distintas:
aquisição, pré-processamento, processamento e classificação conforme mostra
o diagrama da Figura 1.

85
Tecnologias e ciências da linguagem

Figura 1. Etapas de um sistema de reconhecimento de comandos de voz.


Fonte: elaborada pelo autor.

4. AQUISIÇÃO
A etapa de aquisição de voz é responsável por capturar continuamente a
voz do locutor do sistema, através de um microfone, convertendo a elocução
do comando de voz pronunciado para o formato digital, de forma que possi-
bilite que os algoritmos, presentes no sistema de reconhecimento de coman-
dos de voz, processarem as informações digitais no sinal da voz do locutor
(HERACLEOUS et al., 2018; AYADI et al., 2017).
Um passo dessa etapa consiste em identificar quando o locutor iniciou a
elocução de um comando de voz no sistema, e quando este locutor finalizou
a elocução do comando, de forma a isolar este trecho da fala do locutor para
que as etapas posteriores possam processar apenas a voz do locutor.

5. PRÉ-PROCESSAMENTO
O pré-processamento é a etapa responsável por “condicionar” o sinal de
voz capturada da elocução, removendo eventuais ruídos indesejáveis, remo-
vendo também as seções de silêncio presentes na fala, isolando apenas a parte
importante do sinal da fala, resultando um sinal de voz apropriado para o
processamento (BERDIBAEVA et al., 2017).

6. PROCESSAMENTO
Após a elocução da voz ser devidamente preparada, mas antes de ser clas-
sificada, esta precisa ser processada de forma a identificar os diferentes parâ-
metros da voz. Este processamento, para as aplicações que necessitam extrair
informações para classificação dos dados de entrada, é chamado de extração de
características, e consiste em converter a elocução da voz em um conjunto de ca-
racterísticas mantendo a maior parte da informação dos dados originais presen-
tes da elocução da voz. Este processo converte a voz em um conjunto de dados
ou características que são relevantes presentes na fala, removendo informações
redundantes ou insignificante dos dados originais (MANSOUR; CHENCHAH;
LACHIRI, 2018; FEROZE; MAUD, 2018; AGRAWAL; MISHRA, 2017).

86
Capítulo 6 – Reconhecimento de comandos de voz como instrumento de interface para equipamentos eletroeletrônicos

7. CLASSIFICAÇÃO
Os classificadores fazem parte dos sistemas de reconhecimento de pa-
drões e das ferramentas de aprendizagem de máquina podem ser utilizadas
para tal objetivo. Isto é realizado pela identificação de padrões presentes nas
características do conjunto de dados, usando o conhecimento a priori e/ou
informações estatísticas extraídas desses padrões. As técnicas de classificação
são tipicamente usadas para classificar dados em grupos ou classes, fazendo
com que sistemas aprendam como distinguir tais classes, permitindo, assim,
a classificação de novos dados dentro deste conjunto de classes (KUMARI;
SRIVASTAVA, 2017; LORENA; CARVALHO; GAMA, 2008).
A aplicação dos classificadores em sistemas de reconhecimento de co-
mando de voz consiste em identificar nos dados de entrada informações pre-
sentes na voz ou fala, dentre os comandos pré-definidos pelo sistema, e assim
utilizar cada comando isoladamente ou em uma determinada sequência para
a execução de uma ação (DOU et al., 2018).

8. REDES NEURAIS ARTIFICIAIS


As redes neurais artificiais são um dos classificadores mais utilizados
na literatura, e são inspirados no sistema nervoso central dos seres humanos,
em particular o cérebro, o qual, através de um conjunto de neurônios artifi-
ciais, torna possível a classificação de padrões (ZHANG et al., 2017).

Figura 2. Um neurônio físico e um neurônio artificial.


Fonte: adaptada de Haykin (2001).

87
Tecnologias e ciências da linguagem

Um neurônio artificial simula o neurônio biológico composto por den-


dritos, que são as unidades de entradas de informações, sendo estas proces-
sadas pelo corpo celular ou, no modelo artificial, a função de ativação, e a
unidade de saída do neurônio ou axônio pode ser conectada a outros neurô-
nios formando a rede neural artificial. A Figura 2 mostra um neurônio físico
e um neurônio artificial.
Nessa figura, a saída é y, as entradas são x1, x2, … , xi, os pesos sinápticos
são w1, w2, … , wi, o limiar é b, a soma ponderada (pelos pesos) das entradas
é v e a função de ativação é φ(•) (HAYKIN, 2001).
Assim através da junção de um conjunto de neurônio interligados for-
ma-se uma rede neural artificial, que de forma simplista se assemelha à pre-
sente no cérebro humano. A Figura 3 mostra o exemplo de uma rede neural
artificial com sete entradas, três saídas e duas camadas ocultas.

Figura 3. Exemplo de uma rede neural artificial.


Fonte: elaborada pelo autor.

88
Capítulo 6 – Reconhecimento de comandos de voz como instrumento de interface para equipamentos eletroeletrônicos

Para que a rede neural possa “apreender” os padrões dos dados de en-
trada, é necessário o uso de um algoritmo de treinamento. Um dos algoritmos
existentes simula o processo de aprendizagem do cérebro humano. Este algo-
ritmo consiste em estimular a rede neural com os dados a serem classificados
em conjunto com o que se espera que seja identificado, e assim o algoritmo é
capaz de definir os coeficientes das funções matemáticas presentes em cada
um dos neurônios artificiais e do conjunto de interligações destes ajustar os
parâmetros dos neurônios. Desta forma é possível que a rede neural identi-
fique características presentes na voz, durante a elocução de um comando de
voz, como: entonação, timbre e frequência (HAYKIN, 2001).
Ao final, com a rede neural artificial treinada, cada nova elocução de um
comando de voz é submetida a rede neural, seguindo os mesmos padrões de
processamento do sinal de voz, e através do algoritmo de classificação, a saída
dos últimos neurônios deve identificar o comando de voz que o usuário proferiu.

9. APLICAÇÕES EM TECNOLOGIA ASSISTIVA


Os dispositivos conhecidos como assistentes pessoais, como o Amazon
Echo, que utilizam o reconhecimento de voz da Amazon® chamado Alexa®,
têm sido amplamente utilizados para melhorar a qualidade de vida de pes-
soas com algum tipo de limitação, oferecendo facilidades nas atividades coti-
dianas. Alguns exemplos podem ser controlar quais músicas desejam escutar
(via serviços de streaming de música), definir e gerenciar os horários de seus
alarmes, solicitar delivery de comida, definir lembretes de atividades pessoais,
enviar mensagens e interagir com outras pessoas através das redes sociais
(KAUNDINYA et al., 2017; PURINGTON et al., 2017). Outro experimento uti-
lizando o Amazon Echo foi realizado pelo Conselho do Condado de Hampshire
(2018) com a finalidade de auxiliar os idosos e as pessoas com deficiência
visual em suas comunicações e interações com os espaços da comunidade, a
partir de adaptações de assistentes pessoais (HAMPSHIRE COUNTY COUN-
CIL, 2018; PESKET, 2019).
Outra ferramenta de tecnologia assistiva é a XpressiveTalk é uma ferra-
menta que auxilia autistas adultos a reconhecer corretamente as emoções. Esta
foi desenvolvida a partir de um banco de voz com 6.925 sentenças, capturando
seis emoções: neutra, terna, raiva, medo, alegria e tristeza (CASSIDY et al., 2016).
O Speech Recognition da Microsoft® pode ser utilizado como uma ferra-
menta de tecnologia assistiva, sendo uma opção para pessoas com deficiên-
cias físico-motora ou se recuperando de ferimentos nas mãos e antebraços.
Esta funciona realizando o reconhecimento de voz e assim identificando co-

89
Tecnologias e ciências da linguagem

mandos para controlar uma cadeira de rodas robótica, sendo um instrumento


ideal para atender pessoas com diferentes níveis de tetraplegia. Muitos tipos
de sistemas robóticos de cadeira de rodas são desenvolvidos e integrados
à tecnologia de controle por voz, utilizados em lares de idosos. Isto inclui
cadeira de rodas autônoma que podem aprender os locais de um edifício e
levar seu usuário a um ponto específico em resposta a um comando verbal
(CHANDLER, 2008).
O estudo de Neto, Castro e Felix (2010), que descreve um sistema de re-
conhecimento de comandos de voz independe de locutor, teve por objetivo a
produção do protótipo de uma cadeira de rodas para pessoas com deficiência
incapazes de se locomover de forma direta. Este sistema revelou-se eficaz em
relação ao reconhecimento de comandos para controle do protótipo, com taxa
de acerto de 87%.
O estudo de Steinhauser e Mello (2012) apresenta o protótipo do ZigLar,
que utiliza as redes sem fio Zigbee® para acessibilidade aos portadores
de deficiência física. O ZigLar é um equipamento que visa auxiliar pesso-
as com deficiência física, como paraplégicos e tetraplégicos, a terem maior
autonomia dentro de seus lares. A proposta é que o equipamento permita
simplificar a relação homem-máquina, a partir de botões, joysticks ou outros
dispositivos.
Segundo os autores, os comandos de voz permitiram a expansão do pro-
jeto uma vez que utilizando meios físicos como botões para controle de ações,
a quantidade de comandos é limitada à quantidade de acionadores (botões,
etc.), e assim utilizando o reconhecimento de comandos de voz, a voz pode
comandar um conjunto maior de ações. A inclusão do reconhecimento de
comando de voz simboliza para o portador de deficiência a possibilidade de
ampliação da autonomia do usuário (STEINHAUSER; MELLO, 2012).

10. CONSIDERAÇÕES FINAIS


Os avanços tecnológicos atuais na área de reconhecimento de voz per-
mitiram o desenvolvimento de diversos recursos, inclusive assistivos, para as
mais diversas áreas da vida humana, abrindo espaço para uma nova vertente
de estudos e aplicações. Atualmente, a ampliação da colaboração entre as
ciências, como engenharia, saúde e as ciências humanas, vem crescendo o
desenvolvimento das tecnologias assistivas.
Os sistemas de reconhecimento de comando de voz auxiliam na su-
peração dos obstáculos cotidianos enfrentados por uma parcela da popu-
lação portadora de necessidades físicas especiais, como abrir uma porta,

90
Capítulo 6 – Reconhecimento de comandos de voz como instrumento de interface para equipamentos eletroeletrônicos

ligar aparelhos eletrônicos como televisores, ar condicionado entre outros.


Espera-se que em um futuro próximo possam ser amplamente utilizados
para comandar braços robóticos para efetuar tarefas domésticas mais com-
plexas, como cozinhar, lavar roupa, limpar a casa etc.
Essa temática ainda requer mais estudos e pesquisas, pois há ainda um
longo caminho a ser percorrido no reconhecimento de comando de voz, de
forma a tonar essa tecnologia confiável e adaptada às diversas variações lin-
guísticas. Assim, entender as vantagens e as limitações dessa tecnologia, em
conjunto com a identificação das necessidades prementes dos portadores de
necessidades especiais, deve produzir aplicações na assistência à saúde e, em
especial, na vida para inclusão social dessas pessoas.

AGRADECIMENTOS
À Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CA-
PES) pela concessão da bolsa de apoio financeiro ao primeiro e segundo autor.

REFERÊNCIAS
AGRAWAL, S.; MISHRA, D. K. Speaker verification using mel-frequency cepstrum coefficient
and linear prediction coding. In: 2017 International Conference on Recent Innovations in
Signal processing and Embedded Systems (RISE). [S.l.: s.n.], 2017. p. 543–548.
AYADI, M. E.; HASSAN, A.-K. S.; ABDEL-NABY, A.; ELGENDY, O. A. Text-independent speaker
identification using robust statistics estimation. Speech Communication, v. 92, p. 52–63, 2017.
BERDIBAEVA, G. K.; BODIN, O. N.; KOZLOV, V. V.; NEFED’EV, D. I.; OZHIKENOV, K. A.;
PIZHONKOV, Y. A. Pre-processing voice signals for voice recognition systems. International
Conference of Young Specialists on Micro/Nanotechnologies and Electron Devices, EDM,
p. 242–245, 2017.
BRASIL. Decreto nº 9.296, de 1º de março de 2018. Estatuto da Pessoa com Deficiência - Regulamenta
o art. 45 da Lei nº 13.146, de 6 de julho de 2015, que institui a Lei Brasileira de Inclusão da Pessoa
com Deficiência. Diário Oficial da União, Brasília, DF, 2 mar. 2018, Seção 1, p. 4.
BRASIL. Lei nº 13.146, de 6 de julho de 2015. Institui a lei brasileira de inclusão da pessoa com
deficiência (estatuto da pessoa com deficiência). Brasília, 2015.
CASSIDY, S. A.; STENGER, B.; VAN DONGEN, L.; YANAGISAWA, K.; ANDERSON, R.; WAN,
V.; BARON-COHEN, S.; CIPOLLA, R. Expressive visual text-to-speech as an assistive
technology for individuals with autism spectrum conditions. Computer Vision and Image
Understanding, v. 148, p. 193–200, 2016.
CHANDLER, D. Finding its own way: Robot wheelchair responds to user. MIT Tech Talk,
Cambridge, MA, v. 53, n. 3, p. 8-8, 24 set. 2008.
DOU, J.; YAMAGISHI, H.; ZHU, Z.; YUNUS, A. P.; CHEN, C. W. A comparative study of the
binary logistic regression (blr) and artificial neural network (ann) models for gis-based spatial
predicting landslides at a regional scale. In: Landslide Dynamics: ISDR-ICL Landslide
Interactive Teaching Tools : Volume 1: Fundamentals, Mapping and Monitoring. Cham:
Springer International Publishing, 2018. p. 139–151.

91
Tecnologias e ciências da linguagem

FEROZE, K.; MAUD, A. R. Sound event detection in real life audio using perceptual linear
predictive feature with neural network. In: IEEE Applied Sciences and Technology (IBCAST),
2018 15th International Bhurban Conference on. [S.l.], 2018. p. 377–382.
HAMPSHIRE COUNTY COUNCIL. Hampshire County Council: pushing the boundaries
by using Amazon Echo. Hampshire, United Kingdom, 19 jan. 2018. Acesso em: 21 fev.
2019. Disponível em: <https://www.local.gov.uk/hampshire-county-council-pushing-
boundaries-using-amazon-echo>.
HAYKIN, S. S. Redes Neurais: Princípios e Prática. 2. ed. Porto Alegre: Bookman Companhia
ED, 2001.
HERACLEOUS, P.; EVEN, J.; SUGAYA, F.; HASHIMOTO, M.; YONEYAMA, A. Exploiting
alternative acoustic sensors for improved noise robustness in speech communication. Pattern
Recognition Letters, v. 112, p. 191–197, 2018.
KAUNDINYA, A. S.; ATREYAS, N. S. P.; SRINIVAS, S.; KEHAV, V.; KUMAR, N. M. R. Voice
Enabled Home Automation Using Amazon Echo. International Research Journal of
Engineering and Technology, v. 4, i. 8, p. 682–684, aug. 2017.
KOSTOULAS, T.; WINKLER, T.; GANCHEV, T.; FAKOTAKIS, N.; KÖHLER, J. The MoveON
database: motorcycle environment speech and noise database for command and control
applications. Language Resources and Evaluation, v. 47, n. 2, p. 539–563, Jun 2013.
KUMARI, R.; SRIVASTAVA, S. K. Machine learning: A review on binary classification.
International Journal of Computer Applications, Foundation of Computer Science, v. 160,
n. 7, 2017.
LORENA, A. C.; CARVALHO, A. C.; GAMA, J. A. M. A review on the combination of binary
classifiers in multiclass problems. Artificial Intelligence Review, Kluwer Academic
Publishers, Norwell, MA, USA, v. 30, n. 1-4, p. 19–37, dez. 2008.
MANSOUR, A.; CHENCHAH, F.; LACHIRI, Z. Emotional speaker recognition in real life
conditions using multiple descriptors and i-vector speaker modeling technique. Multimedia
Tools and Applications, Jul 2018.
NETO, J. A. O.; CASTRO, M. A. A.; FELIX, L. B. Reconhecimento de comandos de voz para
o acionamento de cadeira de rodas. XVIII Congresso Brasileiro de Automática, 12 a
16-setembro-2010, Bonito-MS, 2010.
ORGANIZAÇÃO MUNDIAL DA SAÚDE (OMS). Classificação Estatística Internacional de
Doenças e Problemas Relacionados à Saúde: CID-11 Décima primeira revisão. Tradução de
Centro Colaborador da OMS para a Classificação de Doenças em Português. 1 ed. São Paulo:
EDUSP, 2019.
PESKETT, J. Virgin launches new Alexa initiative to assist disabled passengers. [S. l.], 27 fev.
2019. Acesso em: 28 fev. 2019. Disponível em: <https://www.accessandmobility professional.
com/virgin-launches-new-alexa-initiative-to-assist-disabled-passengers/>.
PORTAL BRASIL. Brasil financia tecnologia para pessoas com deficiência. Brasília/DF, 24 set.
2015. Acesso em: 12 fev. 2019. Disponível em: <http://www.brasil.gov.br/noticias/educacao-
e-ciencia/2015/09/brasil-financia-tecnologia-para-pessoas-com-deficiencia>.
PURINGTON, A.; TAFT, J. G.; SANNON, S.; BAZAROVA, N. N.; TAYLOR, S. H. Alexa is my new
BFF: Social roles, user satisfaction, and personification of the Amazon Echo. In: Proceedings
of the 2017 CHI Conference Extended Abstracts on Human Factors in Computing Systems, Denver,
CO, USA, 6–11 May 2017, p. 2853–2859.
RIBEIRO, F. C. Reconhecimento de comandos de voz em português brasileiro em
ambientes ruidosos usando laringofone. 2019. 132 p. Tese (Doutorado em Engenharia de
Teleinformática) - Centro de Tecnologia, Programa de Pós-Graduação em Engenharia de
Teleinformática, Universidade Federal do Ceará, Fortaleza, Brasil, 2019.

92
Capítulo 6 – Reconhecimento de comandos de voz como instrumento de interface para equipamentos eletroeletrônicos

STEINHAUSER, P. L.; MELLO, E. R. Ziglar - utilização de redes sem fio Zigbee para acessibilidade
aos portadores de deficiência física. Centro Universitário para o Desenvolvimento do Alto
Vale do Itajaí, 2012. Acesso em: 08 fev. 2019. Disponível em: <http://www.uniedu.sed.
sc.gov.br/wp-content/uploads/2013/10/Paulo-Luis-Steinhauser.pdf>.
TURAN, M. A. T.; ERZIN, E. Source and filter estimation for throat-microphone speech
enhancement. IEEE/ACM Transactions on Audio, Speech, and Language Processing, v. 24,
n. 2, p. 265–275, Feb 2016.
WORLD HEALTH ORGANIZATION (WHO). Disability and health. [S. l.], 16 jan. 2018. Acesso
em: 12 fev. 2019. Disponível em: <https://www.who.int/news-room/fact-sheets/ detail/
disability-and-health>.
WORLD HEALTH ORGANIZATION (WHO). WHO QualityRights tool kit to assess and
improve quality and human rights in mental health and social care facilities. Geneva:
WHO, 2012.
ZHANG, Z.-L.; LUO, X.-G.; GARCÍA, S.; HERRERA, F. Cost-sensitive back-propagation
neural networks with binarization techniques in addressing multi-class problems and non-
competent classifiers. Applied Soft Computing, v. 56, p. 357–367, 2017.

93
7
RECONHECIMENTO DE EMOÇÕES HUMANAS EM
DADOS MULTIMÍDIA
Eanes Torres Pereira
Universidade Federal de Campina Grande - UFCG
Luciana Ribeiro Veloso
Universidade Federal de Campina Grande - UFCG
Sinara de Oliveira Branco
Universidade Federal de Campina Grande - UFCG

1. INTRODUÇÃO
Muito se fala sobre emoções humanas nas últimas décadas. Um dos
principais responsáveis pela divulgação do tema “emoções” foi Daniel Gole-
man por meio da publicação de seu livro Inteligência Emocional. No entanto, o
tema não é novo na Psicologia e muito menos na Filosofia. Na Filosofia oci-
dental, as discussões sobre emoções remontam a Aristóteles (384 - 322 A.C.),
que define emoção como algo que é seguido de prazer e dor e que leva a
condição do indivíduo a se tornar tão transformada que seu julgamento é
afetado (ARISTÓTELES, 1998). Aristóteles cita como exemplos de emoções:
raiva, medo, piedade e seus opostos.
Provavelmente, o primeiro estudioso de psicologia a questionar “O que é
uma emoção?” foi William James em um ensaio de título Mente publicado em
1884. James enfatizou o aspecto fisiológico da emoção, argumentando que uma
emoção é uma sensação ou conjunto de sensações causados por um distúrbio
fisiológico. Porém, essa pergunta continua sem uma resposta bem definida. Al-
guns filósofos argumentaram que as emoções são algo bestial, inferior à razão
e, por isso, mais primitivo. Seria, por esse motivo, considerado que pessoas que
se deixam levar por emoções seriam inferiores, segundo esses filósofos. O fato
de alguns filósofos considerarem que a razão poderia, na maioria das vezes, ser

95
Tecnologias e ciências da linguagem

tomada pela emoção levou David Hume (1739 - 1888) a afirmar que “a razão é,
e deveria ser, a escrava das paixões” (SOLOMON, 2008, p. 3-16).
De acordo com Solomon (2008), durante a idade média, o estudo das
emoções estava associado com a ética e era um ponto central na psicologia
cristã. Essa associação das emoções com a ética cristã pode estar relacionada
a uma necessidade de associar fatores considerados primitivos e não racionais
a atitudes e ações consideradas irracionais.
Por volta do fim da década de 1990 e início do ano 2000, a Comissão
Europeia financiou uma série de projetos sobre emoções e computação lide-
rados por John Taylor e Stefanos Kollias. Essa série de projetos culminou na
publicação do livro Emotion-oriented Systems, que pode ser considerado um
manual para o estudo das emoções da perspectiva de Ciência da Computa-
ção. O livro trata desde teorias e modelos emocionais, passando por bases
de dados até situações em que as emoções são importantes como interação,
cognição, persuasão e comunicação.
De modo geral, algumas perguntas básicas que devem ser analisadas no
estudo de emoções são:
- O que são emoções?
- Como as emoções surgem?
- O que provoca as emoções?
- As emoções são conscientes ou inconscientes?
- Como as emoções afetam o raciocínio?
- É possível provocar/estimular emoções em seres humanos?
- É possível simular emoções artificialmente?
Dentre as teorias mais aceitas para explicar o que são as emoções des-
tacam-se aquelas que explicam as emoções como sendo reações fisiológicas,
de origem mental, relacionadas a algum fator consciente ou não que ponha
em risco a sobrevivência ou o bem-estar do indivíduo. Segundo as teorias
de apreciação (appraisal), toda emoção é sobre algo, mesmo que o indivíduo
não se dê conta, a princípio, de que algo é esse (SOLOMON, 2008). As emo-
ções podem ser provocadas por elementos que tragam à mente lembranças
de situações que envolvem fatores emocionais. Tais como o perfume de uma
pessoa querida numa situação afetuosa, o sabor de uma comida que a mãe
fazia na infância, uma música ou melodia que se ouvia quando estava triste
etc. No entanto, as lembranças emocionais podem se manifestar no corpo e
não necessariamente a pessoa vai saber exatamente por que ela manifesta
tremor ou sudorese em determinadas situações, por exemplo.
Um marco histórico no estudo das emoções ocorreu com um prêmio
Nobel em 2002 na área de Ciências Econômicas sendo concedido a Daniel

96
Capítulo 7 – Reconhecimento de emoções humanas em dados multimídia

Kahneman, por sua pesquisa sobre tomada de decisão em situações de incer-


teza. No site do prêmio1, temos a seguinte motivação:

Prize motivation: “for having integrated insights from psychological research into
economic science, especially concerning human judgment and decision-making un-
der uncertainty.”

Em tradução livre, a citação acima seria:

Motivação do prêmio: “por ter integrado insights da pesquisa psicológica à ciência


econômica, especialmente no que concerne o julgamento humano e a tomada de
decisão sob incerteza.”

Kahneman (2011) publicou um livro relatando alguns de seus experi-


mentos e conclusões e mostrou que as decisões humanas são tomadas, na
maioria das vezes, por influência dos estados emocionais. Em um dos ex-
perimentos, ele pedia para médicos tomarem decisões sobre indicar ou não
uma cirurgia após terem tido contato com estatísticas sobre pacientes que
se submeteram a cirurgias daquele tipo. Para um conjunto de médicos, ele
apresentava estatísticas de modo positivo, por exemplo: 70% dos pacientes
sobrevivem à cirurgia. Para outro, ele apresentava as estatísticas com uma
perspectiva negativa, por exemplo: 30% dos pacientes não sobrevivem à cirur-
gia. Analisando de modo racional, as estatísticas positivas e negativas são as
mesmas, mas a forma como ela era apresentada provocava efeitos emocionais
que levavam os médicos que tinham tido contato com a apresentação positiva
a indicarem com mais frequência a cirurgia. Kahneman apresentou, também,
em sua pesquisa os efeitos dos estados emocionais em tomadas de decisão
em bolsa de valores.
Neste capítulo, o foco de nossa atenção é o reconhecimento de emo-
ções humanas em dados multimídia. Aqui, consideramos multimídia qual-
quer dado que seja armazenado ou reproduzido por mais de um meio. Neste
contexto, um livro com imagens e texto é considerado multimídia. Iremos
nos ater a tratar do reconhecimento de emoções nas seguintes mídias: texto,
áudio, eletroencefalografia (EEG), imagens e vídeos.
Apesar de não existir uma definição universalmente aceita para o con-
ceito de emoção, é possível ver a emoção associada a estados mentais, resul-
tantes de um estímulo externo, que podem produzir experiências subjetivas
e alterações neurofisiológicas nos indivíduos, tendo bases neuronais comuns

1
Disponível em: https://www.nobelprize.org/prizes/economic-sciences/2002/kahneman/facts.
Acessado em 21 de novembro de 2018.

97
Tecnologias e ciências da linguagem

à cognição e à percepção (OOSTERWIJK et al., 2012). Portanto, podemos ana-


lisar as emoções de duas perspectivas: reconhecendo a emoção que a pessoa
está sentindo a partir de dados de sua fisiologia (e.g., EEG, expressões faciais,
voz) ou reconhecendo que emoção a pessoa sente ao entrar em contato com
determinada mídia (e.g., texto, música, imagem, vídeo).

2. RECONHECIMENTO DE EMOÇÕES
As emoções humanas desempenham papel importantíssimo nos relaciona-
mentos sociais e nos processos de tomada de decisão (KAHNEMAN, 2011). Além
disso, uma grande variedade de funções cognitivas, como a aprendizagem e a
percepção, é influenciada pelas emoções (PICARD, 2000). Durante muito tempo
a ciência da computação buscou desenvolver algoritmos inteligentes levando em
consideração apenas fatores racionais ou lógico-matemáticos. No entanto, Picard
(2000) afirma que alguns cientistas defendem a ideia de que um sistema com
recursos finitos que esteja operando em ambiente com situações imprevisíveis
necessitará de emoções para agir de modo flexível, inteligente e eficiente.
Em seu livro, Picard (2000) popularizou o que ficou conhecido como
Computação Afetiva, ou seja, a computação relacionada a, que surge de, ou
deliberadamente influencia as emoções. Segundo Picard (2000), os três gran-
des questionamentos com os quais a computação afetiva se preocupa são:
• Como as emoções podem ser geradas em computadores?
• Como as emoções podem ser reconhecidas por computadores?
• Como as emoções podem ser expressas por computadores?
Este capítulo está inserido no contexto do segundo questionamento. Por-
tanto, o problema abordado é o reconhecimento multimodal (usando texto,
áudio, sinais de EEG, imagens e vídeos) de emoções humanas e a classificação
de múltiplas mídias quanto ao seu potencial de evocação emocional. Neste
capítulo, o termo multimodal refere-se à utilização de diversos meios de aqui-
sição ou representação de informação, tais como: imagens, áudios, vídeos e
sinais de eletroencefalografia (EEG).

2.1. Modelos Emocionais


Há vários modelos diferentes propostos na literatura especializada em
emoções. Dentre eles destacamos neste capítulo os seguintes: Modelo de Pro-
cessos Componentes, Modelo Categórico e Modelo Circumplexo. Descreve-
mos sucintamente o trabalho de um dos pesquisadores mais conhecidos para
cada um desses modelos.

98
Capítulo 7 – Reconhecimento de emoções humanas em dados multimídia

Modelo de Processos Componentes (Component Process Model)


Para Scherer (2005), as emoções são episódios caracterizados por altera-
ções em um dos quatro sistemas do organismo (formados por combinações
de Sistema Nervoso Central, Sistema Neuroendócrino, Sistema Nervoso Au-
tônomo e Sistema Nervoso Somático) como resultado de reação a estímulos
internos ou externos. Usando esse raciocínio, Scherer (2001) propõe 6 agru-
pamentos de modelos: Modelos Adaptacionais, Modelos de Apreciação, Mo-
delos Dimensionais, Modelos Motivacionais, Modelos de Circuito e Discretos,
Modelos de Construção e de Significado. Esses agrupamentos podem ser dis-
postos numa representação distribuída entre os cinco sistemas do organismo
e sete níveis de avaliação/apreciação, a saber:
• Avaliação de baixo-nível;
• Avaliação de alto-nível;
• Estabelecimento de prioridades de objetivos ou necessidades;
• Exame de alternativas de ação;
• Preparação de comportamento.

Modelos Categóricos
Os modelos categóricos têm como objetivo estabelecer categorias finitas
e discretas de estados emocionais. Dentre os modelos categóricos, destaca-se
o que foi popularizado por Ekman (1998) e que foi utilizado para classificar
expressões faciais de acordo com as possíveis emoções vivenciadas pela pes-
soa que as expressa. Um fator importante na teoria de Ekman (1998) é que
as expressões faciais relacionadas com as emoções básicas seriam universais,
isto é, independentes de aprendizado cultural. Neste contexto, Ekman (1999)
considera como básicas aquelas emoções que poderiam ter evoluído para ex-
pressar, por meio de combinações entre elas, emoções mais complexas. Por
exemplo, presunção poderia ser considerada uma mistura de emoções bá-
sicas, como alegria e desprezo. Para comprovar sua teoria, Ekman visitou
algumas populações afastadas da influência cultural moderna, tais como ha-
bitantes de Papua Nova Guiné. Na versão original de sua teoria, as emoções
básicas seriam: raiva, aversão, medo, alegria, tristeza, surpresa.
No entanto, devemos enfatizar dois fatores: 1) expressões faciais não re-
presentam as emoções propriamente ditas, mas sim uma possível expressão
das emoções; 2) Ekman não foi o primeiro pesquisador a estudar as expres-
sões faciais e muito menos as emoções. Um dos primeiros pesquisadores a
estudar as expressões faciais foi o neurologista francês Guillaume Duchenne,
que realizou pesquisas sobre a anatomia das expressões faciais por meio de

99
Tecnologias e ciências da linguagem

estímulos elétricos nos músculos da face. Duchenne foi o primeiro a propor


uma diferença entre sorriso verdadeiro (sorriso Duchenne) e sorriso falso. Se-
gundo ele, o sorriso verdadeiro ocorre quando os músculos zygomaticus major
(responsável por elevar os cantos da boca) e orbicularis oculi (responsável por
contrair a região em torno dos olhos) são contraídos simultaneamente devido
a um sorriso espontâneo. Algumas pessoas são capazes de realizar intencio-
nalmente a contração simultânea dos dois músculos. A Figura 1, apresenta
fotografias, publicadas no livro de Duchenne (1862), de pessoas tendo seus
músculos faciais estimulados eletricamente.

Figura 1. Expressões faciais ativadas por estimulação elétrica. Fig. 4, p. 277 do livro from Mécanisme de la
Physionomie Humaine de Guillaume Duchenne, 1862. Esta imagem é de domínio público.

Modelo Circumplexo
Não demorou muito para que alguns pesquisadores afirmassem que não
é possível categorizar todo o espectro emocional humano utilizando apenas al-

100
Capítulo 7 – Reconhecimento de emoções humanas em dados multimídia

gumas categorias emocionais. Um dos principais defensores dessa abordagem


é Russell (1980), que propôs a abordagem dimensional chamada de Modelo
Circumplexo (MC). O MC foi criado a partir da observação de que estados
afetivos surgem de dois sistemas fundamentais, um relacionado com valência
e o outro relacionado com estado de alerta ou excitação. Esse modelo propõe a
disposição do espectro emocional em um plano cartesiano, tendo como eixos a
valência e a excitação. Assim, cria-se um espaço bidimensional onde todas as
emoções podem ser obtidas por combinação linear entre valência e excitação.
Vários estudos contemporâneos para criação de bases de dados rotula-
dos quanto a aspectos emocionais utilizam a abordagem dimensional para
rotular seus dados. As bases de dados mencionadas neste capítulo utilizam
o modelo dimensional (DEAP, STEED, LIRIS-ACCEDE).

3. RECONHECIMENTO DE PADRÕES
A maioria das abordagens computacionais utilizadas para reconhecer
ou classificar emoções em dados multimídia utilizam técnicas de reconhe-
cimento de padrões. Desta forma, faz-se necessário uma breve introdução
sobre esse tema. De modo geral, os sistemas tradicionais de reconhecimento
de padrões possuem as seguintes etapas:
1. Coleta da base de dados (Corpus);
2. Limpeza ou tratamento da qualidade dos dados;
3. Extração de características;
4. Treinamento de classificadores;
5. Avaliação de classificadores.
A coleta da base de dados pode ser específica para o problema que se
deseja tratar, ou obtida de outras bases. Por exemplo, se o objetivo é classificar
textos jurídicos de um determinado país, provavelmente, será necessário cole-
tar dados para aquela área jurídica específica daquele país. Mas se o objetivo
é obter uma base sobre comentários feitos sobre filmes que estão em cartaz
no cinema, pode-se percorrer blogs ou sites sobre o assunto coletando textos
sobre os filmes.
A etapa de limpeza e tratamento da qualidade de dados é dependente
do contexto da aplicação. Por exemplo, em muitas abordagens de classificação
de sentimento não são utilizadas as preposições e conjunções. Na maioria das
vezes, se utilizam apenas substantivos e adjetivos. Além disso, como muitas
das bases de dados são obtidas da Web e muitos textos são escritos utilizando
abreviações típicas da escrita online, essas palavras abreviadas precisam ser
removidas ou substituídas pelas palavras correspondentes sem abreviação.

101
Tecnologias e ciências da linguagem

Para o passo 3, podem-se utilizar características previamente existentes


na literatura especializada ou pode-se realizar engenharia de características
para criar características específicas para o problema em questão. Por exem-
plo, no reconhecimento de padrões em imagens pode-se utilizar a distribui-
ção de cores ou de tons de cinza das imagens. Na maioria dos casos, a extra-
ção de características também é utilizada como um processo de redução da
dimensionalidade e da redundância dos dados.
Há vários métodos que podem ser aplicados em reconhecimento de pa-
drões. Neste capítulo, mencionamos apenas os métodos supervisionados que
são utilizados para gerar classificadores. Por exemplo, se desejamos saber se
existe uma face humana numa imagem, podemos treinar um algoritmo, aqui
chamado de classificador, para que ele observe a imagem e retorne a infor-
mação sobre se existe uma face ou não naquela imagem. O procedimento
que consiste em apresentar dados e seus respectivos rótulos ao algoritmo
de treinamento com o objetivo de otimizar os parâmetros do classificador
de modo a reduzir o erro de rotulamento automático pode ser chamado de
treinamento do classificador. Após ser treinado, o classificador é avaliado em
termos de acerto e erro, essas seriam as etapas 4 e 5.

4. RECONHECIMENTO DE EMOÇÕES EM ELETROENCEFALOGRAFIA


Nesta seção, são apresentados os conceitos fundamentais sobre eletroen-
cefalografia (EEG) e suas aplicações em reconhecimento de emoções.

4.1. Eletroencefalografia - Teoria


A eletroencefalografia (EEG) é uma técnica não invasiva empregada para
medir os padrões de ondas cerebrais de um indivíduo pela gravação de ativi-
dade elétrica via eletrodos colocados no escalpo. A mudança no sinal cerebral,
denotado eletroencefalograma, e suas principais faixas espectrais – Delta (0 a
40 Hz), Teta (3 a 7 Hz), Alfa (8 a 12 Hz), Beta (13 a 30 Hz) e Gama (30 a 40 Hz)
– podem ser utilizadas para examinar o comportamento de indivíduos, seus
sentimentos e nível de atividade cognitiva. O padrão internacional conhecido
como sistema 10-20 determina a localização dos eletrodos no escalpo.
A principal abordagem utilizada na literatura especializada para coletar
EEG, contendo informações emocionais, é por meio da exibição de videocli-
pes para pessoas que estão com EEG em seus escalpos. À medida que os
voluntários vão vendo os filmes, eles vão rotulando-os de acordo com algum
modelo especificado pelos pesquisadores (KOELSTRA et al., 2012).

102
Capítulo 7 – Reconhecimento de emoções humanas em dados multimídia

A abordagem HOC (Higher Order Crossings - Cruzamentos de Mais Alta


Ordem) (PETRANTONAKIS; HADJILEONTIADIS, 2010) tem sido empregada
com bastante sucesso para a extração de características de sinais de EEG.
Essa abordagem é inspirada na computação de cruzamentos por zero. Isto
é, uma das características de um sinal é sua oscilação passando de valores
positivos a negativos e vice-versa. Uma característica básica de um sinal é
a quantidade de vezes que ele cruza o valor zero no eixo-y. Se esse limiar
for variado para valores maiores que 0, teremos os cruzamentos de ordem
superior a 0, ou HOC.

4.2. Eletroencefalografia - Aplicações


Há várias aplicações possíveis para o reconhecimento de emoções em
sinais de EEG, podemos citar:
• Auxílio ao diagnóstico psicológico/psiquiátrico;
• Auxílio à avaliação estética e de design de produtos;
• Avaliação automática de multimídia.
Atualmente, está ocorrendo a popularização de equipamentos que per-
mitem a captura de sinais de EEG. Um desses equipamentos, que está se
tornando popular na literatura, é o Emotiv Epoc2. A principal vantagem desse
dispositivo é a portabilidade, pois pode ser acessado via wireless e possui ba-
teria própria, que pode ser carregada por USB. Além disso, a empresa fornece
software SDK (Software Development Kit) para diversos sistemas operacionais
tais como Linux e Windows. Esse aparelho tem sido amplamente utilizado
em diversas aplicações, por exemplo:
• Mensuração da experiência emotiva de jogadores de vídeo game
(MCMAHAN et al. 2015);
• Mensuração das ativações cerebrais devido à indução de humor em
ambientes de realidade virtual (RODRÍGUEZ et al., 2015);
• Análise de níveis de stress (POMER-ESCHER et al., 2014);
• Controle de robôs (CHOWDHURY et al., 2014);
• Análise da resposta cerebral a estímulos de marketing (KHUSHABA
et al., 2013).
Uma aplicação, ainda futurista, seria o auxílio ao diagnóstico médico de
doenças mentais. Atualmente, as principais abordagens para o diagnóstico de
doenças mentais utilizam o relato do paciente. Mas sabe-se que esse tipo de
diagnóstico está sujeito a falhas decorrentes de problemas de comunicação e

2
Emotiv. Disponível em http://emotiv.com . Acessado em 02 de maio de 2015.

103
Tecnologias e ciências da linguagem

relações humanas. Muitas vezes o paciente não sabe exatamente o que está
sentindo ou vivenciando e, se o sabe, às vezes não é capaz de expressar ade-
quadamente sua situação. Por outro lado, alguns profissionais da área de saúde
vivenciam experiências extenuantes de trabalho, o que pode interferir negati-
vamente na precisão do diagnóstico. Desta forma, uma abordagem tecnológica
utilizando um exame como EEG poderia agregar maior precisão ao diagnóstico
de doenças mentais que envolvem, por exemplo, distúrbios emocionais.

5. RECONHECIMENTO DE EMOÇÕES EM MÚSICA


Nesta seção, são apresentados os conceitos introdutórios sobre áudio
digital, algumas ilustrações sobre uma abordagem utilizada para visualizar
áudio (o espectrograma) e aplicações do reconhecimento de emoções utili-
zando músicas.

5.1. Áudio Digital - Teoria


O áudio digital pode ser entendido, de modo geral, como uma sequência
de valores armazenados, que são mapeados em intensidades de corrente elé-
trica que, por sua vez, ao serem tocadas em um aparelho de som, provocam
contrações e expansões no ar, causando alterações de pressão que são inter-
pretadas pelo sistema auditivo humano como som. Como o sistema auditivo
humano é capaz de interpretar a direção de onde o som está vindo, faz-se ne-
cessária a codificação dessa informação no sinal de áudio digital, por meio do
conceito de som estéreo. O som estéreo é obtido por meio da gravação de um
mesmo sinal de áudio utilizando mais de um mecanismo de gravação (e.g.,
microfone). Quando o som estéreo é reproduzido, as pessoas têm a impressão
de perceberem a direção de onde o som está sendo produzido.
No contexto deste capítulo, o que nos interessa é o fato de que o som digi-
tal é uma sequência de intensidades sonoras com determinadas componentes
de frequência. A intensidade é o parâmetro associado a sensação do “volume”
do som, enquanto a frequência quantifica o número de ciclos de uma onda
sonora, por segundo. De modo geral, dizemos que sons de alta frequência são
agudos e sons de baixa frequência são graves. Para associarmos esses concei-
tos com algo do dia-a-dia, por exemplo, dizemos que, em geral, a voz mascu-
lina é grave e a voz feminina é aguda. Assim, temos 3 dimensões importantes
para estudar áudio: tempo, frequência e intensidade. Quando se diz, popular
e equivocadamente, que som alto prejudica a audição, estamos nos referindo
à intensidade do som, ou seja, à pressão exercida pelo ar no sistema auditivo.

104
Capítulo 7 – Reconhecimento de emoções humanas em dados multimídia

Uma das formas mais utilizadas de visualização de sons é por meio de


espectrogramas. As Figuras 2 e 3, ilustram 2 exemplos de espectrogramas ob-
tidos utilizando o aplicativo Spectrogram3, um do som de uma harpa e outro
do som de uma pessoa assobiando, respectivamente. Observe que as cores
estão relacionadas com a intensidade do som. Quanto mais alta a intensidade,
mais vermelha a região; quanto mais baixa a intensidade mais escura, próxi-
mo do azul. O tempo é representado na horizontal e cresce da esquerda para
a direita. A frequência é representada na vertical e cresce de baixo para cima.

Figura 2. Espectrograma produzido a partir do som de uma harpa.

Figura 3. Espectrograma produzido a partir do som de uma pessoa assobiando.

3
Spectrogram. Disponível em https://musiclab.chromeexperiments.com/Spectrogram/. Acessado
em 13 de dezembro de 2018.

105
Tecnologias e ciências da linguagem

A música é um dos mecanismos mais conhecidos capaz de provocar


alterações emocionais no ser humano. Existem várias abordagens propostas
em aprendizagem de máquina para classificar a possível emoção que será
sentida pelo ser humano ao ouvir determinada música. As notas musicais
são padronizadas em frequências bem definidas. No ocidente, utiliza-se a
escala cromática de 12 notas, ou 12 tons. Isso permite o estudo matemático e
algorítmico da música.

5.2. Reconhecimento de Emoções em Música - Aplicações


Um fator importante que deve ser ressaltado sobre reconhecimento de
emoções utilizando áudio é que há pelo menos dois modos de investigar o
conteúdo emocional do áudio. Se o áudio é uma música, o objetivo é reconhecer
as emoções sentidas ao ouvir a música. Mas, se o áudio for de voz humana, o
objetivo seria identificar a emoção que o falante está sentindo ou expressando.
Há várias aplicações possíveis para o reconhecimento de emoções em
música, variando desde aplicações em saúde mental até aplicações em entre-
tenimento. Dentre as aplicações possíveis podemos citar:
• Criação automática de playlists de músicas de acordo com o perfil do
usuário. Alguns aplicativos e sites já oferecem funcionalidades deste
tipo, por exemplo, o YouTube.
• Criação automática de playlists de músicas para induzir ou contra-
por determinados estados emocionais. Por exemplo, uma pessoa que
está triste poderia querer ouvir músicas que despertassem alegria ou
felicidade. Para isso, bastaria selecionar em seu aplicativo musical o
botão alegria e o aplicativo reproduziria músicas que deserpertas-
sem emoções alegres. Associando essa aplicação com a anterior, cada
pessoa poderia ter sua playlist emocional personalizada.
• Reconhecimento da emoção que determinada música poderia evocar
no ouvinte. Essa aplicação é bastante útil para aplicações de Marketing,
quando se deseja saber com precisão que emoções serão induzidas nas
pessoas ao entrarem em contato com determinado clipe promocional.
• Auxílio ao diagnóstico médico ou psicológico. Um software capaz de
reconhecer a emoção expressa na voz humana seria útil para auxi-
liar o profissional de saúde mental a diagnosticar problemas psico-
lógicos associados a disfunções emocionais.
O advento das redes neurais profundas tem proporcionado grandes
avanços na área de processamento multimídia, especialmente na área de re-
cuperação de músicas por conteúdo. Esses avanços têm tornado possível por

106
Capítulo 7 – Reconhecimento de emoções humanas em dados multimídia

exemplo buscar músicas por meio de melodias assobiadas. No futuro, essas


tecnologias conhecidas em inglês como Deep Learning (Aprendizagem Pro-
funda) permitirão a sintetização automática de músicas capazes de induzir
emoções específicas no ser humano.

6. PROCESSAMENTO DE TEXTO
Nesta seção, são apresentados os conceitos fundamentais sobre reconhe-
cimento de padrões em texto bem como aplicações em reconhecimento de
emoções.

6.1. Processamento de Texto - Teoria


Othero e Menuzzi (2005, p. 22) informam que a Linguística Computacional
é a área “responsável pela investigação do tratamento computacional da lingua-
gem e das línguas naturais”, explorando a relação entre a linguística e a infor-
mática. Os autores afirmam que essa relação possibilita a construção de sistemas
com capacidade de reconhecer e de gerar informação em linguagem natural.
Para tanto, são utilizados conhecimentos sobre linguística teórica e aplicada (sin-
taxe, semântica, fonética e fonologia, pragmática, análise do discurso, variação
linguística, tradução etc.) para processar as línguas naturais, dominando o co-
nhecimento linguístico do ser humano. A linguística computacional divide-se
em linguística de corpus e processamento de linguagem natural (PLN).
A linguística de corpus estuda o uso de padrões de linguagem a partir
da compilação e construção de corpora textuais (OLOHAN, 2004). Os dados
organizados em corpora linguísticos são combinados com outros estudos da
linguística descritiva, também podendo ser combinados aos estudos de emo-
ções, enfocando uma série de aspectos associados ao uso de línguas e lingua-
gens. O processamento de linguagem natural, por sua vez, está relacionado
à “construção de softwares e sistemas computacionais específicos, como tra-
dutores automáticos, chatterbots, parsers, reconhecedores automáticos de voz,
geradores automáticos de resumos etc.” (OTHERO; MENUZZI, 2005, p. 23).
Dessa forma, o PLN cria programas capazes de interpretar ou gerar in-
formação fornecida em linguagem natural, podendo associar essas criações
ao estudo de emoções para o cruzamento de informações e interpretação de
dados. Em outras palavras, o PNL pode associar o estudo de emoções aos
sistemas linguísticos (sons, palavras, sentenças e discursos em nível sintáti-
co, semântico ou pragmático), gerando maior conhecimento e interação entre
línguas e multimídias variadas.

107
Tecnologias e ciências da linguagem

A área da Ciência da Computação chamada de Aprendizagem de Máqui-


na tem provocado revoluções tecnológicas na sociedade. Um dos problemas
que têm sido tratados com aprendizagem de máquina é a classificação de sen-
timento. Por meio de texto de comentários ou avaliações de usuários e clientes
sobre produtos ou serviços, é possível treinar classificadores para analisar o
sentimento que o texto expressa e classificá-lo em positivo ou negativo.
No caso de processamento de texto, as características extraídas devem
refletir dois aspectos principais: a frequência de ocorrência das palavras e a
importância da palavra no contexto em que se encontra. Uma das característi-
cas mais utilizadas para medir esses dois aspectos é a TF-IDF (Term Frequency
times Inverse Document Frequency), que mede o produto entre a frequência de
ocorrência dos termos pelo inverso da frequência de ocorrência do termo nos
documentos. Um dos raciocínios por trás da TF-IDF é que palavras que ocor-
rem com pouca frequência em todos os documentos são mais importantes
do que palavras que ocorrem frequentemente em todos os documentos. Por
outro lado, palavras que ocorrem com muita frequência em um documento
são importantes para aquele documento.

6.2. Processamento de Texto - Aplicações


Algumas das aplicações de reconhecimento de padrões emocionais em
texto são:
• Ranqueamento de produtos em sites de compras online a partir dos
comentários dos clientes. Alguns sites como a Amazon já utilizam
essa tecnologia.
• Classificação automática de filmes a partir dos comentários das pessoas
que os viram. O site www.imdb.com tem sido bastante utilizado para
coletar comentários sobre filmes e treinar classificadores de sentimento.
• Auxílio ao diagnóstico psicológico. Textos escritos por pacientes ou
transcrições de consultas poderiam ser analisados automaticamen-
te para reconhecer as emoções expressas pelo paciente e auxiliar o
profissional de saúde mental no diagnóstico.
De modo similar a outras mídias, o reconhecimento de padrões em
textos tem se beneficiado bastante dos desenvolvimentos na área de apren-
dizagem profunda. Especialmente, no desenvolvimento de redes neurais
convolucionais profundas (DCNN - Deep Convolutional Neural Networks). O
desenvolvimento desse tipo de tecnologia tem permitido, em alguns casos,
classificar, por exemplo, os autores de obras literárias. Além disso, a aplicação
desse tipo de tecnologia poderia até mesmo permitir que o humor de perso-

108
Capítulo 7 – Reconhecimento de emoções humanas em dados multimídia

nagens de romances fosse classificado de modo automático, tendo como base


os textos de suas conversas.

7. RECONHECIMENTO DE EMOÇÕES EM IMAGENS E VÍDEO


Nesta seção são apresentados os conceitos fundamentais de imagem e
vídeo, aplicações e tecnologias que utilizam imagem e vídeo para realizar o
reconhecimento de emoções.

7.1. Imagem e Vídeo - Teoria


Uma imagem digital monocromática bidimensional (Figura 4) consiste
de um conjunto de pixels (Picture Elements) organizados em uma matriz, em
que m é número de linhas da imagem e n é número de colunas da imagem.
O pixel I (m, n) representa a resposta a intensidade luminosa (brilho ou nível
de cinza) de algum sensor (câmera, scanner etc) nas coordenadas cartesianas.
Em uma imagem digital colorida no sistema RGB (Figura 5), um pixel pode
ser entendido como um vetor cujas componentes representam as intensidades
de vermelho, verde e azul de sua cor.

Figura 4. Representação de uma imagem digital monocromática bidimensional.

Figura 5. Representação de uma imagem digital colorida no sistema RGB.

109
Tecnologias e ciências da linguagem

Um vídeo é um conjunto de imagens reproduzidas em sequência numa


determinada velocidade, para nos transmitir a ideia de movimento, podendo
ou não serem acompanhadas de sons. O número de imagens que são “passa-
das” em cada segundo designa-se, comumente, por taxa de quadros (frames)
ou número de quadros por segundo.
O reconhecimento de expressões faciais através de imagens e vídeos
possui diversas aplicações, dentre as quais se destacam a interação humano-
-computador, realidade virtual, realidade aumentada, na indústria de entre-
tenimento e na tradução semiótica.
Conforme anteriormente mencionado, as expressões faciais tendem a re-
fletir a emoção que a pessoa está sentindo. Além disso, as expressões faciais
são um dos principais canais de informação na comunicação interpessoal.
Sendo assim, o foco desta seção é o reconhecimento de expressões faciais em
imagens e vídeos.
A análise das configurações e intensidades das alterações nas sobrance-
lhas, lábios, nariz e nos músculos da face pode revelar as emoções que são
sentidas. As tecnologias tradicionais usam essa análise para realizar o reco-
nhecimento das expressões faciais. Em contraste com as abordagens tradicio-
nais que possuem uma etapa de extração de características, o aprendizado
profundo, mais especificamente, redes neurais convolucionais, emergiu como
uma abordagem geral para o aprendizado de máquina.
Os sistemas modernos de reconhecimento de expressões faciais usam
uma abordagem híbrida combinando rede neural convolucional para reconhe-
cer as características espaciais e redes neurais recorrentes para tratar as carac-
terísticas temporais de frames consecutivos, seja utilizando Memória Longa
de Curto Prazo (LSTM - Long Short Term Memory) ou Refatorização de Matriz
Não Negativa Recorrente Profunda (JAIN et al., 2018; EBRAHIMI, et al., 2015).

7.2. Imagem e Vídeo – Tecnologias


Nesta subseção são apresentados três tecnologias usadas para detectar
emoções através das expressões faciais: emoção API (Microsoft Cognitive Ser-
vices), Affectiva e nVisio.
• API Emotion. A API do Microsoft Cognitive Services Emotion reco-
nhece as emoções expressas por uma ou mais pessoas em imagens
ou vídeos. As emoções detectadas são raiva, desdém, aversão, medo,
felicidade, neutralidade, tristeza e surpresa.
• Affectiva. A Affectiva é uma empresa de tecnologia de análise de
emoções que cresceu a partir do Media Lab do MIT. Entre seus di-

110
Capítulo 7 – Reconhecimento de emoções humanas em dados multimídia

versos produtos destaca-se o emotions affectiva, software de análise


de expressões faciais da Affectiva, que identifica 7 emoções (raiva,
desprezo, desgosto, medo, alegria, tristeza e surpresa), 20 expressões
e 13 emojis e inclui classificadores para idade, gênero e etnia.
• nVisio. Empresa de inteligência artificial fundada em 2009 e sediada
no Parque de Inovação da École Polytechnique Fédérale de Lausanne
(EPFL) na Suíça, fornece soluções de inteligência artificial que podem
detectar, compreender e atuar sobre o comportamento humano usan-
do análise de emoção. Seu software de reconhecimento de emoções
interpreta as micro expressões faciais humanas e os movimentos dos
olhos capturados por meio de vídeo.

7.3. Imagem e Vídeo - Aplicações


O reconhecimento de expressões faciais através de imagens e vídeos
possui diversas aplicações, dentre as quais se destacam a interação humano-
-computador, realidade virtual, realidade aumentada, na indústria de entre-
tenimento e na tradução intersemiótica.
A comunicação, para ser alcançada, trabalha diferentes formas de lin-
guagens que se combinam para transpor dificuldades comunicativas. Neste
sentido, destacamos a ideia de tradução como uma tarefa ou ação que vai
além da transposição textual de palavras entre línguas. Ou seja, a tradução,
neste contexto, leva em consideração os diversos objetivos comunicativos,
sendo a reflexão sobre os sentidos e ideias transmitidas através de sinais e
linguagens diversas, considerando os ambientes de circulação de tais sinais e
linguagens e as suas multifunções em contextos distintos.
Ao considerar contextos distintos, a linguagem verbal passa a englobar
sistemas de signos que também servem de meio de comunicação de ideias ou
sentimentos. A linguagem verbal, em contexto oral ou escrito, e a linguagem
não verbal, gestual, corporal, sonora, visual, gráfica etc., tratam de emoções
e seu reconhecimento, abordando mídias distintas que tratam sentimentos,
incluindo-os como fonte de comunicação associados à linguagem verbal, à
tecnologia computacional e à representação imagética.
A combinação da linguística textual, da tecnologia computacional e do
estudo de emoções busca analisar a aplicação de sinais e códigos linguísticos
e como interpretá-los intersemioticamente, contribuindo para uma comuni-
cação mais eficaz. A tradução intersemiótica, de acordo com Jakobson (1958;
2000), surge para complementar a necessidade de interação, por haver difi-

111
Tecnologias e ciências da linguagem

culdade na transmissão de mensagens em determinado código. Por exemplo,


pode-se recorrer à linguagem verbal para a explicação de seus próprios ter-
mos, a partir de uma construção metalinguística de ideias, através de mudan-
ças semânticas ou ainda por circunlocuções. Pode-se, ainda, recorrer a uma
combinação de códigos e sinais que auxiliem a linguagem verbal em suas
diversas expressões, facilitando a transmissão de ideias.

8. CONCLUSÃO
Como pode ser observado, nos dados e aplicações aqui apresentados, a
tendência é que haja cada vez mais interação entre o ser humano, suas emo-
ções, linguagens e máquinas. O desenvolvimento tecnológico destacado neste
capítulo inclui o uso da linguagem natural, ou seja, a aplicação da linguagem
humana em pesquisa na área de inteligência computacional. Com frequência
cada vez maior, computadores são programados para responder a comandos
do usuário, muitas vezes em sua própria língua (OTHERO; MENUZZI, 2005).
O trabalho inclui profissionais de diversas áreas, dentre elas: Ciência da Com-
putação, Linguística, Psicologia e Neurociências.
O trabalho com a linguagem humana – seja ela oral ou escrita – gera a
tendência à humanização do computador, ou à Interação Humano-Computa-
dor (Human Computer Interaction), que busca implementar sistemas computa-
cionais a partir da avaliação e desenvolvimento de projetos em tais sistemas,
agrupando pesquisadores de diferentes áreas do conhecimento, sendo um
território das interfaces por excelência (CARVALHO, 2000). Para que mais
pesquisa e desenvolvimento linguístico-tecnológico surjam, interligando a
computação a áreas diversas como aqui apresentadas (saúde, linguística, psi-
cologia etc) é necessário que a máquina “aprenda” a se comunicar com o ser
humano, seu usuário, de forma fluente. Para tanto, é fundamental o avanço
no estudo sobre o funcionamento das línguas naturais para além da sintaxe,
que é o nível estrutural das línguas.
Uzskoreit (sd, p. 02) argumenta que embora “os sistemas existentes em
tecnologias linguísticas estejam longe de alcançar a habilidade humana, eles
têm diversas aplicações possíveis”, como demonstrado neste capítulo. O que
se pretende é criar softwares capazes de desenvolver mais conhecimento da
linguagem humana, pois tais conhecimentos facilitarão a comunicação hu-
mano-máquina. O que se espera é que uma máquina seja um dia capaz de
dominar, além da sintaxe, o sistema fonológico, nuances semânticas e o uso
pragmático das línguas naturais. Isso é um grande desafio, mas os resultados
comprovam que não há limites para as conquistas em pesquisa.

112
Capítulo 7 – Reconhecimento de emoções humanas em dados multimídia

REFERÊNCIAS
ARISTÓTELES. Retórica. Trad. Manuel Júnior, Paulo Alberto e Abel Pena. Lisboa: INCM, 1998.
CARVALHO, P. S. de. Interação entre humanos e computadores – uma introdução. São Paulo:
EDUC, 2000.
CHOWDHURY, P.; KIBRIA SHAKIN, S. S.; KARIM, M. R.; RHAMAN, M. K. Cognitive efficiency
in robot control by Emotiv EPOC. International Conference on Informatics, Electronics &
Vision. Dhaka: IEEE, 2014, p. 1-6.
EBRAHIMI KAHOU, S.; MICHALSKI, V.; KONDA, K.; MEMISEVIC, R.; PAL, C. Recurrent neural
networks for emotion recognition in video. In Proceedings on International Conference on
Multimodal Interaction. Seattle: ACM, 2015, p. 467-474.
EKMAN, P. Basic Emotions. In: DALGLEISH, T; POWER, M. (orgs) Handbook of Cognition and
Emotion. Sussex: John Wiley & Sons, 1999.
EKMAN. P. What the Face Reveals. Oxford: Oxford University Press, 1998.
GUILLAUME, D. Mécanisme de la Physionomie Humaine. Paris: Librairie J.-B Baillière et Fils,
1862.
JAIN, N.; KUMAR, S.; KUMAR, A.; SHAMSOLMOALI, P.; ZAREAPOOR, M. Hybrid deep neural
networks for face emotion recognition. Pattern Recognition Letters, v.115, p. 101-106, 2018.
JAKOBSON, R. On linguistic aspects of translation. In: VENUTI, L. (org) The translation studies
reader. London: Routledge, 2000.
KAHNEMAN, D. Rápido e Devagar: Duas Formas de Pensar Trad. Cássio Arantes de Leite. Rio
de Janeiro: Objetiva, 2011.
KHUSHABA, R. N.; WISE, C.; KODAGODA, S.; LOUVIERE, J.; KAHN, B. E.; TOWNSEND,
C. Consumer neuroscience: Assessing the brain response to marketing stimuli using
electroencephagram (EEG) and eye tracking. Expert Systems with Applications. Elsevier,
2013, p. 3803-3812.
KOELSTRA, S.; MUHL, C.; SOLEYMANI, M.; DEAP: A database for emotion analysis using
physiological signals. IEEE Transactions on Affective Computing. v. 3, n. 1. 2012, p. 18-31.
MCMAHAN, T.; PARBERRY, I.; PARSONS, T. D. Modality specific assessment of videogame
player's experience using the Emotiv. Entertainment Computing. Elsevier, 2015. p. 1-6.
OLOHAN, M. Introducing corpora in translation studies. Oxford: Routledge, 2004.
OOSTERWIJK, S.; LINDQUIST, K. A.; ANDERSON, E.; DAUTOFF, R.; MORIGUCHI, Y.; LISA, F.
B. States of mind: Emotions, body feelings, and thoughts share distributed neural networks.
Editora Neuroimage, 2012. p. 2110-2128.
OTHERO, G. de A.; MENUZZI, S. de M. Linguística Computacional: teoria e prática. São Paulo:
Parábola, 2005.
PETRANTONAKIS, P. C.; HADJILEONTIADIS, L. J. Emotion recognition from EEG using higher
order crossings. IEEE Transactions on Information Technology in Biomedicine. Volume 14,
Número 2, 2010, p. 186-197.
PICARD, R. W.; Affective Computing. Massachusetts: The MIT Press, 2000.
POMER-ESCHER, A. G.; PINHEIRO DE SOUZA, M. D.; BASTOS FILHO, T.F. Methodology
for analysis of stress level based on asymmetry patterns of alpha rhytms in EEG signals.
Biosignals and Biorobotics Conference. Salvador: IEEE, 2014, p. 1-5.
RODRÍGUEZ, A.; REY, B.; CLEMENTE, M.; WRZESIEN, M.; ALCAÑIZ, M. Assessing brain
activations associated with emotional regulation during virtual reality mood induction
procedures. Expert Systems with Applications, v. 42, n. 3, 2015, p. 1699-1709.
Russell J. A. A circumplex model of affect. Journal of Personality and Social Psychology.
American Psychological Association, 1980. p. 1161–1178.

113
Tecnologias e ciências da linguagem

SCHERER, K. R; PEPER, M. Psychological theories of emotion and neuropsychological research.


In: GAINOTTI G, (ed). Handbook of Neuropsychology. Amsterdam: Elsevier, 2001. p. 17-49.
SCHERER, K. R. What are emotions? And how can they be measured? Social Science Information.
Editora: Sage, 2005, vol. 44, n. 4, p. 695-729.
SOLOMON, R. C. The philosophy of emotions. In: LEWIS, M.; HAVILAND-JONES, J. M.;
BARRETT, L. F. (orgs) Handbook of Emotions. New York: The Guilford Press, 2008.
USZKOREIT, H. Language Technology: a first overview. [s.d.]. [www.dfki.de/%7Ehansu/LT.pdf].

114
SOBRE OS AUTORES

Alexandre Magno Andrade Maciel possui graduação em Ciência da Computação


pela Universidade Católica de Pernambuco (2003), mestrado e doutorado em Ciência
da Computação pela Universidade Federal de Pernambuco (2007 e 2012). Atualmente
é Coordenador Geral de Inovação da Universidade de Pernambuco, cargo pelo qual
acumula de Cientista-chefe do Instituto de Inovação Tecnológica. Faz parte do qua-
dro efetivo da Escola Politécnica de Pernambuco, na qual é professor associado da
Graduação em Engenharia da Computação, membro permanente do Programa de
Pós-Graduação em Engenharia da Computação e coordenador da Especialização em
Ciência de Dados e Analytics. Faz parte da Câmara de Inovação da FACEPE (Fun-
dação de Amparo à Pesquisa do Estado de Pernambuco) e foi Pesquisador Visitante
da Agência Estadual de Tecnologia da Informação (ATI). É Bolsista de Produtividade
em Desenvolvimento Tecnológico e Extensão Inovadora do CNPq - Nível 2, recebeu
em 2014 o Prêmio Santander de Ciência e Inovação na categoria Tecnologia da Infor-
mação e Educação e é co-fundador da empresa Vocal Lab Sistemas da Informação
LTDA. Tem experiência na área de Ciência da Computação, com ênfase em Inteligên-
cia Computacional, atuando principalmente nos seguintes temas: Reconhecimento de
Padrões e Mineração de Dados e Informática na Educação.

Annie Lezan Bittencourt de Moura é diretora pedagógica das unidades CNA In-
glês Definitivo em Recife & Olinda e tem 34 anos de experiência na área de ensino
de idiomas, com ênfase em Formação de Professores.  É graduada  em Letras com
Licenciatura em Inglês e Português. Tem Mestrado em Ciências da Linguagem pela
Universidade Católica de Pernambuco – UNICAP (2007), MBA internacional pelo Ins-
tituto Português de Administração de Marketing – IPAM (2003) e especialização em
Coordenação Pedagógica pela Faculdade Santa Fé (2009).  Foi premiada duas vezes
nacionalmente na apresentação de trabalhos pedagógicos para professores, com o
título Mário Utimati Award pela rede Yázigi Internexus. Em 2019, foi escolhida para re-
ceber o Prêmio Tacaruna mulher destaque em educação no estado de Pernambuco. É
Professional Coach, licenciada pela Academia Brasileira de Coaching e pelo Behavioral
Coaching Institute. Atualmente ministra as disciplinas de Mobile Learning e de Prática

115
Tecnologias e ciências da linguagem

de Ensino na Especialização Tecnologias digitais nas metodologias ativas para o en-


sino na Universidade Católica de Pernambuco. 

Anthony José da Cunha Carneiro Lins é Doutor em Biotecnologia pelo Renorbio


(UFRPE/2018), tendo como tema de pesquisa Aplicação de Aprendizagem de Má-
quina no Diagnóstico de Declínio Cognitivo e Demência de Alzheimer baseado em
Testes Cognitivos e Marcadores Genéticos. Possui título de Mestre em Engenharia
da Computação, com ênfase em Computação Inteligente, pela Escola Politécnica da
Universidade de Pernambuco (2012), tendo como tema de pesquisa a Paralelização de
Algoritmos baseados em Cardumes utilizando Unidades de Processamento Gráfico.
Concluiu a graduação em Bacharelado em Sistemas de Informação pela Faculdade
Integrada do Recife (2003). Atualmente é professor do curso de Jogos Digitais da
UNICAP e pesquisador na área de inteligência computacional aplicada em saúde,
jogos e ambientes interativos.

Avelino Gomez Alonso Junior. Graduado em Ciência da Computação pela Univer-


sidade Católica de Pernambuco (UNICAP). Foi aluno de Iniciação Científica entre os
anos 2016 e 2018, desenvolvendo novos aplicativos para dispositivos moveis voltados
para apoio à intervenção em crianças disléxicas. Realizou pesquisas na área da robó-
tica para o ensino da língua inglesa em escolas públicas da Prefeitura de Recife/PE.

Eanes Torres Pereira. Recebeu o título de Doutor em Ciência da Computação pela


Universidade Federal de Campina Grande em 2012. Sua pesquisa tem versado sobre
o reconhecimento de padrões em multimídia e sobre Computação Afetiva.

Fábio Cisne Ribeiro é Doutor em Engenharia de Teleinformática pela Univer-


sidade Federal do Ceará (2018), Mestre em Engenharia de Teleinformática pela
Universidade Federal do Ceará (2008) e graduado em Engenharia Eletrônica pela
Universidade de Fortaleza (2004). Tem 20 anos de experiência em pesquisa e desen-
volvimento, com experiência nas áreas de Microeletrônica e Ciência da Computa-
ção com ênfase em Processamento de Sinais de Imagem e Som, atuando principal-
mente nos seguintes temas: eletrônica, microcontroladores, sistemas embarcados,
visão computacional, processamento de imagem e som, sistemas inteligentes, in-
teligência artificial, reconhecimento de padrões, computação gráfica, automação
industrial, e gerenciamento de projetos.

Fernando José Araújo Wanderley é Mestre em Engenharia da Computação pela Uni-


versidade de Pernambuco, na área de Engenharia de Software, com ênfase na área
de Engenharia de Requisitos e Bacharel em Ciência da Computação pela Universi-
dade Católica de Pernambuco; trabalhou como Arquiteto de Software e Líder técnico
em projetos de médio e grande porte. Atualmente é Doutorando pela Universidade
Nova de Lisboa, onde tem concentrado seus esforços na pesquisa de Modelagem de
Requisitos centrada no Usuário através da definição de uma linguagem cognitiva de
requisitos construída com base em Mapas Mentais e da sinergia das tecnologias da
Engenharia Orientada a Modelos (MDD) e Linguagem Específica de Domínio (DSL).
Atua como Professor Assistente da Universidade Católica de Pernambuco.

116
Sobre os autores

Francisco Madeiro  é natural de Fortaleza, Ceará. Tem Doutorado em Engenharia


Elétrica pela Universidade Federal da Paraíba (2001), atual Universidade Federal
de Campina Grande (UFCG). Desde março de 2019 é bolsista de Produtividade em
Pesquisa (PQ) do Conselho Nacional de Desenvolvimento Científico e Tecnológico
(CNPq). De março de 2012 a fevereiro de 2018 foi bolsista de Produtividade em Desen-
volvimento Tecnológico e Extensão Inovadora (DT) do CNPq. É Professor Associado
da Universidade de Pernambuco (UPE) e Professor Adjunto da Universidade Católica
de Pernambuco (UNICAP). Recebeu o prêmio Destaque em Ensino do ano de 2008 da
Escola Politécnica (POLI) da UPE e o Troféu Ciência e Tecnologia, nas categorias Des-
taque em Pesquisa e Destaque em Ensino da POLI/UPE, ano 2013. Recebeu o Prêmio
POLI - UPE - Ciência, Tecnologia e Inovação, na categoria Destaque em Pesquisa, ano
2018. Tem atuado na liderança de equipes multidisciplinares para o desenvolvimento
de aplicativos voltados para dislexia. Obteve Livre-Docência pela UPE em 2014.  

George Darmiton da Cunha Cavalcanti é Doutor em Ciência da Computação pela


Universidade Federal de Pernambuco. Atualmente, Cavalcanti é professor associa-
do do Centro de Informática (CIn) da Universidade Federal de Pernambuco (UFPE)
e membro associado do Laboratório de Imagem, Visão e Inteligência Artificial da
École de Technologie Supérieure (ETS), Montreal, Canadá. Cavalcanti é bolsista de
produtividade do CNPq desde de 2011 e atualmente é bolsista nível PQ-1D. Autor de
mais de 150 artigos publicados em periódicos e em congressos internacionais. Suas
áreas de pesquisa incluem aprendizagem de máquina, reconhecimento de padrões e
processamento de imagens.

Karla Julianne Negreiros de Matos é Doutora em Saúde Coletiva pela Universida-


de Estadual do Ceará (2019). Mestre em saúde coletiva pela Universidade Estadual
do Ceará (2015). Psicóloga pela Universidade Estadual do Ceará (2014). Especialista
Psicologia Clínica sócio educacional pela Faculdade 7 de Setembro. É professora da
Pós-Graduação da Universidade Unichristus. Pesquisadora GT Tecnologia Social e
Inovação: Intervenções psicológicas e práticas forenses contra violência (ANPEPP).
Coordenadora do Grupo de Extensão em práticas lúdicas e educacionais (GEPLE).
Realizou trabalhos teórico-práticos no ambulatório de saúde mental, DST Aids e
transplantes renais no Hospital Universitário Walter Cantídio, Ambulatório de AVC
do Hospital Waldemar de Alcântara e na da comunidade indígena Santo Antônio
do Pitagary. Pesquisou e atuou com vítimas de violência sexual e abuso infantil.
Publicou artigos e capítulos de livros sobre transtorno bipolar, violência sexual, sui-
cídio na infância e adolescência e psicologia da educação. Foi bolsista de Iniciação
Científica na graduação e pós-graduação pela CAPES, CNPq, FUNCAP e PET-Saúde.
Possui experiência docente na área da Saúde e da Educação, atuando principalmente
nos seguintes temas: neurociência, neuroeducação, psicomotricidade, saúde coletiva,
metodologia de pesquisa, saúde mental, saúde da criança, saúde do idoso, saúde na
escola e avaliação psicológica.

Luciana Cidrim é natural de Recife/Pernambuco. Possui graduação em Fonoaudio-


logia. Doutora em Ciências da Linguagem pela Universidade Católica de Pernambu-
co (UNICAP). Atualmente realiza estágio pós-doutoral na Universidade Católica de

117
Tecnologias e ciências da linguagem

­ ernambuco (UNICAP). Tem formação em Dislexia pela Associação Brasileira de Dis-


P
lexia (ABD) e na Metodologia CDRA – Classificação Digital para Reenquadramento
de Aprendizagem pelo Centro de Especialização em Fonoaudiologia Clínica (CEFAC/
SP). É especialista em Linguagem pelo Conselho Federal de Fonoaudiologia (CFFa).
Participa de projetos de desenvolvimento de aplicativos destinados a escolares com
transtornos de aprendizagem, em especial, dislexia.

Luciana Ribeiro Veloso. Possui graduação em Engenharia Elétrica pela Universi-


dade Federal da Paraíba (1995), mestrado em Engenharia Elétrica pela Universidade
Federal da Paraíba (1998) e Doutorado em Engenharia Elétrica pela Universidade
Federal de Campina Grande (2009). Atualmente é professora da Universidade Fede-
ral de Campina Grande, com ênfase em processamento de imagens, atuando prin-
cipalmente nos seguintes temas: Reconhecimento de palavras manuscritas, Proces-
samento de imagens, Reconhecimento de Padrões e Visão computacional. Co-autora
dos livros Introdução à Análise de Sinais e Sistemas, Elsevier 2015 e Digital Signal
Processing (English Edition), Momentum Press, 2018.

Matheus Barreto Lins Marinho é Graduando em Ciência da Computação pela Uni-


versidade Católica de Pernambuco (UNICAP). Foi aluno de Iniciação Científica en-
tre os anos 2016 e 2018, desenvolvendo estudos em dependabilidade e modelagem
utilizando Redes de Petri, tendo sido premiado em terceiro lugar na categoria de
Ciências Exatas e da Terra na 19ª Jornada de Iniciação Científica (2017), realizada pela
UNICAP. Atualmente desenvolve pesquisas envolvendo aplicação de inteligência ar-
tificial em Engenharia de Software. Foi líder técnico na Residência em Engenharia
de Software da UNICAP, no período 2018-2019.

Paulo César Cortez é professor titular do Departamento de Engenharia de Teleinfor-


mática (DETI) da Universidade Federal do Ceará, no Brasil. Graduado em Engenharia
Elétrica pela Universidade Federal do Ceará (1982), Mestre (1992) e Doutor (1996) em
Engenharia Elétrica pela Universidade Federal da Paraíba, Campus II - Campina
Grande-PB, atual Universidade Federal de Campina Grande. Tem experiência na área
de Engenharia Elétrica/Teleinformática, com ênfase em Visão Artificial e Processa-
mento de Sinais Biomédicos, atuando principalmente nos seguintes temas: projeto,
análise e desenvolvimento de sistemas biomédicos (hardware/software), de sistemas
de visão artificial; de sistemas embarcados, de sistemas inteligentes de auxílio ao
diagnóstico médico; processamento digital de sinais, imagens e vídeos biomédicos;
instrumentação biomédica; aplicações em telemedicina; modelagem poligonal de
contornos 2D/3D e reconhecimento de padrões.

Raquel Bezerra Calado é Bacharel em Sistemas de Informação pela Universidade


de Pernambuco e Mestre em Engenharia da Computação pela Universidade de Per-
nambuco. Atuou durante dois anos como pesquisadora bolsista na empresa Kurier
Tecnologia, onde desenvolveu sua pesquisa com foco em mineração de documentos
textuais não estruturados e classificação de documentos jurídicos, essas são também
suas áreas de estudo atualmente.

118
Sobre os autores

Roberto Hugo Wanderley Pinheiro é Bacharel em Ciência da Computação pela Uni-


versidade Católica de Pernambuco (UNICAP) e possui mestrado e doutorado em
Ciência da Computação pelo Centro de Informática (CIn) da Universidade Federal
de Pernambuco (UFPE). Atualmente, é Professor Adjunto da Universidade Fede-
ral do Cariri (UFCA) em Juazeiro do Norte - CE. Suas áreas de pesquisa incluem:
Categorização de Documentos, Manipulação de Características e Combinação de
Classificadores.

Sílvio Soares Bandeira é Bacharel em Ciência da Computação pela Universidade


Federal da Paraíba e Mestre em Ciência da Computação pela Universidade Federal
de Pernambuco. Atua na área de Redes e Sistemas Distribuídos, com experiência
em administração de sistemas Unix e desenvolvimento de software para automação
comercial na linguagem C/C++. É Professor Adjunto da Universidade Católica de
Pernambuco, onde atua desde 1996.

Sinara de Oliveira Branco é professora Associado II da Universidade Federal de


Campina Grande, onde atua no Curso de Licenciatura Letras-Inglês e no Programa
de Pós-Graduação em Linguagem e Ensino (PPGLE). Possui Doutorado (2007) pelo
Programa de Pós-Graduação em Inglês, com pesquisa na área de Linguística/Tradu-
ção, da Universidade Federal de Santa Catarina - UFSC; Mestrado em Linguística/
Tradução (2002) também pelo Programa de Pós-Graduação em Inglês da UFSC. Tem
experiência na área de Letras, com ênfase em Linguística e Tradução, atuando prin-
cipalmente nos seguintes temas: Tradução e Cultura, Tradução Intersemiótica e Cine-
ma, Didática da Tradução. É líder do grupo de pesquisa Estudos da Tradução: Teoria,
Prática e Formação do Tradutor do DGP do CNPq. É tradutora de artigos científicos
no par linguístico inglês-português e português-inglês.  

Waslon Terllizzie Araújo Lopes é Doutor em Engenharia Elétrica pela Universidade


Federal de Campina Grande, 2003. Atualmente é Professor Associado do Departa-
mento de Engenharia Elétrica do Centro de Energias Alternativas e Renováveis da
Universidade Federal da Paraíba em João Pessoa e foi Professor Visitante Sênior na
Universidade de Toronto, Canadá e novembro de 2018 a outubro de 2019. Suas ativi-
dades de pesquisa concentram-se em quantização vetorial robusta, sistemas de co-
municações sem fio, comunicações móveis, teoria das comunicações e processamento
digital de imagens e sinais de voz. O Prof. Waslon Terllizzie é membro da Sociedade
Brasileira de Telecomunicações (SBrT) desde 1997 e Senior Member do Instituto dos
Engenheiros Eletrônicos e Eletricistas (IEEE).

119
Este ebook foi composta em Palatino LT Std 10,5/14
pela PÁ DE PALAVRA em dezembro de 2019.
Este livro reúne capítulos de pesquisadores de universidades brasileiras
sobre a aplicação das Tecnologias da Informação e da Comunicação
(TIC) em ciências da linguagem. De caráter interdisciplinar, os trabalhos
apresentados são de profissionais das áreas da Ciência da Computação,
Engenharia, Fonoaudiologia, Letras, Linguística e Psicologia. A variedade
das aplicações das TIC contempladas na obra inclui o desenvolvimento de
aplicativos destinados à intervenção de escolares com dislexia, o uso da
realidade aumentada no ensino do inglês, categorização de documentos,
redes complexas na mineração de dados textuais não estruturados, chatbots
e suas aplicações em ciências da linguagem, reconhecimento de voz
como instrumento de interface para equipamentos eletroeletrônicos para
portadores de deficiência físico-motora e reconhecimento de emoções em
dados multimídia. É um convite ao leitor que deseja ampliar conhecimentos
sobre aplicabilidade das TIC no âmbito da linguagem.

Você também pode gostar