Complementariedade Conceitual No Processo de Tomada de Decisão

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 12

56

BIG DATA E CIÊNCIA DE DADOS:


COMPLEMENTARIEDADE CONCEITUAL NO
PROCESSO DE TOMADA DE DECISÃO
Big Data and Data Science: conceptual complementarity in the decision-making process

Sandro Rautenberg (1), Paulo Ricardo Viviurka do Carmo (2)


(1) Universidade Estadual do Centro-Oeste, [email protected]. (2) [email protected]
Resumo Abstract
Atualmente, produz-se volumosas bases de dados para os Nowadays, huge databases are produced in a wide range of
mais variados domínios, devido à evolução e ao uso massivo domains due to the evolution and the massive use of the
das Tecnologias de Informação e Comunicação. Neste con- Information and Communication Technologies. Therefore,
texto, desenvolver instrumentos voltados para extrair infor- the development of instruments for extracting information
mações a partir do Big Data, fomentando o conhecimento no from Big Data and fostering actionable knowledge in Deci-
Processo de Tomada de Decisão, desperta a atenção das sion-Making Processes arise interest by several organiza-
organizações. Na evolução dados → informação → conheci- tions. In this context, the evolution of data → information →
mento, requer-se a sinergia de competências de especialistas knowledge requires the synergy of competences in a new
ao fomentar uma nova área de atuação, a Ciência de Dados. domain, the Data Science. Among the activities of that do-
Como atribuições da área estão: obter dados originados de main, can be cited: obtaining data from various sources dis-
fontes heterogêneas e distribuídas na web; formalizar o tra- tributed on the web; creating models for handling data and
tamento dos dados e metadados; e arquitetar a exploração dos metadata; and planning the exploration of data and metadata
dados e metadados para produzir informação relevante no to produce relevant information in Decision-Making Process-
Processo de Tomada de Decisão. Considerando essas asserti- es. Considering these statements, this paper aims to discuss
vas, o objetivo deste artigo é evidenciar a diferença e a com- the difference and the complementarity between the Big Data
plementariedade dos conceitos Big Data e Ciência de Dados. and Data Science concepts. As a result, it is pointed out that
Como resultado, pontua-se que o Big Data é um termo intrín- Big Data delineates the cloud computing services for storing,
seco à infraestrutura do hardware e de serviços computacio- processing and distributing data resources. Regarding to Data
nais em nuvem necessários para o armazenamento, proces- Science, it is a concept related to the use of software for
samento e a distribuição de recursos. Em relação à Ciência de transforming data into information, supporting the decision
Dados, este é conexo à camada dos softwares para transfor- makers when dealing with the Knowledge-Intensive Tasks.
mação dados em informação, subsidiando os tomadores de
decisão em suas Tarefas Intensivas em Conhecimento. Keywords: Big Data; Data Science; Decision-Making Pro-
cess; Knowledge-Intensive Tasks.
Palavras-chave: Big Data; Ciência de Dados; Processo de
Tomada de Decisão; Tarefas Intensivas em Conhecimento.

1 Introdução mais dados nas mais variadas plataformas digitais (Fi-


gura 1 no apêndice). Vários dispositivos interconecta-
É notório que os avanços e o uso massivo das Tecno- dos (sensores, computadores, câmeras, dentre outros) e
logias da Informação e Comunicação influenciam o aplicativos relacionam uma miríade de eventos na web
comportamento de um coletivo social. Tal fato instiga (van der Aalst, 2014), coletando e armazenando enor-
amplos debates no campo da Ciência da Informação no mes quantidades de registros, sinais, imagens, vídeos e
que tange, principalmente, a utilização salutar de da- posts. Bugnion, Manivannan e Nicolas (2017) pontuam
dos, informação e conhecimento gerados a partir dos que cerca de 90% dos dados produzidos são resultado
rastros digitais produzidos por artefatos computacio- do uso intenso das Tecnologias de Informação e Co-
nais (câmeras, celulares, cartões de credito, sensores municação nos últimos tempos. Por conseguinte, os
de vários tipos, etc.). Por isso, no âmbito da Ciência da dados são abundantemente e velozmente produzidos,
Informação, admite-se a necessidade de um espaço servindo de matéria-prima para tomada de decisão em
interdisciplinar para discutir questões polêmicas sobre grandes corporações (Economist, 2017).
informação, conhecimento e ação autônoma, relacio-
nando-as com o fenômeno tecnológico denominado Neste contexto, o desenvolvimento de soluções compu-
Big Data (Eiica, 2019). tacionais que obtém insumos de conhecimento de
imensas bases de dados é foco de investimento em
Corroborando essa visão de mundo, mediante o avanço grandes organizações. Isso introduz o conceito de Big
da Internet, a humanidade vem produzindo cada vez Data, referindo-se aos conjuntos de dados cujo tama-

Rautenberg, Sandro; Carmo, Paulo Ricardo Viviurka do. Big Data e Ciência de Dados: complementariedade conceitual no processo de tomada de
decisão. // Brazilian Journal of Information Studies: Research Trends. 13:1 (2019) p.56-p.67. ISSN 1981-1640.
57

nho é fator impeditivo de captura, armazenamento, • Volume. Grandes volumes de dados são gerados
gerenciamento e análise por parte de ferramentas com- mediante o uso de recursos computacionais abun-
putacionais tradicionais (Manyika et al., 2011). Ou dantes. Com a evolução das mídias sociais e outros
seja, o Big Data requer formas inovadoras de proces- recursos e serviços da Internet, as pessoas produ-
samento de grandes volumes de dados heterogêneos, zem mais e mais conteúdo, vídeos, fotos, tweets,
amparando o Processo de Tomada de Decisão guiado entre outros tipos de dados.
por Dados (Gartner, 2018a; Provost e Fawcett, 2013).
• Velocidade. Os dados são gerados em grande velo-
Por isso, atualmente, enfrenta-se desafios tecnológicos
cidade, à medida que os recursos computacionais
para coletar, guardar e disponibilizar volumosos con-
têm sua capacidade de produção, captura e proces-
juntos de dados e produzir informação relevante.
samento de dados aumentada.
Neste sentido, o Big Data também requer que seus
• Variedade. Os dados advêm de variadas fontes
profissionais detenham competências diversas na orga-
(sistemas legados, e-mails, posts em mídias sociais,
nização, representação de dados para, em um segundo
arquivos de vídeo/áudio, gráficos, dispositivos ou
momento, desenvolver ações de recuperação e visuali-
sensores), as quais implementam tecnologias distin-
zação de informação nos processos decisórios. Por isso,
tas para representação e armazenamento de recursos
pressupõe-se que salvaguardar volumosas coleções de
digitais.
dados (Big Data) distingue-se da produção de informa-
ção a partir dessas coleções. Ao considerar o atual estágio da utilização de Tecnolo-
gias de Comunicação e Informação, outros Vs são
Essa distinção conceitual para com o Big Data, com-
adicionados aos 3Vs originais, conforme a visão de
plementarmente, enseja a Ciência de Dados. Em suma,
especialistas ou o domínio de aplicação. Neste sentido,
a Ciência de Dados é devotada à extração de informa-
Akhtar (2018) pontua a existência de 6Vs (Figura 2),
ção útil a partir de imensas, complexas e dinâmicas
incrementando as características com:
bases de dados (Bugnion, Manivannan e Nicolas,
2017). Entende-se que a Ciência de Dados é um con-
ceito conexo à camada dos métodos, na qual os softwa-
res são empregados para transformar dados em infor-
mação, resultando no apoio à tomada de decisão.
Ao considerar a evolução dados → informação →
conhecimento, disserta-se sobre os conceitos Big Data
e Ciência de Dados, apresentando o locus interdiscipli-
nar de competências das Ciências da Informação e da
Computação.
Figura 2. Representação dos 6Vs do Big Data
Para fomentar a discussão, além desta seção introdutó- (Akhtar, 2018) [tradução dos autores]
ria, este artigo aborda: i) o conceito Big Data, estabele-
cendo seu relacionamento com a Curadoria Digital; ii) • Veracidade. Refere-se à integridade e à precisão
a Ciência de Dados como método de transformação de dos dados, contrapondo o fenômeno GIGO (garba-
dados em informação; iii) o Processo de Tomada de ge-in, garbage-out – lixo entra, lixo sai) na recupe-
Decisão, amparando-se nas Tarefas Intensivas em Co- ração da informação. Neste sentido, deve-se evitar
nhecimento; iv) a discussão da complementariedade do ruídos e incertezas no armazenamento dos dados de
Big Data e Ciência de Dados em processos decisórios; modo a não interferir, consequentemente, na análise
e v) as considerações finais. da informação e no Processo de Tomada de Deci-
são.
2 Big Data: a camada dos materiais e da
• Variabilidade. Relaciona-se à compreensão e ao
Curadoria Digital
tratamento dos fenômenos subliminares e tempora-
O Big Data é um termo derivado dos avanços recentes riamente presentes nos dados. Por exemplo, sazo-
relativos à massificação da utilização de recursos tec- nalmente, alguns eventos específicos (virais nas
nológicos e da farta produção de dados. Em suma, é mídias sociais, como a estreia de um filme a muito
um conceito que caracteriza volumosos conjuntos de aguardado ou o acontecimento de um fato midiáti-
dados heterogêneos, os quais não são passíveis de pro- co) podem refletir em padrões de comportamento
cessamento por soluções computacionais tradicionais, que não se sustentam ao longo do tempo.
considerando seu dinamismo e sua complexidade. • Valor. É característica mais importante em termos
Originalmente, o Big Data preconizava três caracterís- dos dados, independente das demais dimensões (vo-
ticas essenciais dos dados, denominadas por Laney lume, velocidade, variedade, variabilidade e veraci-
(2001) como 3Vs: dade). O valor em Big Data é, principalmente, per-
cebido mediante a análise com dados precisos e,

Rautenberg, Sandro; Carmo, Paulo Ricardo Viviurka do. Big Data e Ciência de Dados: complementariedade conceitual no processo de tomada de
decisão. // Brazilian Journal of Information Studies: Research Trends. 13:1 (2019) p.56-p.67. ISSN 1981-1640.
58

por conseguinte, a aquisição de informação e in- • Armazenar. Ao custodiar os dados e metadados,


sights úteis para o Processo de Tomada de Decisão. deve-se garantir que estes sejam mantidos segura-
mente, utilizando tecnologias apropriadas para ar-
Dadas as características do Big Data, algumas questões
mazenamento e representação num ecossistema de
importantes afloram. Por exemplo:
Big Data.
• Como armazenar os dados e metadados em ecossis-
• Acesso, uso e reutilização. Possibilitar que os
temas de Big Data?
dados sejam facilmente acessíveis pelos usuários.
• Como organizar e catalogar os dados e metadados Os controles de acesso/autenticação devem ser im-
armazenados nesses ecossistemas? plementados, de acordo com as políticas previa-
mente definidas.
• Como garantir que os dados críticos estejam dispo-
níveis no Big Data para o Processo de Tomada de • Transformar. Em algumas circunstâncias, existe a
Decisão? possibilidade de sumarizar ou derivar novos dados
a partir dos dados armazenados.
Interdisciplinarmente, essas questões ensejam algumas
competências da Ciência da Informação, introduzindo a • Descarte. Ocasionalmente, pode ocorrer a remoção
Curadoria Digital (Figura 3 no apêndice) como elemen- de dados (desatualizados, invalidados, ou por orien-
to importante na definição do ecossistema de Big Data. tação legal) conforme as políticas documentadas.
Normalmente, os dados são retirados de um ambi-
A Curadoria Digital é um conceito vinculado à veraci-
ente de produção, sendo transferidos para um ar-
dade e à proveniência, bem como à garantia da quali-
quivo morto passível de recuperação. Em outros ca-
dade dos dados (Roy, Underwood e Chang, 2015). Em
sos, os dados são definitivamente destruídos, por
suma, a Curadoria Digital é envolta por boas práticas
razões legais que sustentam a destruição segura.
de planejamento e de gestão de dados. No contexto de
ecossistemas de Big Data, conforme seu ciclo de vida • Reavaliar. Quando necessário, pode-se reavaliar
(Digital Curation Centre, 2018), a Curadoria Digital uma versão mais recente dos dados que anterior-
pode auxiliar em: mente não foram validados de acordo com os pro-
cedimentos formalizados na fase conceituar.
• Conceituar. É a formalização de documentos que
definem as orientações, as políticas, os requisitos • Migrar. Em virtude de avanços tecnológicos, deve-
legais e ações de criação, representação, captura, se executar ações de migração dos dados para um
limpeza, avaliação e guarda dos dados e metadados. formato mais atual. Desta forma, preserva-se os da-
dos e metadados a longo prazo, mesmo ocorrendo a
• Criar ou Receber. São as ações para criar dados
obsolescência de hardware ou de software em ecos-
em um ecossistema de Big Data. Os metadados de-
sistemas de Big Data.
correntes dessas ações (metadados administrativos,
descritivos, estruturais, técnicos e de preservação) Diante o exposto, percebe-se que a definição de um
também devem ser considerados/mantidos. Na cria- ecossistema de Big Data perpassa por várias compe-
ção ou recebimento de dados, deve-se proceder em tências. Neste sentido, a National Science Foundation
consonância às políticas de coleta documentadas na (2005) pontua que os cientistas da informação e da
fase conceituar. computação são agentes cruciais e devem cooperar na
guarda perene dos dados digitais.
• Avaliar e Selecionar. Antes de inserir novos dados
no ecossistema de Big Data, deve-se avaliar os da- No contexto deste artigo, entende-se que o Big Data se
dos quanto aos requisitos de qualidade estabeleci- reserva à infraestrutura de manutenção grandes cole-
dos (as orientações, as políticas e os requisitos le- ções de dados, atuando como a camada de suporte para
gais de criação, captura e guarda de dados). Uma extrair informações relevantes dessas coleções. Neste
vez avaliados, seleciona-se o conjunto íntegro de sentido, adicionalmente, pontua-se que a extração de
dados para ser custodiado e preservado. informação é uma atividade desafiadora, considerada
complementar ao Big Data, ensejando o conceito Ciên-
• Inserir. Definido o conjunto íntegro de dados, o cia de Dados. Como discutido a seguir, admite-se que
próximo passo é armazenar os dados no ecossiste- Ciência de Dados circunscreve as soluções computaci-
ma do Big Data, de acordo os documentos previa- onais que, a partir dos dados, abstraem insumos úteis
mente formalizados. no Processo de Tomada de Decisão (Grady e Chang,
• Ação de preservação. Realiza-se as ações para 2015).
garantir a preservação dos dados ao longo do tem- 3 Ciência de Dados: a camada dos métodos de
po. As ações de preservação são previamente defi-
transformação dos dados em informação
nidas e devem ser orquestradas de modo que os da-
dos permaneçam autênticos, confiáveis e usáveis, Aliado ao surgimento do Big Data, tem-se o advento
mantendo perenemente sua integridade. da Ciência de Dados como um campo de atuação de

Rautenberg, Sandro; Carmo, Paulo Ricardo Viviurka do. Big Data e Ciência de Dados: complementariedade conceitual no processo de tomada de
decisão. // Brazilian Journal of Information Studies: Research Trends. 13:1 (2019) p.56-p.67. ISSN 1981-1640.
59

competências interdisciplinares em ascensão. Atribui- formulação de hipóteses e a aquisição de informa-


se à Ciência de Dados a extração de informação útil a ção aderente como insumo no processo decisório.
partir de imensas bases de dados complexas, dinâmi-
Ressalta-se que em ecossistemas de Big Data, o Pro-
cas, heterogêneas e distribuídas (Bugnion; Manivan-
cesso de Tomada de Decisão é guiado por dados (Pro-
nan; Nicolas, 2017). Conforme a Figura 4, para se atuar
vost; Fawcett, 2013). Como pode ser percebido nos
na Ciência de Dados, três domínios de conhecimento se
pressupostos relatados, geralmente, tal processo em-
inter-relacionam: Programação de Computadores;
prega soluções computacionais baseadas em algoritmos
Estatística e Matemática; e Domínio do Conhecimento.
de Aprendizado de Máquina à aquisição de informação
Neste sentido, existem três pressupostos:
relevante. Conceitualmente, o Aprendizado de Máqui-
• Dentre as habilidades necessárias na Ciência de na é uma subárea da Inteligência Artificial que investi-
Dados, seus especialistas devem apresentar habili- ga a captura automatizada de modelos de abstração de
dades na área da Ciência da Computação, visto que informação a partir registros contidos em (volumosas)
basilarmente os dados são armazenados, manipula- bases de dados (Blum; Hopcroft; Kannan, 2018). Em
dos e transmitidos por computadores. Neste contex- outras palavras, o Aprendizado de Máquina aplica
to, os ambientes computacionais para o Desenvol- métodos computacionais e/ou estatísticos para a extra-
vimento de Software são ferramentas essenciais pa- ção automatizada de informação útil a partir de dados
ra promover a Curadoria Digital e a implementar os históricos. Neste contexto, como métodos computacio-
algoritmos de Aprendizado de Máquina e das inter- nais, pode-se citar:
faces de Visualização da Informação. É imperativo
saber utilizar essas tecnologias de modo a acessar e • Redes Neurais Artificias. São modelos computa-
transformar os dados para abstrair e representar in- cionais que imitam o funcionamento mais básico do
formação útil. cérebro humano. Em poucas palavras, similarmente
ao cérebro quando acionado em relação a um even-
to, uma Rede Neural Artificial recebe estímulos (si-
nais de entradas), processa sinais e produz uma saí-
da (Munakata, 2008). Como soluções de Aprendi-
zado de Máquina aplicadas ao Processo de Tomada
de Decisão, as Redes Neurais Artificiais são em-
pregadas nas Tarefas Intensivas em Conhecimento
(ver Seção 4) de: Associação; Avaliação; Diagnós-
tico; Monitoramento; e Predição.
• Algoritmos Genéticos. Resumidamente, são mode-
los computacionais baseados na teoria da evolução
das espécies (Munakata, 2008). São fundamentados
na premissa de que somente os seres mais adapta-
dos ao ambiente têm maior chance de gerar descen-
dentes. Computacionalmente, os Algoritmos Gené-
ticos implementam: a seleção dos melhores indiví-
duos (soluções) baseada na aptidão à resposta de
um problema; a reprodução das melhores soluções;
Figura 4. Interdisciplinaridade da Ciência de Dados e a ocorrência ocasional de mutação sobre as solu-
(baseado em Conaway, 2010) [tradução dos autores]
ções. Com estas metáforas da Evolução das Espé-
• O conhecimento sobre Matemática e Estatística cies, um Algoritmo Genético otimiza a busca de
também é necessário para a realização de atividades uma solução ótima dentre várias soluções possíveis
de Análise de Dados. Ou seja, os profissionais da dado um problema. Os Algoritmos Genéticos, ge-
Ciência de Dados devem entender o funcionamento ralmente, são empregados em tarefas de: Associa-
dos algoritmos de Aprendizado de Máquina, bem ção; Avaliação; Diagnóstico; e Predição.
como, saber interpretar os resultados, estatistica-
• Inteligência Coletiva. Foi originalmente introduzi-
mente. Interdisciplinarmente, a atividade de inter-
da no contexto de sistemas autônomos baseados na
pretação é facilitada pela Visualização da Informa-
coletividade e auto-organização de simples agentes
ção, a qual privilegia a utilização elementos de re-
(Tarasewich; Mcmullen, 2002). Seus algoritmos
presentação gráfica da informação.
são inspirados pela observação do comportamento
• Para o efetivo sucesso das soluções de Ciência de de indivíduos que cooperam coletivamente na reso-
Dados, o Conhecimento do Domínio do problema lução de problemas globais, como por exemplo, o
deve ser disponível e amplamente utilizado no Pro- comportamento de uma colônia de formigas na
cesso de Tomada de Decisão. Neste sentido, as so- busca por alimento. Em poucas palavras, Inteligên-
luções de Ciência de Dados são voltadas para a cia Coletiva é um paradigma de Aprendizado de

Rautenberg, Sandro; Carmo, Paulo Ricardo Viviurka do. Big Data e Ciência de Dados: complementariedade conceitual no processo de tomada de
decisão. // Brazilian Journal of Information Studies: Research Trends. 13:1 (2019) p.56-p.67. ISSN 1981-1640.
60

Máquina bio-inspirado, baseado na distribuição e como relacionar os dados primários à informação


no comportamento coletivo (enxame, cardume, re- relevante.
voada ou colônia) de elementos biológicos (formi-
• Definição dos Parâmetros. Passo intimamente
gas, cupins, abelhas, entre outros) para resolver
ligado as escolhas necessárias para o emprego do(s)
problemas de otimização. Segundo Abraham; Guo
algoritmo(s) de Aprendizado de Máquina. Nesta
e Liu (2006), os algoritmos de Inteligência Coletiva
atividade, por exemplo: i) converte-se os dados de
são utilizados em atividades de Mineração de Da-
entrada conforme os requisitos de manipulação do
dos ou Descoberta de Conhecimento em Bases de
algoritmo de aprendizado; ii) transforma-se os da-
Dados, sendo adequados às tarefas de: Associação;
dos de saída de modo a refletir uma saída legível
Avaliação; Diagnóstico; Monitoramento; e Predi-
aos seres humanos; iii) estabelece-se os intervalos
ção.
dos parâmetros de entrada a serem considerados;
Para Bugnion, Manivannan e Nicolas (2017), indepen- iv) define-se os critérios de parada do algoritmo de
dentemente de método computacional de Aprendizado aprendizado; v) o nível de confiabilidade exigido da
de Máquina utilizado, sete passos podem ser executa- resposta gerada; dentre outros.
dos iterativamente em soluções de Ciência de Dados
• Implementação do Modelo. Prima-se pela utiliza-
(Figura 5):
ção dos algoritmos de Aprendizado de Máquina pa-
ra estabelecer modelos a partir dos dados de entrada
e saída. Iterativamente, isso envolve o emprego de
estratégias de treinamento e de testes dos algorit-
mos para a definição dos parâmetros mais adequa-
dos dentre aqueles avaliados. Como resultado, de-
ve-se abstrair um modelo que estatisticamente me-
lhor represente as características dos dados utiliza-
dos.
• Utilização do Modelo. Uma vez estabelecido um
modelo, pode-se utilizá-lo para inferir informações
sobre dados em um ambiente de produção. Isso
confirmará o poder de generalização do modelo em
gerar informação relevante perante situações do
mundo real. Uma vez confirmado o poder de gene-
ralização, o modelo poderá ser empregado em Tare-
fas Intensivas em Conhecimento.
• Tomada de Decisão. Nas Tarefas Intensivas em
Figura 5. Ciclo de Vida da Ciência de Dados (Bugnion, Conhecimento, mediante a combinação do resulta-
Manivannan e Nicolas, 2017) [tradução dos autores] do gerado pelo modelo na análise dos dados com
seu conhecimento especializado, o gestor ampara
• Obtenção de Dados. Preconiza a realização de
suas decisões tomadas. Uma parte fundamental nes-
tarefas de avaliação e seleção de dados primários e
ta etapa envolve a customização da apresentação de
seus metadados a partir: do processamento de ar-
dados e da visualização da informação através de
quivos de texto; do monitoramento de uma rede de
relatórios e gráficos, respectivamente. Isso torna os
sensores; de consultas a bases de dados de sistemas
insights mais claros e convincentes, auxiliando as
legados; de dados oriundos da web; dentre outros.
atividades cognitivas dos tomadores de decisão.
• Ingestão de Dados. Trata da transformação e carga
Considerando as atividades relatadas, assume-se que a
dos dados primários advindos de fontes diferentes e
geração de informação útil a partir de dados brutos
formatos diversificados em uma base de dados
normalmente é um processo interativo. Neste sentido,
centralizada. Esta etapa implica em organizar e
os atores envolvidos podem formular premissas iniciais
representar os dados de modo a inserir os recursos
a respeito do problema e, gradualmente, refiná-las ao
pré-processados em um repositório de dados
adicionar novas dimensões de dados ou testar outros
principal, mitigando os esforços futuros da geração
algoritmos de Aprendizado de Máquina. Em outras
de informação relevante.
palavras, diante um volumoso conjunto de dados de
• Exploração de Dados. Privilegia a execução de baixo nível, iterativamente, encontra-se outras formas
estudos preliminares para estabelecer as conjecturas de representação mais abstratas e úteis acerca dos da-
iniciais acerca dos dados disponibilizados em rela- dos para a Tomada de Decisão. Subliminarmente, isso
ção à informação requisitada. Neste sentido, esta evidencia o processo de evolução dados → informação
atividade é importante para o estabelecimento do → conhecimento. Ou seja, os dados são transformados
fluxo de trabalho (workflow), definindo o roteiro de em informações, que por sua vez, são agrupadas em

Rautenberg, Sandro; Carmo, Paulo Ricardo Viviurka do. Big Data e Ciência de Dados: complementariedade conceitual no processo de tomada de
decisão. // Brazilian Journal of Information Studies: Research Trends. 13:1 (2019) p.56-p.67. ISSN 1981-1640.
61

padrões apresentados ao usuário para avaliação, desco- adequado em uma refeição. Dadas as características
berta de novos conhecimentos e suporte à Tomada de do prato principal, o sommelier recomenda o vinho
Decisão (conhecimento em ação). ideal a ser consumido. Neste caso, em um ecossis-
tema de Big Data, as regras de associação entre vi-
4 Processo de Tomada de Decisão: a camada nhos e pratos principais podem ser abstraídas de ba-
das Tarefas Intensivas em Conhecimento ses de dados das vinícolas e das opiniões de experi-
Considerando que o Big Data aporta grande volume de ências dos consumidores, mediante os processos de
dados estruturados ou desestruturados para o processo Mineração de Dados.
decisório, a curadoria desse aporte deve permitir às • Avaliação. O objetivo principal em tarefas de ava-
organizações as condições para realizar análises, in- liação é caracterizar um caso em conformidade às
sights e/ou julgamentos baseados em dados precisos. opções de decisão. Para exemplificar uma Tarefa
Neste sentido, conforme a Figura 6, a Ciência de Dados Intensiva em Conhecimento, considere um sistema
configura-se como um suporte metodológico ao Pro- de avaliação de crédito. Baseando-se nos históricos
cesso de Tomada de Decisão, facilitando: a obtenção de empréstimos realizados e armazenados no ecos-
de informação contextualizada; a explicitação de fenô- sistema de Big Data, para determinado caso, um
menos subliminares contidos nos dados; ou a refuta- gestor pode melhor discernir sobre sua decisão ao
ção/confirmação de hipóteses previamente estabeleci- compará-lo com casos anteriores. Neste tocante, a
das. Esse processo é denominado por Provost e Fawcett decisão a ser tomada pode ser: conceder o crédito;
(2013) como Tomada de Decisão Guiada por Dados. recusar o crédito; sugerir uma contraproposta, ou
requisitar mais informações do contratante.
• Diagnóstico. Dado um conjunto de atributos, resu-
me-se na tarefa de inferir o estado de um objeto
(caso em investigação) em contraste ao conheci-
mento que rege um domínio. Neste sentido, dispõe-
se de uma heurística (geralmente expressa por re-
gras) que caracteriza a compatibilidade ou a discre-
pância de um caso em análise em relação ao com-
portamento esperado. Em um ecossistema de Big
Data, o conhecimento do domínio (as regras) pode
ser abstraído dos dados, mediante o uso de soluções
computacionais de Ciência de Dados.
• Monitoramento. Em suma, é um processo de diag-
nóstico iterativo, no qual o estado de um objeto é
aferido ciclicamente ao longo do tempo. Ou seja,
periodicamente, dados sensitivos são capturados e
criticados por regras que definem a dinâmica da
Figura 6. Evolução Dados → Informação → Conhecimento
normalidade do objeto em monitoramento. Nas si-
na utilização do Big Data como base no Processo de Tomada
de Decisão (adaptado de Provost e Fawcett, 2013) [tradução tuações em que anormalidades são detectadas, aler-
dos autores] tas podem ser disparados para a execução de ativi-
dades de correção. Assim como na Tarefa Intensiva
Em face disso, tecnologicamente, a Tomada de Decisão em Conhecimento de Diagnóstico, em um ecossis-
Guiada por Dados auxilia os gestores em suas ativida- tema de Big Data, as regras podem ser abstraídas a
des cognitivas. E, por conseguinte, contribui à qualida- partir dos dados com o uso de soluções computaci-
de das decisões deliberadas e à produtividade laboral. onais de Ciência de Dados.
Neste enredo, as soluções computacionais de Ciência
de Dados auxiliam os gestores em suas Tarefas Inten- • Predição. Considerando um conjunto de dados de
sivas em Conhecimento (Schreiber et al., 2000). Dentre históricos e os dados correntes, na Tarefa Intensiva
as referidas tarefas, são listadas: em Conhecimento de Predição, estima-se o(s) even-
to(s) vindouro(s) para algum ponto futuro no tem-
• Associação. Tarefa em que o conhecimento de um po. Exemplos de aplicações voltadas à Predição são
mapeamento entre dois conjuntos de objetos é utili- a estimativa de vendas, a previsão de safras de
zado. Por exemplo, considere as tarefas em que a commodities, dentre outros.
relação entre causa e efeito é evidente. Por exem-
plo, pode-se citar a falta de óleo em um motor leva Em suma, em ecossistemas de Big Data, quando as
ao desgaste prematuro das peças mecânicas, com- Tarefas Intensivas em Conhecimento são tecnologica-
prometendo a vida útil). Outro exemplo do cotidia- mente suportadas, estas permeiam os processos de
no de tarefa de Associação é sugestão de um vinho transformação dos dados primários em informação,
apoiando o discernimento dos tomadores de decisão.

Rautenberg, Sandro; Carmo, Paulo Ricardo Viviurka do. Big Data e Ciência de Dados: complementariedade conceitual no processo de tomada de
decisão. // Brazilian Journal of Information Studies: Research Trends. 13:1 (2019) p.56-p.67. ISSN 1981-1640.
62

5 Big Data e Ciência de Dados: sua análises, interpretações e resolvem problemas,


Complementariedade na Tomada de Decisão apoiando-se em Processos de Tomada de Decisão
guiada por Dados.
O objetivo deste artigo é evidenciar a diferença e a
complementariedade dos conceitos Big Data e Ciência Ressalta-se que as oportunidades anteriormente relaci-
de Dados no Processo de Tomada de Decisão. Neste onadas ensejam habilidades multidisciplinares de no-
sentido, a Figura 7 (no apêndice) ilustra o alinhamento vos profissionais, os cientistas de dados. Em poucas
conceitual a ser pontuado. palavras, um cientista de dados lida com conhecimento
sobre tecnologias, formas de comunicação, habilidades
O Big Data se caracteriza principalmente nos volume, analíticas e domínio aplicados no ciclo evolutivo dados
variedade, velocidade, veracidade, variabilidade e valor → informação → conhecimento. Na perspectiva deste
de imensas bases de dados, requerendo estruturas com- artigo, interdisciplinarmente, as competências dos
putacionais escaláveis para tratamento dos recursos profissionais das Ciências da Computação e da Infor-
armazenados (Grady e Chang, 2015). Neste contexto, o mação (engenheiros e programadores de software,
Big Data atua como a primeira camada de suporte analistas de banco de dados, curadores, bibliotecários,
(camada basilar dos materiais) de ambientes computa- arquivistas, entre outros) e dos gestores são necessárias
cionais voltados à tomada de decisão. na produção e na utilização do conhecimento advindo a
Em face disso, a infraestrutura de Big Data deve supor- partir do Big Data. Com o uso inovador de métodos e
tar o gerenciamento, a proveniência, a curadoria e o tecnologias, os cientistas da computação e da informa-
arquivamento dos dados e seus metadados (Mishra e ção devem municiar os gestores com ferramental pro-
Chang, 2015). Nessa dinâmica, interdisciplinarmente, a pício à resolução de problemas nos ambientes coorpo-
Ciência da Informação contribui no fomento das com- rativos (Swan e Sheridan, 2008). Ou seja, com base em
petências de organização e representação de dados e suas habilidades, os cientistas da computação e da
informação, privilegiando os serviços de coleta, regis- informação desenvolvem as interfaces dos ecossiste-
tro, filtragem, classificação e entrega de dados e seus mas de Big Data que auxiliam os gestores no Processo
metadados às atividades reservadas à camada da Ciên- de Tomada de Decisão guiada por Dados. Neste senti-
cia de Dados. do, tais profissionais cooperam no(a):

Em relação à Ciência de Dados, esta é considerada a • obtenção de dados de fontes primárias heterogêneas
segunda camada de suporte (camada dos métodos) em internas à organização ou distribuídas na web;
ambientes computacionais voltados à tomada de deci- • definição dos procedimentos de ingestão de dados
são. Caracterizada como uma camada de transformação no ecossistema de Big Data;
dados → informação, a Ciência de Dados visa agregar
valor aos dados armazenados na camada de Big Data. • pré-processamento, estruturação e formalização dos
Para tanto, as organizações que queiram extrair infor- dados e seus metadados para o uso;
mações a partir do Big Data necessitam combinar habi- • modelagem dos processos de transformação de
lidades diversas, geralmente, atendidas por equipes dados e seus metadados de modo a gerar informa-
multidisciplinares (Gartner, 2018b). Neste sentido, ções relevantes;
Manyika et al. (2011) identifica três oportunidades de
atuação: • utilização de métodos computacionais ou estatísti-
cos de Aprendizado de Máquina para automatizar
• Suporte tecnológico. Oportunidade reservada aos os processos de sumarização e visualização de in-
profissionais com competência em computação que formações a partir dos dados disponíveis; e
desenvolvem, configuram e mantém, por exemplo:
os programas para a aquisição de dados a partir do • instrumentalização dos meios de exploração da
Big Data; as interfaces para realização de análise de informação com intuito de subsidiar os entendimen-
dados; a implementação de algoritmos de Aprendi- tos dos tomadores de decisão no desempenho das
zado de Máquina; dentre outros. Atividades Intensivas em Conhecimento.

• Análise de dados. Envolve os profissionais com 6 Considerações Finais


habilidades técnicas em Estatística e Aprendizado
Com o advento da Internet, tem-se produzido imensas
de Máquina para explorar os grandes volumes de
bases de dados para os mais variados domínios. Este
dados na obtenção de insights de negócios nas Ta-
fato é acelerado em função do uso massivo e da evolu-
refas Intensivas em Conhecimento.
ção das Tecnologias de Informação e Comunicação.
• Tomada de Decisão. Oportunidade ligada aos Este é o ensejo do Big Data como conceito contempo-
gestores com conhecimento do domínio e que te- râneo para processamento de dados complexos e dinâ-
nham as habilidades para formular questões perti- micos perante às exigentes demandas de informação da
nentes a serem investigadas. Mediante as Tarefas atual Sociedade do Conhecimento.
Intensivas em Conhecimento, tais atores realizam

Rautenberg, Sandro; Carmo, Paulo Ricardo Viviurka do. Big Data e Ciência de Dados: complementariedade conceitual no processo de tomada de
decisão. // Brazilian Journal of Information Studies: Research Trends. 13:1 (2019) p.56-p.67. ISSN 1981-1640.
63

Notadamente, o desenvolvimento de instrumentos Akhtat, Syed Muhammad Fahad (2018). Big Data Architect’s Hand-
book. Birmingham: Pack Publishing, 2018.
voltados à extração automatizada de informação a
partir do Big Data têm despertado atenção das organi- Blum, Avrim; Hopcroft, John; Kannan, Ravi (2018). Foundations of
zações. Principalmente, para subsidiar os gestores na Data Science (2018). https://www.cs.cornell.edu/jeh/book.pdf
(2018-07-26).
execução das Tarefas Intensivas em Conhecimento,
facilitando o Processo de Tomada de Decisão guiada Bugnion, Pascal; Manivannan, Arun; Nicolas, Patrick R. (2017).
por Dados. Scala: Guide for Data Science Professionals. Birmingham: Packt
Publishing, 2017.
Neste contexto, a evolução dados → informação → Conamay, Drew (2010). The data science venn diagram (2010).
conhecimento em ecossistemas de Big Data requer a http://drewconway.com/zia/2013/3/26/the-data-science-venn-
sinergia de competências de profissionais (cientistas da diagram (2018-07-27).
informação, cientistas da computação, estatísticos, Digital Curation Centre (2018). The DCC Curation Lifecycle Model
gestores, dentre outros). (2018).
http://www.dcc.ac.uk/sites/default/files/documents/publications/
Considerando a interdisciplinaridade supracitada, neste DCCLifecycle.pdf (2018-07-25).
trabalho dissertou-se sobre a diferença tecnológica e a Economist, The (2017). The world’s most valuable resource is no
complementariedade dos conceitos Big Data e Ciência longer oil, but data (2017).
de Dados. https://www.economist.com/leaders/2017/05/06/the-worlds-
most-valuable-resource-is-no-longer-oil-but-data (2018-07-28).
Como resultado, aponta-se que o Big Data é um termo
Eiica (2019). X Encontro Internacional de Informação, Conhecimen-
intrinsecamente ligado à infraestrutura do hardware e to e Ação. Marília, 2018.
de serviços de computação na nuvem, necessários para http://enancib.marilia.unesp.br/index.php/EIICA/XEIICA.
o armazenamento, o processamento e a distribuição de (2019-02-27).
recursos. Em outras palavras, considerando a evolução Gartner (2018a). What is Big Data? – Gartner IT Glossary – Big
dados → informação → conhecimento, o conceito Big Data (2018a). http://www.gartner.com/it-glossary/big-data
Data é relacionado à camada basilar de materiais, pri- (2018-07-28).
vilegiando os 6Vs atribuídos aos dados (Velocidade, Gartner (2018b). Data Scientist – Gartner IT Glossary (2018c).
Variedade, Variabilidade, Veracidade, Volume e Va- https://www.gartner.com/it-glossary/data-scientist (2018-07-28).
lor). Neste sentido, advoga-se que a Ciência da Infor- Grady, Nancy; Chang, Wo (2015). NIST Big Data Interoperability
mação tem papel fundamental na consolidação dos Framework: Volume 1, Definitions (2015).
ecossistemas de Big Data. Principalmente, no tocante https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1
às competências de organização/representação de da- 500-1.pdf (2018-07-28).
dos e metadados e da Curadoria Digital dos recursos Laney, Doug (2001). 3D Data Management: Controlling Data Vol-
mantidos nesses ecossistemas. ume, Velocity, and Variety (2001).
https://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-
Em relação à Ciência de Dados, entende-se que este Data-Management-Controlling-Data-Volume-Velocity-and-
conceito é conexo à camada dos softwares, a qual me- Variety.pdf (2018-07-25).
todologicamente transforma os dados em informação Manyika, James; Chui, Michael; Brown, Brad; Bughin, Jacques;
para o Apoio à Tomada de Decisão. Neste sentido, as Dobbs, Richard; Roxburgh, Charles Byers, Angela Hung (2011).
competências dos cientistas da computação e da infor- Big data: The next frontier for innovation, competition, and
productivity (2011).
mação são necessárias na concepção de modelos de https://bigdatawg.nist.gov/pdf/MGI_big_data_full_report.pdf
representação, interfaces de comunicação e informa- (2018-07-28).
ções relevantes. Em ecossistemas de Big Data, tais Mishra, Sanjay; Chang, Wo (2015). NIST Big Data Interoperability
competências são úteis para customizar o ferramental Framework: Volume 5, Security and Privacy (2015).
utilizado pelo gestor na Tomada de Decisão guiada por https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1
Dados. 500-5.pdf (2018-07-28).
Munakata, Toshinori (2008). Fundamentals of the New Artificial
Notas Intelligence: Neural, Evolutionary, Fuzzy and More. Heidelberg:
Springer, 2008.
Os autores agradecem à Fundação Araucária pelas
bolsas de Iniciação Científica concedida (PIBIC- National Science Foundation (2005). Long-Lived Digital Data Col-
lections: Enabling Research and Education in the 21st Century
2018/UNICENTO - Programa Institucional de Inicia- (2005). https://www.nsf.gov/pubs/2005/nsb0540/nsb0540.pdf
ção Científica) e de Produtividade (FA - Convênio (2018-07-28).
046/2019).
Provost, Foster; Fawcett, Tom (2013). Data Science and its Relation-
Referências ship to Big Data and Data-Driven Decision Making. // Big Data,
1:1 (March 2013) 51-59.
Abraham, Ajith; Guo, He; Liu, Hongbo (2006). Swarm Intelligence:
Rautenberg, Sandro; Carmo, Paulo Ricardo Viviurka do (2018). Big
Foundations, Perspectives and Applications. // Nedjah, Nadia,
Data e Ciência de Dados: Complementariedade Conceitual no
Mourelle, Luiza de M. (eds). Swarm Intelligent Systems. Hei-
Processo de Tomada de Decisão. // Encontro Internacional de In-
delberg: Springer, 2006. 3-25.
formação, Conhecimento e Ação, Marilia. Caderno de Resumos.
Marilia: Unesp, 10, 1, 2018, p. 219-221.

Rautenberg, Sandro; Carmo, Paulo Ricardo Viviurka do. Big Data e Ciência de Dados: complementariedade conceitual no processo de tomada de
decisão. // Brazilian Journal of Information Studies: Research Trends. 13:1 (2019) p.56-p.67. ISSN 1981-1640.
64

Roy, Arnab; Underwood, Mark; Chang, Wo (2015). NIST Big Data


Interoperability Framework: Volume 4, Security and Privacy
(2015)
https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1
500-4.pdf (2018-07-28).
Schreiber, Guss; Akkermans, Hans; Anjewierden, Anjo; de Hoog,
Robert; Shadbolt, Nigel; van der Welde, Walter; Wielinga, Bob
(2000). Knowledge Engineering and Management: the Com-
monKADS Methodology. Cambridge: The MIT Press, 2000.
Swan, Alma; Brown, Sheridan (2008). The Skills, Role and Career
Structure of Data Scientists and Curators: an Assessment of Cur-
rent Practice and Future Needs (2008).
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.147.8
960&rep=rep1&type=pdf (2008-07-28).
Tarasewich, Peter; Mcmullen, Patrick R (2002). Swarm Intelligence:
power in numbers. // Communications of the ACM 45:8 (August
2002) 62-66.
van der Aalst, Wil (2014). Data Scientist: The Engineer of the Fu-
ture. // Mertins, Kai; Bénaben, Frédérick; Poler, Raul; Bourrières
Jean-Paul (eds.) (2014). Proceedings of the Interoperability of
Enterprises Systems and Applications Conference (I-ESA’2014):
Albi, France. Mar. 24-28, 2014. Heidelberg: Springer.

Copyright: © 2019, Rautenberg e Carmo. This is an


open-access article distributed under the terms of the
Creative Commons CC Attribution-ShareAlike (CC
BY-SA), which permits use, distribution, and reproduc-
tion in any medium, under the identical terms, and
provided the original author and source are credited.

Received: 2018-10-15. Accepted: 2019-03-22

Rautenberg, Sandro; Carmo, Paulo Ricardo Viviurka do. Big Data e Ciência de Dados: complementariedade conceitual no processo de tomada de
decisão. // Brazilian Journal of Information Studies: Research Trends. 13:1 (2019) p.56-p.67. ISSN 1981-1640.
65

Apêndice
Figura 1.

Figura 1. A Internet de Eventos baseada em Conteúdo, Pessoas, Coisas e Localizações (van der Aalst, 2014) [tradução dos autores]

Rautenberg, Sandro; Carmo, Paulo Ricardo Viviurka do. Big Data e Ciência de Dados: complementariedade conceitual no processo de tomada de
decisão. // Brazilian Journal of Information Studies: Research Trends. 13:1 (2019) p.56-p.67. ISSN 1981-1640.
66

Figura 3.

Figura 3. Ciclo de Vida da Curadoria Digital (Digital Curation Centre, 2018) [tradução dos autores]

Rautenberg, Sandro; Carmo, Paulo Ricardo Viviurka do. Big Data e Ciência de Dados: complementariedade conceitual no processo de tomada de
decisão. // Brazilian Journal of Information Studies: Research Trends. 13:1 (2019) p.56-p.67. ISSN 1981-1640.
67

Figura 7.

Figura 7. Representação do Alinhamento de Big Data e Ciência de Dados no Processo de Tomada de Decisão

Rautenberg, Sandro; Carmo, Paulo Ricardo Viviurka do. Big Data e Ciência de Dados: complementariedade conceitual no processo de tomada de
decisão. // Brazilian Journal of Information Studies: Research Trends. 13:1 (2019) p.56-p.67. ISSN 1981-1640.

Você também pode gostar