Particionamento
Particionamento
Particionamento
DE BIG DATA
Introdução
Big data pode ser considerada como a eletricidade do século XXI, com
um alto poder de transformar muitos aspectos em relação aos negócios
e quanto à vida pública e privada. No entanto, não são os dados brutos
que permitem a mudança e levam a melhores resultados, mas os insights
derivados deles. Atualmente, as empresas buscam organizar seus dados
pensando na modelagem de negócios e em como isso pode ajudar a
administrar os processos. Nesse contexto, big data permite a descoberta
de informação baseada nos dados de pessoas, instituições e empresas,
o que pode revelar outros novos fatores. Portanto, a análise de big data
pode ajudar a mudar definitivamente o cenário de empreendimentos,
sejam privados ou públicos.
As empresas precisam de soluções que facilitem a análise do grande
volume de novos dados que surgem. Dessa forma, particionar os dados
em ambientes distribuídos é uma das técnicas que possibilitam processar
e analisar grandes quantidades de dados de forma mais rápida. Neste
capítulo, será apresentado um paralelo entre as vantagens e limitações
do particionamento de dados em big data.
dos dados. O termo big data ganhou visibilidade a partir de 2001, quando empresas
e instituições passaram a compreender e desenvolver tecnologias para trabalhar
com o novo fenômeno da era da informação. Dessa revolução, surgiram soluções
para o processamento do big data, como o Apache Hadoop, criado pela Apache
Software Foundation, uma fundação responsável por várias tecnologias que lidam
com formas de uso e tratamento de dados. A grande vantagem da existência de
instituições como a Apache é que a pesquisa na área de dados tem se expandido
a tal ponto que o mercado recente permite que tanto empresas tradicionais da
área de tecnologia, como Microsoft, Amazon e Oracle, quanto pequenas startups
emergentes participem desse processo de desenvolvimento de tecnologias capazes
de processar o imenso universo de dados gerados diariamente.
As ferramentas analíticas de hoje podem ser usadas para revelar informa-
ções a partir de dados históricos ou de fluxos de informações capturadas em
tempo real. Essas ferramentas ajudam a analisar eventos passados, entender as
atividades atuais e prever resultados futuros. Com essa riqueza de informações,
surge uma rara oportunidade para que empresas superem seus concorrentes,
indo além de expectativas e dos planejamentos das partes envolvidas. Com
big data, as organizações podem conhecer melhor seus clientes, introduzir
novos produtos e serviços e gerenciar melhor os riscos na tomada de decisão.
Os dados estão em todo lugar, pois são trocadas informações a todo ins-
tante, como e-mails, consultas em ferramentas de busca, trocas de mensagens
por aplicativos, acesso a sistemas de gestão nos locais de trabalho e assim
por diante. Isso ocorre até mesmo no controle de tráfego aéreo durante a co-
municação entre as aeronaves e a torre de comando, no trânsito com radares
eletrônicos e nas milhares de câmeras captando imagens pelas cidades. Assim,
são gerados dados de vários tipos, os quais podem ser analisados em tempo
real e também ser armazenados para análise posterior.
Big data são grandes conjuntos de dados coletados que precisam de ferra-
mentas e tecnologias próprias para serem ingeridos, armazenados, processados
e entendidos. Independentemente de os dados serem de tipos diferentes, hoje, há
sistemas que permitem que os dados sejam compilados e agrupados a fim de que
se transformem em informação, uma vez que dado e informação não são a mesma
coisa. Dados são parte da informação que, em conjunto, formam o conhecimento
sobre determinado assunto. Logo, um dado sozinho pode não fazer muito sentido,
enquanto o conjunto de dados pode gerar uma informação. Com informações, se
alcança o conhecimento, seja dentro de um único contexto em uma área específica,
seja em uma área mais vasta, que está inserida em vários contextos diferentes.
Particionamento de dados 3
Existem diferentes tipos de dados divididos em pelo menos três categorias, segundo
os principais autores: estruturados, não estruturados e semiestruturados. Estruturados
são dados que apresentam uma estrutura pré-definida. Portanto, realizar uma operação
ou uma análise com eles é mais fácil, pois já estão prontos para uso. Semiestruturados
são dados que apresentam certa estrutura e organização, mas nem todos seus atributos
são idênticos ou fixos. Os dados não estruturados representam dados vindos em
formatos diversos que precisam passar por uma normalização ou preparação antes
de serem úteis e analisados.
4 Particionamento de dados
O conceito de big data está amplamente relacionado aos seus Vs. Existem
diferentes opiniões sobre a quantidade desses Vs, mas os três básicos são:
volume;
velocidade;
variedade.
veracidade;
variabilidade;
valor.
Particionamento
Segundo Abadi (2009), o particionamento de dados é uma técnica que pos-
sibilita a distribuição dos dados entre múltiplos discos, locais ou tabelas
com o objetivo principal de melhorar o desempenho das consultas e a gestão
dos dados. O particionamento é uma estratégia que possibilita melhorar o
tratamento de grandes volumes de dados produzidos e processados em alta
velocidade. Por facilitar o processamento distribuído, ele permite melhorar o
desempenho da computação em ambientes de big data e, por facilitar a adição
de hardware para armazenamento, pode ser considerado a principal estratégia
para a escalabilidade.
Existem diferentes abordagens para o particionamento de big data. Elas
devem ser escolhidas com cautela, uma vez que os benefícios devem ser
maiores que os eventuais efeitos negativos, incluindo maior investimento
de tempo e dinheiro na implementação de mudanças. Uma classificação
Particionamento de dados 5
O particionamento pode ser feito para atingir diferentes objetivos. Ele traz
um elemento novo quando se trata do desenho de um sistema ou aplicativo.
Logo, lidar com dados particionados também requer que a tecnologia e a
linguagem de programação utilizadas no desenvolvimento estejam aptas para
isso. É indicado que o particionamento de dados esteja no projeto original dos
dados, já pensando em seu crescimento e na escalabilidade posterior. Afinal,
é consideravelmente mais simples implementar um design de aplicação desde
o princípio considerando-se a partição dos dados do que alterar a arquitetura
depois do aplicativo pronto. De acordo com a documentação oferecida pela
Microsoft Azure (2018), a lógica da forma como se acessa os dados acaba por ser
diferenciada, precisando ser modificada caso a aplicação já tenha sido criada.
Com a necessidade de distribuir os dados em partições, será necessário migrar
grandes quantidades de dados já existentes, o que pode impactar o tempo que
os usuários teriam que esperar para ter acesso aos dados durante essa migração.
Outros desafios a serem levados em consideração são:
ABADI, D. (2009) Data Partitioning. In: LIU L., ÖZSU M.T. (eds) Encyclopedia of Database
Systems. Springer, Boston, MA. Disponível em: https://doi.org/10.1007/978-0-387-39940-
9_688. Acesso em: 03 nov. 2020.
BAER, H. Particionamento no banco de dados Oracle 11g. Oracle, São Paulo, jun. 2007.
Disponível em: https://www.oracle.com/technetwork/pt/database/enterprise-edition/
documentation/particionamento-banco-de-dados-11g-432098-ptb.pdf?source=ad:p
as:go:dg:bd+:ow:lp:cpo::. Acesso em: 13 fev. 2020.
IDG. Worldwide external disk storage systems factory revenue increased [...]. IDG,
Framingham, 3 Mar. 2013. Disponível em: https://www.idg.com/news/worldwide-
-external-disk-storage-systems-factory-revenue-increased-2-3-during-the-fourth-
-quarter-of-2012-and-4-7-for-the-full-year-according-to-idc/. Acesso em: 13 fev. 2020.
MAHMUD, Mohammad Sultan et al. A survey of data partitioning and sampling methods
to support big data analysis. Big Data Mining and Analytics, v. 3, n. 2, p. 85–101, jun. 2020.
MANNINO, M. V. Projeto, desenvolvimento de aplicações e administração de banco de
dados. 3. ed. Porto Alegre: Bookman, 2008.
MICROSOFT. Usando o particionamento de tabela e índice. Microsoft, [s. l.], 6 ago. 2017.
Disponível em: https://docs.microsoft.com/pt-br/sql/relational-databases/server-
-management-objects-smo/tasks/using-table-and-index-partitioning?view=sql-server-
-ver15. Acesso em: 13 fev. 2020.
MICROSOFT AZURE. Particionamento horizontal, vertical e funcional de dados. Microsoft
Azure, [s. l.], 4 nov. 2018. Disponível em: https://docs.microsoft.com/pt-br/azure/archi-
tecture/best-practices/data-partitioning#why-partition-data. Acesso em: 13 fev. 2020.
SHARDA, R.; DELEN, D.; TURBAN, E. Business intelligence e análise de dados para gestão
do negócio. 4. ed. Porto Alegre: Bookman, 2019.
12 Particionamento de dados
Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun-
cionamento foi comprovado no momento da publicação do material. No entanto, a
rede é extremamente dinâmica; suas páginas estão constantemente mudando de
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade
sobre qualidade, precisão ou integralidade das informações referidas em tais links.