Big Data en Pocas Palabras
Big Data en Pocas Palabras
Big Data en Pocas Palabras
tecnológica
Big data es un término que describe el gran volumen de datos
– estructurados y no estructurados – que inundan una
empresa todos los días. Pero no es la cantidad de datos lo
importante. Lo que importa es lo que las organizaciones
hacen con los datos. El big data puede ser analizado para
obtener insights que conlleven a mejores decisiones y
acciones de negocios estratégicas.
Historia del Big Data
El término "big data" se refiere a los datos que son tan
grandes, rápidos o complejos que es difícil o imposible
procesarlos con los métodos tradicionales. El acto de acceder
y almacenar grandes cantidades de información para la
analítica ha existido desde hace mucho tiempo. Pero el
concepto de big data cobró impulso a principios de la década
de 2000 cuando el analista de la industria, Doug Laney,
articuló la definición actual de grandes datos como las tres V:
Volumen: Las organizaciones recopilan datos de diversas
fuentes, como transacciones comerciales, dispositivos
inteligentes (IO), equipo industrial, vídeos, medios sociales y
más. En el pasado, su almacenamiento habría sido un
problema - pero el almacenamiento más barato en
plataformas como los data lakes y el Hadoop han aliviado la
carga.
Velocidad: Con el crecimiento del Internet de las Cosas, los
datos llegan a las empresas a una velocidad sin precedentes
y deben ser manejados de manera oportuna. Las etiquetas
RFID, los sensores y los medidores inteligentes están
impulsando la necesidad de manejar estos torrentes de datos
en tiempo casi real.
Variedad : Los datos se presentan en todo tipo de formatos:
desde datos numéricos estructurados en bases de datos
tradicionales hasta documentos de texto no estructurados,
correos electrónicos, vídeos, audios, datos de teletipo y
transacciones financieras.
En SAS, consideramos otras dos dimensiones cuando se trata
del big data:
Variabilidad:
Además de las crecientes velocidades y variedades de datos,
los flujos de datos son impredecibles, cambian a menudo y
varían mucho. Es un reto, pero las empresas necesitan saber
cuándo algo está de moda en los medios sociales, y cómo
gestionar los picos de carga de datos diarios, estacionales y
desencadenados por eventos.
Veracidad:
La veracidad se refiere a la calidad de los datos. Debido a que
los datos provienen de tantas fuentes diferentes, es difícil
vincular, comparar, limpiar y transformar los datos a través
de los sistemas. Las empresas necesitan conectar y
correlacionar las relaciones, las jerarquías y los múltiples
vínculos de datos. De lo contrario, sus datos pueden salirse
de control rápidamente.
Para entender qué significa realmente "big data", resulta útil conocer ciertos antecedentes
históricos. A continuación, ofrecemos la definición de Gartner, de aproximadamente 2001 (y que
continúa siendo la definición de referencia): Big data son datos que contienen una mayor variedad
y que se presentan en volúmenes crecientes y a una velocidad superior. Esto se conoce como "las
tres V".
Dicho de otro modo, el big data está formado por conjuntos de datos de mayor tamaño y más
complejos, especialmente procedentes de nuevas fuentes de datos. Estos conjuntos de datos son
tan voluminosos que el software de procesamiento de datos convencional sencillamente no puede
administrarlos. Sin embargo, estos volúmenes masivos de datos pueden utilizarse para abordar
problemas empresariales que antes no hubiera sido posible solucionar.
Volumen La cantidad de datos importa. Con big data, tendrá que procesar
grandes volúmenes de datos no estructurados de baja densidad.
Puede tratarse de datos de valor desconocido, como feeds de datos
de Twitter, flujos de clics de una página web o aplicación para
móviles, o equipo con sensores. Para algunas organizaciones, esto
puede suponer decenas de terabytes de datos. Para otras, incluso
cientos de petabytes.
En los últimos años, han surgido otras "dos V": valor y veracidad.
Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor
se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede
confiar en ellos?
Hoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores
empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que
analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.
Avances tecnológicos recientes han reducido exponencialmente el costo del almacenamiento y la
computación de datos, haciendo que almacenar datos resulte más fácil y barato que nunca.
Actualmente, con un mayor volumen de big data más barato y accesible, puede tomar decisiones
empresariales más acertadas y precisas.
Identificar el valor del big data no pasa solo por analizarlo (que es ya una ventaja en sí misma). Se
trata de todo un proceso de descubrimiento que requiere que los analistas, usuarios empresariales
y ejecutivos se planteen las preguntas correctas, identifiquen patrones, tomen decisiones
informadas y predigan comportamientos.
Si bien el concepto "big data" en sí mismo es relativamente nuevo, los orígenes de los grandes
conjuntos de datos se remontan a las décadas de 1960 y 1970, cuando el mundo de los datos
acababa de empezar con los primeros centros de datos y el desarrollo de las bases de datos
relacionales.
Alrededor de 2005, la gente empezó a darse cuenta de la cantidad de datos que generaban los
usuarios a través de Facebook, YouTube y otros servicios online. Ese mismo año, se desarrollaría
Hadoop, un marco de código abierto creado específicamente para almacenar y analizar grandes
conjuntos de datos. En esta época, también empezaría a adquirir popularidad NoSQL.
El desarrollo de marcos de código abierto, tales como Hadoop (y, más recientemente, Spark), sería
esencial para el crecimiento del big data, pues estos hacían que el big data fuera más fácil de usar y
más barato de almacenar. En los años transcurridos desde entonces, el volumen de big data se ha
disparado. Los usuarios continúan generando enormes cantidades de datos, pero ahora los
humanos no son los únicos que lo hacen.
Con la llegada de la Internet de las cosas (IoT), hay un mayor número de objetos y dispositivos
conectados a Internet que generan datos sobre patrones de uso de los clientes y el rendimiento de
los productos. El surgimiento del aprendizaje autónomo ha producido aún más datos.
Aunque el big data ha llegado lejos, su utilidad recién empieza. La computación en la nube ha
ampliado aún más las posibilidades del big data. La nube ofrece una escalabilidad realmente flexible,
donde los desarrolladores pueden simplemente agilizar clústeres ad hoc para probar un
subconjunto de datos.
• El big data le permite obtener respuestas más completas, ya que dispone de mayor cantidad
de información.
• La disponibilidad de respuestas más completas significa una mayor fiabilidad de los datos,
lo que implica un enfoque completamente distinto a la hora de abordar problemas.
El big data puede ayudarle a abordar una serie de actividades empresariales, desde la experiencia
de los clientes hasta los análisis. A continuación, recopilamos algunas de ellas (puede encontrar más
casos de uso en Soluciones Oracle Big Data).
Desarrollo de productos Empresas como Netflix y Procter & Gamble usan big data para
prever la demanda de los clientes. Construyen modelos predictivos
para nuevos productos y servicios, clasificando atributos clave de
productos anteriores y actuales, y modelando la relación entre
dichos atributos y el éxito comercial de las ofertas. Además, P&G
utiliza los datos y los análisis de grupos de interés, redes sociales,
mercados de prueba y avances de salida en tiendas para planificar,
producir y lanzar nuevos productos.
Mantenimiento predictivo Los factores capaces de predecir fallas mecánicas pueden estar
profundamente ocultos entre datos estructurados (año del equipo,
marca o modelo de una máquina) o entre datos no estructurados
que cubren millones de entradas de registros, datos de sensores,
mensajes de error y temperaturas de motor. Al analizar estos
indicadores de problemas potenciales antes de que estos se
produzcan, las organizaciones pueden implementar el
mantenimiento de una forma más rentable y optimizar el tiempo
de servicio de componentes y equipos.
Experiencia del cliente La carrera por los clientes ya partió. Disponer de una vista clara de
la experiencia del cliente es más posible que nunca. El big data le
permite recopilar datos de redes sociales, visitas a páginas web,
registros de llamadas y otras fuentes para mejorar la experiencia de
interacción, así como maximizar el valor ofrecido. Empiece a
preparar ofertas personalizadas, reducir las tasas de abandono de
los clientes y administrar las incidencias de manera proactiva.
Eficiencia operativa Puede que la eficiencia operativa no sea la noticia más importante,
pero es el área en que big data tiene un mayor impacto. El big data
le permite analizar y evaluar la producción, la opinión de los
clientes, las devoluciones y otros factores para reducir las
situaciones de falta de stock y prever la demanda futura. El big data
también puede utilizarse para mejorar la toma de decisiones en
función de la demanda de mercado del momento.
Impulse la innovación El big data puede ayudarle a innovar mediante el estudio de las
interdependencias entre seres humanos, instituciones, entidades y
procesos, y, posteriormente, mediante la determinación de nuevas
maneras de usar dicha información. Utilice las perspectivas que le
ofrecen los datos para mejorar sus decisiones financieras y
consideraciones de planificación. Estudie las tendencias y lo que
desean los clientes para ofrecer nuevos productos y servicios.
Implemente políticas de precios dinámicas. Las posibilidades son
infinitas.
Si bien es cierto que el big data promete mucho, también se enfrenta a desafíos.
En primer lugar, el big data se caracteriza por su gran tamaño. Aunque se han desarrollado nuevas
tecnologías para el almacenamiento de datos, el volumen de datos duplica su tamaño cada dos
años aproximadamente. Las organizaciones continúan esforzándose por mantener el ritmo de
crecimiento de sus datos y por encontrar formas de almacenarlos eficazmente.
Pero no basta con almacenar los datos. Para ser de algún valor, los datos deben poder utilizarse, y
esto depende de su conservación. Disponer de datos limpios —es decir, datos relevantes para el
cliente y organizados de tal modo que permitan un análisis significativo— requiere una gran
cantidad de trabajo. Los científicos de datos dedican entre un 50 y un 80 por ciento de su tiempo a
seleccionar y preparar los datos antes de que estos puedan utilizarse.
Por último, la tecnología de big data cambia a un ritmo rápido. Hace unos años, Apache Hadoop era
la tecnología más conocida utilizada para administrar big data. Más tarde, en 2014, entraría en juego
Apache Spark. Hoy en día, el enfoque óptimo parece ser una combinación de ambos marcos.
Mantenerse al día en cuanto a tecnología de big data supone un desafío constante.
El big data le aporta nuevas perspectivas que abren paso a nuevas oportunidades y modelos de
negocio. Iniciarse en ello requiere de tres acciones clave:
1. Integre
El big data concentra datos de numerosas fuentes y aplicaciones distintas. Los mecanismos de
integración de datos convencionales, tales como ETL (extract, transform, load [extraer, transformar,
cargar]), generalmente no están a la altura de dicha tarea. Analizar conjuntos de big data de un
tamaño de uno o más terabytes, o incluso petabytes, requiere de nuevas estrategias y tecnologías.
Durante la integración, es necesario incorporar los datos, procesarlos y asegurarse de que estén
formateados y disponibles de tal forma que los analistas empresariales puedan empezar a
utilizarlos.
2. Administrar
3. Analizar
La inversión en big data se rentabiliza en cuanto se analizan y utilizan los datos. Adquiera una nueva
claridad con un análisis visual de sus diversos conjuntos de datos. Continúe explorando los datos
para realizar nuevos descubrimientos. Comparta sus hallazgos con otras personas. Construya
modelos de datos con aprendizaje autónomo e inteligencia artificial. Ponga sus datos en
funcionamiento.
Para ayudarle en su transición a big data, hemos recopilado una serie de prácticas recomendadas
que debe tener en cuenta. A continuación, detallamos nuestras pautas para crear con éxito una
base de big data.
Alinear big data con objetivos La disponibilidad de conjuntos de datos más amplios le permite
empresariales específicos realizar nuevos hallazgos. A tal efecto, es importante basar las nuevas
inversiones en habilidades, organización o infraestructura con un
marcado contexto empresarial para garantizar la constancia en la
financiación e inversión en proyectos. Para determinar si se
encuentra en el camino correcto, pregúntese en qué medida el big
data respalda y habilita sus principales prioridades empresariales y
de TI. Algunos ejemplos incluyen entender cómo filtrar los registros
web para comprender el comportamiento del comercio electrónico,
extraer la percepción de las redes sociales y de las interacciones de
atención al cliente, así como entender los métodos de correlación
estadística y su relevancia para los datos de clientes, productos,
fabricación e ingeniería.
Mitigue la escasez de habilidades Uno de los mayores obstáculos para beneficiarse de su inversión en
con estándares y gobierno big data es la escasez de habilidades. Puede mitigar el riesgo
asegurándose de incorporar a su programa de gobierno de TI
tecnologías, consideraciones y decisiones relativas a big data.
Normalizar su enfoque le permitirá administrar los costos y
aprovechar los recursos. Las organizaciones que implementen
soluciones y estrategias de big data deben evaluar sus necesidades
de habilidades de forma temprana y frecuente, e identificar de
manera proactiva las posibles carencias de habilidades. Esto puede
lograrse mediante la capacitación regular o cruzada entre los
recursos existentes, la contratación de nuevos recursos y el uso de
empresas de consultoría.
Planificar el laboratorio de El concepto "hallazgo" implica que los datos no siempre se obtienen
hallazgos en pro del rendimiento directamente. En ocasiones, ni siquiera sabemos qué estamos
buscando. Eso es de esperar. La dirección y los equipos de TI deben
respaldar esta "falta de dirección" o "falta de claridad en los
requisitos".
Alineación con el modelo Los usuarios y procesos de big data requieren acceso a una amplia
operativo en la nube variedad de recursos de experimentación reiterativa y ejecución de
tareas de producción. Una solución de big data incluye todos los
ámbitos de los datos, incluidas transacciones, datos principales,
datos de referencia y datos resumidos. Los entornos de pruebas
(sandbox) analíticos deben crearse a pedido. La administración de
recursos es fundamental para garantizar el control de todo el flujo de
datos, incluido el procesamiento previo y posterior, la integración, el
resumen dentro de la base de datos y la creación de modelos
analíticos. Disponer de una estrategia bien definida de
aprovisionamiento y seguridad en la nube pública y privada es
fundamental para respaldar estos requisitos cambiantes.