0% encontró este documento útil (0 votos)
85 vistas

Introduccion Python

El documento presenta tres propuestas sobre el análisis de datos y ciencia de datos. La primera propuesta define el Big Data y sus características de volumen, velocidad, variedad, variabilidad y veracidad. La segunda propuesta describe las fuentes de datos, los tipos de datos según su estructura y el ciclo de gestión de la información. La tercera propuesta explica la definición histórica de Big Data, sus usos en desarrollo de productos, mantenimiento predictivo y experiencia del cliente.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
85 vistas

Introduccion Python

El documento presenta tres propuestas sobre el análisis de datos y ciencia de datos. La primera propuesta define el Big Data y sus características de volumen, velocidad, variedad, variabilidad y veracidad. La segunda propuesta describe las fuentes de datos, los tipos de datos según su estructura y el ciclo de gestión de la información. La tercera propuesta explica la definición histórica de Big Data, sus usos en desarrollo de productos, mantenimiento predictivo y experiencia del cliente.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 79

ANÁLISIS DE

DATOS
MANUELA ESCOBAR SIERRA
[email protected]
• Introducción a la Big Data
• Aplicaciones del Big Data
• Introducción a la Ciencia de Datos
• Softwares para ciencia de datos PROPÓSITO
• Fundamentos Python
• Actividad
• Introducción a la Big Data
• Aplicaciones del Big Data
• Introducción a la Ciencia de Datos
• Softwares para ciencia de datos PROPÓSITO
• Fundamentos Python
• Actividad
PROPUESTA 1
PROPUESTA 1
• Big data es un término que describe el
gran volumen de datos – estructurados y
no estructurados – que inundan una
empresa todos los días. Pero no es la
cantidad de datos lo importante. Lo que
importa es lo que las organizaciones
hacen con los datos. El big data puede ser
analizado para obtener insights que
conlleven a mejores decisiones y acciones
de negocios estratégicas.

https://www.sas.com/es_co/insights/big-data/what-is-big-data.html
PROPUESTA 1
• Volumen: Las organizaciones recopilan datos de diversas fuentes, como transacciones comerciales, dispositivos
inteligentes (IO), equipo industrial, vídeos, medios sociales y más. En el pasado, su almacenamiento habría sido un
problema - pero el almacenamiento más barato en plataformas como los data lakes y el Hadoop han aliviado la carga.
• Velocidad: Con el crecimiento del Internet de las Cosas, los datos llegan a las empresas a una velocidad sin
precedentes y deben ser manejados de manera oportuna. Las etiquetas RFID, los sensores y los medidores inteligentes
están impulsando la necesidad de manejar estos torrentes de datos en tiempo casi real.
• Variedad : Los datos se presentan en todo tipo de formatos: desde datos numéricos estructurados en bases de datos
tradicionales hasta documentos de texto no estructurados, correos electrónicos, vídeos, audios, datos de teletipo y
transacciones financieras.
• Variabilidad: Además de las crecientes velocidades y variedades de datos, los flujos de datos son impredecibles,
cambian a menudo y varían mucho. Es un reto, pero las empresas necesitan saber cuándo algo está de moda en los
medios sociales, y cómo gestionar los picos de carga de datos diarios, estacionales y desencadenados por eventos.
• Veracidad: La veracidad se refiere a la calidad de los datos. Debido a que los datos provienen de tantas fuentes
diferentes, es difícil vincular, comparar, limpiar y transformar los datos a través de los sistemas. Las empresas necesitan
conectar y correlacionar las relaciones, las jerarquías y los múltiples vínculos de datos. De lo contrario, sus datos
pueden salirse de control rápidamente.

https://www.sas.com/es_co/insights/big-data/what-is-big-data.html
PROPUESTA 2
PROPUESTA 2
• El Big Data es el análisis masivo de datos. Una cuantía de datos, tan sumamente grande, que las
aplicaciones de software de procesamiento de datos que tradicionalmente se venían usando no
son capaces de capturar, tratar y poner en valor en un tiempo razonable.
• Igualmente, el mismo término se refiere a las nuevas tecnologías que hacen posible el
almacenamiento y procesamiento, además de al uso que se hace de la información obtenida a
través de dichas tecnologías.

https://www.masterbigdataucm.com/que-es-big-data/
PROPUESTA 2
• La información disponible a nivel mundial han crecido de manera exponencial en los últimos
tiempos. Pero… ¿de dónde vienen esos datos? Hay múltiples fuentes. Destacaremos las
siguientes:
– Producidos por personas. Mandar un email, escribir un comentario en Facebook, contestar a una
encuesta telefónica, meter información en una hoja de cálculo, responder a un WhatsApp…
– Entre máquinas. Entre máquinas se comparten datos directamente, lo que se conoce como M2M,
que viene del inglés «machine to machine». Así, los termómetros, parquímetros y sistemas de riego
automático de las ciudades, los GPS de vehículos y teléfonos móviles..
– Biométricas. Los datos que tienen como origen artefactos como sensores, escáneres, lectores de
ADN o reconocimiento de voz.
– Marketing web. Nuestros movimientos en la Red están sujetos a todo tipo de mediciones que tienen
como objeto estudios de marketing y análisis de comportamiento. Por ejemplo, el rastreo del movimiento
del cursor por parte de los usuarios de una web, La detección de la posición de la página...
– Transacciones de datos. El traspaso de dinero de una cuenta bancaria a otra, la reserva de un billete de
avión o añadir un artículo a un carrito de compra virtual de un portal de comercio electrónico, serían
algunos ejemplos.
https://www.masterbigdataucm.com/que-es-big-data/
PROPUESTA 2

TIPOS DE DATOS SEGÚN


SU ESTRUCTURA

https://www.masterbigdataucm.com/que-es-big-data/
PROPUESTA 2

EL CICLO DE GESTIÓN DE
INFORMACIÓN EN 4 FASES

https://www.masterbigdataucm.com/que-es-big-data/
PROPUESTA 3
PROPUESTA 3
• Para entender qué significa realmente "big data", resulta útil conocer ciertos
antecedentes históricos. A continuación, ofrecemos la definición de Gartner, de
aproximadamente 2001 (y que continúa siendo la definición de referencia): Big data
son datos que contienen una mayor variedad y que se presentan en volúmenes
crecientes y a una velocidad superior. Esto se conoce como "las tres V".
• Dicho de otro modo, el big data está formado por conjuntos de datos de mayor
tamaño y más complejos, especialmente procedentes de nuevas fuentes de datos.
Estos conjuntos de datos son tan voluminosos que el software de procesamiento de
datos convencional sencillamente no puede administrarlos. Sin embargo, estos
volúmenes masivos de datos pueden utilizarse para abordar problemas empresariales
que antes no hubiera sido posible solucionar.

https://www.oracle.com/co/big-data/what-is-big-data/
PROPUESTA 3
• Casos de uso de big data

Desarrollo de productos

Mantenimiento predictivo

Experiencia del cliente

Fraude y cumplimiento

Aprendizaje autónomo

Eficiencia operativa

Impulse la innovación
https://www.oracle.com/co/big-data/what-is-big-data/
PROPUESTA 3
• Casos de uso de big data

Desarrollo de productos

Mantenimiento predictivo
Empresas como Netflix y Procter & Gamble
Experiencia usan big data para prever la
del cliente
demanda de los clientes. Construyen modelos predictivos para nuevos
Fraudeatributos
productos y servicios, clasificando y cumplimiento
clave de productos anteriores
y actuales, y modelando la relación entre dichos atributos y el éxito
Aprendizaje
comercial de las ofertas. Además, P&G autónomo
utiliza los datos y los análisis de
grupos de interés, redes sociales, mercados
Eficiencia de prueba y avances de salida
operativa
en tiendas para planificar, producir y lanzar nuevos productos.
Impulse la innovación
https://www.oracle.com/co/big-data/what-is-big-data/
PROPUESTA 3
• Casos de uso de big data

Desarrollo de productos

Mantenimiento predictivo

Experiencia del cliente


Los factores capaces de predecir fallas mecánicas pueden estar profundamente
Fraude(año
ocultos entre datos estructurados y cumplimiento
del equipo, marca o modelo de una
máquina) o entre datos no estructurados que cubren millones de entradas de
registros, datos de sensores, Aprendizaje autónomo
mensajes de error y temperaturas de motor. Al
analizar estos indicadores de problemas potenciales antes de que estos se
Eficiencia
produzcan, las organizaciones pueden operativa el mantenimiento de una
implementar
forma más rentable y optimizar el tiempo de servicio de componentes y equipos.
Impulse la innovación
https://www.oracle.com/co/big-data/what-is-big-data/
PROPUESTA 3
• Casos de uso de big data

Desarrollo de productos

Mantenimiento predictivo

Experiencia del cliente

Fraude y cumplimiento
La carrera por los clientes ya partió. Disponer de una vista clara de la experiencia del
cliente es más posible que nunca. El big data le permite
Aprendizaje autónomorecopilar datos de redes sociales,
visitas a páginas web, registros de llamadas y otras fuentes para mejorar la experiencia de
interacción, así como maximizar el valor ofrecido.
Eficiencia operativaEmpiece a preparar ofertas
personalizadas, reducir las tasas de abandono de los clientes y administrar las incidencias
de maneralaproactiva.
Impulse innovación
https://www.oracle.com/co/big-data/what-is-big-data/
PROPUESTA 3
• Casos de uso de big data

Desarrollo de productos

Mantenimiento predictivo

Experiencia del cliente

Fraude y cumplimiento

Aprendizaje
En lo que a seguridad se refiere, no se enfrentaautónomo
a simples hackers solitarios, sino a
equipos completos de expertos. Los contextos de seguridad y requisitos de conformidad
están en constante evolución. El big Eficiencia
data le ayudaoperativa
a identificar patrones en los datos que
pueden ser indicativos de fraude, al tiempo que concentra grandes volúmenes de
Impulse
información para agilizar la innovación
la generación de informes normativos.

https://www.oracle.com/co/big-data/what-is-big-data/
PROPUESTA 3
• Casos de uso de big data

Desarrollo de productos
El aprendizaje autónomo es un tema candente en la actualidad. Los datos,
concretamente big data, esMantenimiento
uno de los motivos de que así sea. Ahora, en
predictivo
lugar de programarse, las máquinas pueden aprender. Esto es posible
gracias a la disponibilidad deExperiencia del crear
big data para clientemodelos de aprendizaje
autónomo.
Fraude y cumplimiento

Aprendizaje autónomo

Eficiencia operativa

Impulse la innovación
https://www.oracle.com/co/big-data/what-is-big-data/
PROPUESTA 3
• Casos de uso de big data

Desarrollo de productos
Puede que la eficiencia operativa no sea la noticia más importante, pero es
Mantenimiento
el área en que big data tiene predictivoEl big data le permite
un mayor impacto.
analizar y evaluar la producción, la opinión de los clientes, las devoluciones
Experiencia del cliente
y otros factores para reducir las situaciones de falta de stock y prever la
demanda futura. El big data también
Fraude ypuede utilizarse para mejorar la toma
cumplimiento
de decisiones en función de la demanda de mercado del momento.
Aprendizaje autónomo

Eficiencia operativa

Impulse la innovación
https://www.oracle.com/co/big-data/what-is-big-data/
PROPUESTA 3
• Casos de uso de big data

Desarrollo de productos
El big data puede ayudarle a innovar mediante el estudio de las
interdependencias entre seres humanos,
Mantenimiento instituciones, entidades y
predictivo
procesos, y, posteriormente, mediante la determinación de nuevas
Experiencia
maneras de usar dicha información. del las
Utilice cliente
perspectivas que le ofrecen
los datos para mejorar susFraude
decisiones financieras y consideraciones de
y cumplimiento
planificación. Estudie las tendencias y lo que desean los clientes para
ofrecer nuevos productos Aprendizaje
y servicios. Implemente
autónomo políticas de precios
dinámicas. Las posibilidades son infinitas.
Eficiencia operativa

Impulse la innovación
https://www.oracle.com/co/big-data/what-is-big-data/
PROPUESTA 3
• Cómo funciona big data
• El big data le aporta nuevas perspectivas que abren paso a nuevas oportunidades y modelos de
negocio. Iniciarse en ello requiere de tres acciones clave:

Integre Administrar Analizar

• Durante la integración, • Puede almacenar sus • Comience con un


es necesario datos de cualquier análisis visual de sus
incorporar los datos, forma que desee e datos. Continúe
procesarlos y incorporar los explorándolos.
asegurarse de que requisitos de Comparta sus
estén formateados y procesamiento de su hallazgos. Construya
disponibles. preferencia y los modelos de datos con
motores. aprendizaje autónomo
e inteligencia artificial.
Ponga sus datos en
funcionamiento.

https://www.oracle.com/co/big-data/what-is-big-data/
PROPUESTA 3
• Prácticas recomendadas de big data
Alinear big data con objetivos empresariales específicos

Mitigue la escasez de habilidades con estándares y gobierno

Optimizar la transferencia de conocimientos con un centro de excelencia

La principal ventaja reside en alinear los datos estructurados y no estructurados

Planificar el laboratorio de hallazgos en pro del rendimiento

Alineación con el modelo operativo en la nube

https://www.oracle.com/co/big-data/what-is-big-data/
PROPUESTA 3
• Prácticas recomendadas de big data
Alinear big data con objetivos empresariales específicos

Mitigue la escasez de habilidades con estándares y gobierno


La disponibilidad de conjuntos de datos más amplios le permite realizar nuevos hallazgos. A tal efecto,
es importante basar las nuevas inversiones en habilidades, organización o infraestructura con un
Optimizarcontexto
marcado la transferencia de conocimientos
empresarial con un centro
para garantizar de excelenciaen la financiación e inversión en
la constancia
proyectos. Para determinar si se encuentra en el camino correcto, pregúntese en qué medida el big
data
La principal respalda
ventaja y alinear
reside en habilitalossus principales
datos prioridades
estructurados empresariales y de TI.
y no estructurados

Algunos ejemplos incluyen entender cómo filtrar los registros web para comprender el
Planificar el laboratorio de hallazgos en pro del rendimiento
comportamiento del comercio electrónico, extraer la percepción de las redes sociales y de las
interacciones de atención al cliente, así como entender los métodos de correlación estadística y su
Alineaciónrelevancia para
con el modelo los datos
operativo de clientes, productos, fabricación e ingeniería.
en la nube

https://www.oracle.com/co/big-data/what-is-big-data/
PROPUESTA 3
• Prácticas recomendadas de big data
Alinear big data con objetivos empresariales específicos

Mitigue la escasez de habilidades con estándares y gobierno

Optimizar la transferencia de conocimientos con un centro de excelencia


Uno de los mayores obstáculos para beneficiarse de su inversión en big data es la escasez de
habilidades. Puede mitigar el riesgo asegurándose de incorporar a su programa de gobierno de TI
tecnologías, consideraciones
La principal y decisiones
ventaja reside en alinear relativas a big
los datos estructurados y nodata. Normalizar su enfoque le permitirá
estructurados
administrar los costos y aprovechar los recursos. Las organizaciones que implementen soluciones y
estrategias de big
Planificar data deben
el laboratorio evaluarensus
de hallazgos pronecesidades
del rendimientode habilidades de forma temprana y frecuente, e
identificar de manera proactiva las posibles carencias de habilidades. Esto puede lograrse mediante la
capacitación regular o cruzada entre los recursos existentes, la contratación de nuevos recursos y el
Alineación con el modelo operativo en la nube
uso de empresas de consultoría.
https://www.oracle.com/co/big-data/what-is-big-data/
PROPUESTA 3
• Prácticas recomendadas de big data
Alinear big data con objetivos empresariales específicos

Mitigue la escasez de habilidades con estándares y gobierno

Optimizar la transferencia de conocimientos con un centro de excelencia

La principal ventaja reside en alinear los datos estructurados y no estructurados


Utilice un enfoque basado en un centro de excelencia para compartir conocimientos, supervisar el
control y administrar las comunicaciones de proyectos. Tanto si el big data es una inversión nueva o en
Planificar el laboratorio de hallazgos en pro del rendimiento
expansión, los costos directos e indirectos pueden distribuirse en toda la empresa. Utilizar este
enfoque puede contribuir a incrementar las capacidades de big data y la madurez del conjunto de la
Alineaciónarquitectura
con el modelode información
operativo de una forma más sistemática y estructurada.
en la nube

https://www.oracle.com/co/big-data/what-is-big-data/
PROPUESTA 3
• Prácticas recomendadas de big data
Alinear big data con objetivos empresariales específicos
El concepto "hallazgo" implica que los datos no siempre se obtienen directamente. En ocasiones, ni
siquiera sabemos qué estamos buscando. Eso es de esperar. La dirección y los equipos de TI deben
Mitigue la respaldar esta "faltacon
escasez de habilidades deestándares
dirección" o "falta de claridad en los requisitos".
y gobierno
Al mismo tiempo, es importante que analistas y científicos de datos colaboren estrechamente con la
empresaOptimizar
para entender las principales
la transferencia necesidades
de conocimientos y las carencias
con un centro de conocimientos de la empresa. Para
de excelencia
incorporar el estudio interactivo de los datos y la experimentación de algoritmos estadísticos, necesita
contar con áreas de trabajo de alto rendimiento. Asegúrese de que los entornos de pruebas (sandbox)
La principal ventaja
tienenreside en alinear
el apoyo quelosnecesitan
datos estructurados y no estructuradosgobernados.
y están correctamente

Planificar el laboratorio de hallazgos en pro del rendimiento

Alineación con el modelo operativo en la nube

https://www.oracle.com/co/big-data/what-is-big-data/
PROPUESTA 3
• Prácticas recomendadas de big data
Alinear big data con objetivos empresariales específicos

Los usuarios y procesos de big data requieren acceso a una amplia variedad de recursos de
Mitigue la escasez
experimentación de habilidades
reiterativa con estándares
y ejecución y gobierno
de tareas de producción. Una solución de big data incluye
todos los ámbitos de los datos, incluidas transacciones, datos principales, datos de referencia y datos
resumidos. Los entornos
Optimizar de pruebas
la transferencia (sandbox)
de conocimientos analíticos
con un centro dedeben crearse a pedido. La administración de
excelencia
recursos es fundamental para garantizar el control de todo el flujo de datos, incluido el procesamiento
previo y posterior, la integración, el resumen dentro de la base de datos y la creación de modelos
La principal ventaja reside en alinear los datos estructurados y no estructurados
analíticos. Disponer de una estrategia bien definida de aprovisionamiento y seguridad en la nube pública
y privada es fundamental para respaldar estos requisitos cambiantes.
Planificar el laboratorio de hallazgos en pro del rendimiento

Alineación con el modelo operativo en la nube

https://www.oracle.com/co/big-data/what-is-big-data/
• Introducción a la Big Data
• Aplicaciones del Big Data
• Introducción a la Ciencia de Datos
• Softwares para ciencia de datos PROPÓSITO
• Fundamentos Python
• Actividad
La compañía de referencia a nivel mundial, en lo que a
comercio electrónico se refiere, basa buena parte de su
éxito en conocer de antemano lo que necesitan sus
CASO 1: clientes. Así, es muy probable que si entras en la página de
esta empresa, te sugiera artículos que van a ser de gran
interés para ti. ¿Cómo? A través de la inteligencia de
datos analizan muchos factores de carácter individual del
usuario como sus hábitos de compra o intereses y otros
más generales como tendencias del momento o pautas
de conducta de otros usuarios que adquirieron
productos similares. Juntan todo en la coctelera del Big
Data y ofrecen una serie de productos sugeridos o
relacionados con compras que el cliente ya ha hecho o se
ha planteado hacer.

https://www.masterbigdataucm.com/que-es-big-data/
Uno de los grandes factores del éxito de la popular
empresa estadounidense Netflix, es su magistral uso de
los macrodatos para crear nuevos contenidos para sus
CASO 2: usuarios, cuyos hábitos de consumo y preferencias son
observados al detalle para descubrir qué es lo que van a
querer ver a continuación en base a patrones predictivos.
Así crearon, por ejemplo, la serie House of Cards:
observaron que a muchos de sus usuarios les gustaban
contenidos que incluyeran poder, política, drama y
sensualidad entre sus características principales.Y
también que les gustaba como actor Kevin Spacey. Así,
dieron con la fórmula y mezclaron en la trama todos
estos ingredientes poniendo a protagonizar a Spacey la
misma. Igual proceso para Stranger Things y otros
grandes éxitos de audiencia.

https://www.masterbigdataucm.com/que-es-big-data/
CASO 3: Esta empresa de telecomunicaciones alemana es un
ejemplo de uso de los datos masivos como mejor arma
de retención de clientes. Analizando a fondo las
conversaciones, reclamaciones y descontentos que sus
clientes dejaban en redes sociales, crearon soluciones
específicas para cada uno de ellos y consiguieron reducir
la fuga de clientes a otras empresas en un 50%, con lo
que el retorno de la inversión realizada en Big Data fue
compensado con creces.

https://www.masterbigdataucm.com/que-es-big-data/
Bajar hasta los datos individualizados más llamativos para
lanzar con ellos una campaña global masiva. Eso hizo en Reino
Unido la compañía sueca Spotify, que ofrece reproducción de
música vía streaming. Su plan consistió en buscar la
complicidad del gran público. Y lo consiguieron mostrando
CASO 4:
curiosidades o rarezas del comportamiento de algunos de sus
usuarios que habían detectado a través de los macrodatos. Así,
en grandes carteles publicitarios, colocaron anuncios como
estos:
«Querida persona que reprodujo “Sorry” 42 veces en el Día
de San Valentín, ¿qué hiciste?»
«Queridas 3.749 personas que reprodujeron “It’s the end of
the world as we know it” el día del Brexit, estamos con
vosotros»
«Querida persona en el Theater District que escuchó la banda
sonora de Hamilton 5.376 veces este año, ¿puedes
conseguirnos tickets?

https://www.masterbigdataucm.com/que-es-big-data/
Los dispositivos electrónicos de su línea NikePlus (relojes
inteligentes, pulsómetros, dispositivos con sensores que
conectan sus zapatillas con un teléfono…) recogen
cantidades masivas de información de millones de
CASO 5: usuarios. Información que sirve a la empresa de ropa
deportiva estadounidense para buscar la fidelización de
los usuarios a través de retos y objetivos que apelan a la
capacidad de superación de estos, creando un vínculo con
la marca más allá de la simple venta de material
deportivo.

https://www.masterbigdataucm.com/que-es-big-data/
El Big Data se ha convertido en los últimos años en una
herramienta muy útil dentro de los procesos electorales.
Permiten seguir el sentimiento de los electores y la
percepción que tienen los votantes sobre los candidatos
CASO 6: en cada momento, haciendo que las campañas se basen
en datos de una forma mucho más dinámica que antaño.
De hecho, la forma de hacer campaña cambia: ya no son
tan decisivos los grandes mítines, sino un acercamiento
mucho más segmentado que tiende a individualizar a los
votantes para conseguir llegar con un mensaje más
personal, cercano y directo a cada uno de ellos. Uno de
los grandes ejemplos del uso de la inteligencia de datos
en campaña electoral con éxito es el del político Barack
Obama para lograr su segundo mandato como
presidente de los Estados Unidos de América.

https://www.masterbigdataucm.com/que-es-big-data/
En el campo médico, hay múltiples avances que pueden
ser posibles gracias a los datos a gran escala. Podremos
CASO 7: un ejemplo de entre los numerosos estudios, técnicas y
procedimientos que gracias al Big Data están cambiando
para mejor los tratamientos sanitarios: el estudio del
material genético de los organismos, permite conocen
cómo funcionan los genes y su influencia en las
enfermedades. Analizando los genes de una persona a
través de los macrodatos, se puede aplicar de forma
individual una medicina preventiva mucho más eficaz, con
un diseño de tratamientos a la carta adaptados a cada
paciente.

https://www.masterbigdataucm.com/que-es-big-data/
EN COLOMBIA!
La plataforma Data Sandbox es un espacio colaborativo para las entidades
públicas del país, en donde se podrán realizar diferentes proyectos piloto de
Analítica y Big Data. La plataforma será empleada para explorar conjuntos
de datos de manera colaborativa e interactiva entre varios Usuarios del
Data Sandbox de una misma Entidad, con el fin de probar, experimentar,
ensayar y determinar soluciones aplicables en el contexto real a
problemáticas públicas y/o ciudadanas. Esta plataforma cuenta con altas
capacidades para el almacenamiento y procesamiento de datos
estructurados, no estructurados y semiestructurados, a través del uso de
tecnologías de Big Data.
CASO
COLOMBIA

https://sandbox.datos.gov.co/#!/inicio
CONPES
3920 DE 2018

https://colaboracion.dnp.gov.co/CDT/Conpes/Econ%C3%B3micos/3920.pdf
• Introducción a la Big Data
• Aplicaciones del Big Data
• Introducción a la Ciencia de
Datos PROPÓSITO
• Softwares para ciencia de datos
• Fundamentos Python
• Actividad
• La ciencia de datos combina múltiples campos que
PROPUESTA 1 incluyen estadísticas, métodos científicos y análisis de
datos para extraer el valor de los datos. Los practicantes
de la ciencia de datos se llaman científicos de datos y
C I E N C I A D E DATO S combinan una variedad de conocimientos para analizar los
datos recopilados de la web, de teléfonos inteligentes, de
clientes, sensores y otras fuentes.

https://www.oracle.com/co/data-science/what-is-data-science/
PROPUESTA 2
C I E N C I A D E DATO S

• Dicho esto, la ciencia de datos


(o data science, en inglés) es una
disciplina que emplea diversas
tecnologías y métodos como el
análisis big data y el business
intelligence para procesar y analizar
los datos recolectados por
cualquier organización, con el
propósito de detectar patrones y
tendencias que optimicen la toma
de decisiones estratégicas.

https://blog.lemontech.com/que-es-la-ciencia-de-datos/
PROPUESTA 3
C I E N C I A D E DATO S

Un científico de datos analiza, procesa y modela grandes cantidades de datos y luego interpreta los
resultados para crear planes prácticos para su organización.
Un científico de datos utiliza la programación, las estadísticas y las matemáticas, que se combinan con la
comprensión contextual, para descubrir soluciones a los desafíos comerciales.
Beneficios para las entidades y empresas
• Una empresa o entidad puede beneficiarse de contar con un científico de datos ya que puede hacer
uso de uno de sus activos más poderosos - sus datos - para tomar mejores decisiones y hacer que su
empresa sea más eficiente.
• Por ejemplo, un científico de datos puede ayudar a una empresa a comprender qué productos
prefiere cada tipo de cliente o a ahorrar dinero al planificar mejores rutas de entrega.

https://www.mintic.gov.co/micrositios/cienciadedatos/747/w3-channel.html
PROPUESTA 4
C I E N C I A D E DATO S

• La ciencia de datos es un campo


interdisciplinario que combina
aprendizaje automatizado,
estadística, análisis avanzado y
programación. Es una nueva
forma de arte que extrae
conocimientos ocultos y saca el
máximo provecho de los datos
en la era cognitiva.

https://www.ibm.com/analytics/mx/es/technology/data-science/
• Introducción a la Big Data
• Aplicaciones del Big Data
• Introducción a la Ciencia de Datos
• Softwares para ciencia de PROPÓSITO
datos
• Fundamentos Python
• Actividad
DEPENDIENDO DE LOS
REQUERIMIENTOS
C O N TA M O S C O N
DIFERENTES
H E R R A M I E N TA S
LAS CATEGORÍAS DE ESTAS
HERRAMIENTAS SON:

Bases de Herramientas
Bases de Marcos de big Herramientas Lenguajes de
datos de IDE
datos NoSQL data de scraping programación
relacionales visualización

https://geekflare.com/es/data-science-tools/
BASES DE DATOS RELACIONALES
• Una base de datos relacional es una colección de datos
Busquemos
estructurada en tablas con atributos. Las tablas se pueden
información
vincular entre sí, definiendo relaciones y restricciones, y
creando lo que se llama un modelo de datos. Para trabajar
adicional en
con bases de datos relacionales, normalmente utiliza un internet
lenguaje llamado SQL (lenguaje de consulta estructurado).
• Las aplicaciones que gestionan la estructura y los datos en
bases de datos relacionales se denominan RDBMS (Relational
SQL Server
DataBase Management Systems). Existen muchas de estas
aplicaciones, y las más relevantes han comenzado MySQL
recientemente a enfocarse en el campo de la ciencia de datos,
agregando funcionalidad para trabajar con repositorios de big PostgreSQL
data y para aplicar técnicas como el análisis de datos y el
aprendizaje automático.

https://geekflare.com/es/data-science-tools/
BASES DE DATOS NOSQL
• También conocido como bases de datos no relacionales, este
Busquemos
tipo de repositorio de datos proporciona un acceso más
información
rápido a estructuras de datos no tabulares. Algunos ejemplos
de estas estructuras son gráficos, documentos, columnas
adicional en
anchas, valores clave, entre muchos otros. internet
• Dado que no existe SQL en los almacenes de datos NoSQL,
la única forma de consultar este tipo de base de datos es
mediante el uso de lenguajes de bajo nivel, y no existe tal MongoDB
lenguaje que sea tan ampliamente aceptado como SQL.
Además, no existen especificaciones estándar para NoSQL. Es
por eso que, irónicamente, algunas bases de datos NoSQL
están comenzando a agregar soporte para scripts SQL.
Redis

https://geekflare.com/es/data-science-tools/
MARCOS DE BIG DATA
• Suponga que tiene que analizar los datos que generan los
Busquemos
usuarios de Facebook durante un mes. Estamos hablando de
información
fotos, videos, mensajes, todo. Teniendo en cuenta que cada día
sus usuarios añaden más de 500 terabytes de datos a la red
adicional en
social, es difícil medir el volumen que representa un mes internet
entero de sus datos.

• Para manipular esa enorme cantidad de datos de manera Hadoop


eficaz, necesita un marco adecuado capaz de calcular
estadísticas sobre una arquitectura distribuida. Hay dos de los
marcos que lideran el mercado: Hadoop y Spark. Spark

https://geekflare.com/es/data-science-tools/
HERRAMIENTAS DE VISUALIZACIÓN
• Manipular los datos transformándolos y filtrándolos, con el fin
Busquemos
de visualizarlos mejor.Y ahí es donde las herramientas de
información
visualización de datos entran en escena. Estas herramientas
toman datos preprocesados de múltiples fuentes y muestran
adicional en
sus verdades reveladas en formas gráficas y comprensibles. internet
• Hay cientos de herramientas que entran en esta categoría.
Nos guste o no, el más utilizado es Microsoft Excel y sus
herramientas de gráficos. Los gráficos de Excel son accesibles
Power BI
para cualquier persona que use Excel, pero tienen una
funcionalidad limitada. Lo mismo se aplica a otras aplicaciones Cuadro
de hojas de cálculo, como Google Sheets y Libre Office. Pero
estamos hablando aquí de herramientas más específicas, QlikView
especialmente diseñadas para inteligencia empresarial (BI) y
análisis de datos.

https://geekflare.com/es/data-science-tools/
HERRAMIENTAS DE RASPADO
Busquemos
• En los tiempos en que Internet estaba emergiendo,
información
los rastreadores web comenzaron a viajar junto adicional en
con las redes para recopilar información a su paso. internet
A medida que la tecnología evolucionó, el término
rastreo web cambió por web scraping, pero con el Octoparse
mismo significado: extraer automáticamente
información de sitios web. Para hacer web scraping, Capturador de contenido -
Content Grabber
utiliza procesos automatizados, o bots, que saltan
de una página web a otra, extrayendo datos de
ParseHub
ellos y exportándolos a diferentes formatos o
insertándolos en bases de datos para su posterior
Webscraper.io
análisis.
https://geekflare.com/es/data-science-tools/
LENGUAJES DE PROGRAMACIÓN
• Al igual que el lenguaje SQL mencionado anteriormente está
Busquemos
diseñado específicamente para trabajar con bases de datos
información
relacionales, existen otros lenguajes creados con un enfoque
claro en la ciencia de datos. Estos lenguajes permiten a los
adicional en
desarrolladores escribir programas que se ocupen de análisis internet
de datos masivos, como estadísticas y máquina de
aprendizaje.
• SQL también se considera una habilidad importante que los
desarrolladores deberían tener para hacer ciencia de datos,
Python
pero eso se debe a que la mayoría de las organizaciones
todavía tienen muchos datos en bases de datos relacionales.
Los lenguajes de ciencia de datos “verdaderos” son R y R
Python.

https://geekflare.com/es/data-science-tools/
IDES
• Si está considerando seriamente dedicarse a la ciencia Busquemos
de datos, deberá elegir cuidadosamente un entorno de información
desarrollo integrado (IDE) que se adapte a sus adicional en
necesidades, porque usted y su IDE pasarán mucho internet
tiempo trabajando juntos.
• Un ideal IDE debe reunir todas las herramientas que
Spyder
necesita en su trabajo diario como codificador: un
editor de texto con resaltado de sintaxis y PyChar
autocompletado, un depurador potente, un navegador
de objetos y fácil acceso a herramientas externas. Rstudio
Además, debe ser compatible con el idioma de tu Anaconda
preferencia, por lo que es una buena idea elegir tu IDE
luego de saber qué idioma usarás.
https://geekflare.com/es/data-science-tools/
LAS CATEGORÍAS DE ESTAS
HERRAMIENTAS SON:
Nos enfocaremos en estas tres categorías de
herramientas

Bases de datos Bases de datos Marcos de big Herramientas Herramientas Lenguajes de


IDE
relacionales NoSQL data de visualización de scraping programación

https://geekflare.com/es/data-science-tools/
• Introducción a la Big Data
• Aplicaciones del Big Data
• Introducción a la Ciencia de Datos
• Softwares para ciencia de datos PROPÓSITO
• Fundamentos Python
• Actividad
Python es un lenguaje de programación interpretado, orientado a
QUE ES objetos, de alto nivel y con semántica dinámica. Sus estructuras de datos de
alto nivel, combinadas con la tipificación dinámica y la vinculación dinámica,
PYTHON? lo hacen muy atractivo para el desarrollo rápido de aplicaciones, así
como para su uso como lenguaje de scripting o pegamento para conectar
componentes existentes. La sintaxis de Python, sencilla y fácil de
aprender, hace hincapié en la legibilidad y, por tanto, reduce el coste de
mantenimiento de los programas. Python admite módulos y paquetes, lo
que fomenta la modularidad del programa y la reutilización del código. El
intérprete de Python y la extensa biblioteca estándar están disponibles en
forma de código fuente o binario sin coste alguno para las principales
plataformas, y pueden distribuirse libremente.
A menudo, los programadores se enamoran de Python por la mayor
QUE ES productividad que proporciona. Como no hay ningún paso de compilación, el
ciclo de edición-prueba-depuración es increíblemente rápido. La depuración de

PYTHON? los programas de Python es fácil: un error o una entrada incorrecta nunca
provocará un fallo de segmentación. En cambio, cuando el intérprete descubre
un error, lanza una excepción. Cuando el programa no atrapa la excepción, el
intérprete imprime un seguimiento de la pila. Un depurador a nivel de
fuente permite la inspección de variables locales y globales, la evaluación de
expresiones arbitrarias, el establecimiento de puntos de interrupción, el paso a
través del código línea por línea, etc. El depurador está escrito en el propio
Python, lo que demuestra el poder introspectivo de Python. Por otra parte, a
menudo la forma más rápida de depurar un programa es añadir unas cuantas
sentencias de impresión al código fuente: el rápido ciclo de edición-prueba-
depuración hace que este sencillo enfoque sea muy eficaz.
1.
INSTAL ACIONES
A N AC O N DA
2. CREACIÓN DE
USUARIOS
GITHUB
• GitHub es una forja
para alojar proyectos
utilizando el sistema de
control de versiones
Git. Se utiliza
principalmente para la
creación de código
fuente de programas
de ordenador. El
software que opera
GitHub fue escrito en
Ruby on Rails. Desde
enero de 2010, GitHub
opera bajo el nombre
de GitHub, Inc
3. SOPORTE EN
LÍNEA
S TA C K O V E R F L O W
• Stack Overflow es un sitio
de preguntas y respuestas
para programadores
profesionales y aficionados.
Es el sitio emblemático de
la red Stack Exchange,
creado en 2008 por Jeff
Atwood y Joel Spolsky.
Contiene preguntas y
respuestas sobre una
amplia gama de temas de
programación
• Introducción a la Big Data
• Aplicaciones del Big Data
• Introducción a la Ciencia de Datos
• Softwares para ciencia de datos PROPÓSITO
• Fundamentos Python
• Actividad
ACTIVIDAD
C A D A E S T U D I A N T E D E B E I N S TA L A R L O S
P ROG RAM AS Y C REAR L OS USUARI OS

También podría gustarte