Data Science en Coderhouse
Data Science en Coderhouse
Cloud: tendencia en data science. Nos permite ampliar capacidades para herramientas y
tecnologias.
Nosotros somos clientes. Luego nos conectamos a servicio, o en otro servidor que no
necesariamente esta en nuestra casa.
Permite acceder mediante un sistema remoto, al software de procesamiento de datos y
almacenamiento de archivos.
Ej: acceder a drive, email.
Tipos:
Nube publica: Google, AWS, Microsoft Azure disponibilizan servicios como drive. Accedemos al
software final.
Nube privada: propios servidores. Mi propio centro de datos.
Beneficios:
- Abaratamiento de costos
- Inmediatez: puedo acceder a múltiples RAM
- Capacidad de proceso
- Concurrencia: si quisiéramos compartir ese notebook, se lo podemos enviar y lo puede
trabajar en su jupyter local. archivos centralizados, trabajar en forma paralela
- Seguridad: info centralizada y no repartida en distintas partes
Desventajas in-house:
- Elasticidad: falta de elasticidad y escalabilidad. Estructura estática, no es fácil volverla
escalar. Si mas personas quieren acceder es un problema
- Costos de infraestructura: muy grandes al principio, instalación. Depende de
proveedor.
- Personal altamente capacitado: que conozca bien de infraestructura con conocimiento
alto. Que sepa administrar correctamente la infraestructura. Ya tienen sus propios
administradores.
IaaS: Imaginemos que alguien nos da una infraestructura en donde vamos a tener todas las
computadoras, servidores. Tendremos hardware en donde podemos hacer procesos como se
necesita. Contrato cubre hardware, no incluye software y nosotros trabajamos en esa
infraestructura. Tendremos gente que administre recursos.
PaaS: Tendremos serie de herramientas diferenciales. Contratamos infraestructura y entorno
en el cual nosotros podemos trabajar. Puede ser sistema operativo, plataforma en la cual
podemos trabajar, pero no vamos a tener software puntualmente. Podemos hacer desarrollos
a través de plataforma.
SaaS: es un Google sheet por ejemplo. Es como un Excel pero de Google en la nube. Nosotros
no tenemos que instalar nada. Hacemos el uso del software con capacidades que tiene, como
con Google colab. Un tableau en la nube, power bi en nube. Hacemos uso del software
inmediatamente. Nosotros no lo administramos pero pagamos para acceder a ese software.
Proveedores:
AWS: Tiene una gran variedad de servicios de infraestructura.
Azure: la ventaja es la rapidez.
Google cloud platform
¿Cuál elegir?
Requerimientos del negocio.
Costos.
BIG DATA
Colección de grandes volúmenes de datos y complejos, difíciles de procesar y gestionar por
herramientas tradicionales.
Hive: software que facilita leer, escribir, manejar largos conjuntos de datos. Funciona con
algoritmo mapreduce. MR es un modelo de programación que facilita
ETL: proceso de compilación de datos a partir de un numero ilimitado de fuentes, su posterior
organización y su carga en un repositorio.
Pentaho: herramienta open source utilizada y conocida. Funciona de forma grafica. Permite
hacer analítica de datos. Tiene herramientas adicionales como ingeniería y análisis de datos.
SQL server