Curso 3 Analisis de Datos
Curso 3 Analisis de Datos
Curso 3 Analisis de Datos
Exploración de datos
VIDEO: Introducción a la exploración de datos
Imagínate esto: Te encuentras trabajando en un proyecto. Ya has formulado todas las preguntas correctas, has aplicado el
pensamiento estructurado y te encuentras en completa sincronización con los interesados. Estás listo para un gran comienzo.
Pero existe otro paso en el proceso: preparar los datos correctamente. Aquí es donde hay que comprender los diferentes
tipos de datos y las estructuras de datos. Al conocer esto, puedes imaginar qué tipo de datos son correctos para la pregunta
que estás respondiendo. Además, adquirirás habilidades prácticas sobre cómo extraer, utilizar organizar y proteger los datos.
Hola, mi nombre es Hallie y soy directora de análisis de datos en Google. Trabajo con empresas de la industria del cuidado de
la salud. Es un gran gusto darte la bienvenida a este curso. Han estado trabajando en sus habilidades para el análisis de datos
en diversas formas hasta ahora. Han aprendido cómo formular las preguntas correctas, definir el problema y presentar su
análisis de modo tal que coincida con las necesidades de los interesados. En otras palabras, han aprendido a contar una
historia utilizando datos.
Ahora van a aprender más acerca de los datos que necesitan para contar la mejor historia posible. Pero antes de eso, quiero
contarles mi historia. Utilizo el análisis computacional de datos para ayudar a las empresas de salud a desarrollar soluciones
de marketing digital que robustezcan a las empresas y a sus marcas comerciales. Mi equipo y yo buscamos empresas y
oportunidades en los medios de comunicación basadas en las informaciones más recientes de la industria y los datos. He
trabajado en el área de salud por unos cinco años y es maravilloso. Realmente disfruto de poder utilizar los datos para iniciar
un cambio en una industria tan importante. Como descubrirás en este curso, los datos pueden ser el personaje principal en
una historia muy poderosa. Realmente amo utilizar el análisis para contar la historia de un modo convincente e informativo.
Aquí tenemos un ejemplo de la vida real sobre cómo he utilizado los datos para contar una historia. En mi trabajo, analizamos
los datos de afiliación a Medicare a través del tiempo y realizamos conexiones sobre cómo las personas buscan los planes de
Medicare en Google. Las personas de 65 años de edad o más se convierten en decisores informados en cuanto a su salud,
entonces yo utilizo los datos para saber si existe un incremento en las afiliaciones a Medicare y qué rol juegan las búsquedas
en Google si hay un incremento en la demanda. Es muy importante que me asegure de que los datos sean importantes y
válidos. También hay que prestar atención a las preguntas acerca del acceso y equidad mientras se respeta la privacidad de
los que realizan las búsquedas. El final feliz de mi historia es que los datos en mis hallazgos son útiles para los profesionales
médicos y sus pacientes. Existen muchos datos útiles disponibles y estás desarrollando las habilidades necesarias para
encontrar y utilizar los datos correctos de la mejor forma posible. En este curso, continuarás afinando esas habilidades. De
modo que ya escuchaste mucho acerca de los pasos del proceso del análisis de datos: preguntar, preparar, procesar, analizar,
compartir y actuar. Ahora, es momento de aprender cómo preparar los datos. Aprenderás a identificar cómo se generan y se
recolectan los datos y explorarás diferentes formatos, tipos y estructuras de datos. Nos aseguraremos de que sepas cómo
elegir y utilizar los datos que te ayudarán a comprender y responder a un problema empresarial. Y como no todos los datos
satisfacen cada necesidad, aprenderás cómo analizar los datos para buscar el sesgo y la credibilidad. También exploraremos
qué significa datos limpios. Pero espera, hay más. También tendrás un acercamiento personal a las bases de datos.
Hablaremos sobre qué son y cómo las utilizan los analistas. Hasta podrás extraer tus propios datos de una base de datos
utilizando un par de herramientas con las que ya estás familiarizado: hojas de cálculo y SQL.
La clave aquí es la paciencia. Como todo lo que vale la pena hacer, esto toma tiempo y práctica. Y estaré contigo en cada paso
del camino. ¿Me sigues? Excelente. Las últimas pocas cosas de las que hablaremos son las bases de la organización de datos y
el proceso de protección de datos. Los datos funcionan mejor cuando están organizados. Y si estás organizando tus datos,
querrás protegerlos. Te mostraré cómo hacer ambas cosas y aplicarlo a tu propio análisis. Me complace mucho ayudarte a
escribir tu propia historia personal a medida que continuamos explorando el mundo del análisis computacional de datos. Así
que, manos a la obra.
Como analista de datos, debes ser un experto en estructurar, extraer y asegurarte de que los datos con los que trabajas
son confiables. Para ello, siempre es mejor desarrollar una idea general de cómo se generan y recogen todos los datos,
ya que cada organización estructura los datos de forma diferente. Así, sea cual sea la estructura de datos a la que te
enfrentes en tu nuevo puesto, te sentirás seguro trabajando con ella.
Pronto descubrirás que cuando se extraen los datos, no son perfectos. Pueden ser sesgados en lugar de creíbles, o
estar sucios en lugar de depurados. Tu objetivo es aprender a analizar los datos en busca de sesgos y credibilidad y
entender lo que significan los datos depurados. También te acercarás a las bases de datos e incluso podrás extraer tus
propios datos de una base de datos utilizando hojas de cálculo y SQL. Los últimos temas tratados son los fundamentos
de la organización de datos y el proceso de protección de ellos.
Además, aprenderás a identificar los diferentes tipos de datos que pueden utilizarse para entender y responder a un
problema empresarial. En esta parte del programa, explorarás diferentes tipos de datos y estructuras de datos. Y lo
mejor de todo es que seguirás ampliando tu caja de herramientas de analista de datos. Desde la extracción y el uso de
datos, hasta su organización y protección, estas habilidades clave te serán útiles independientemente de lo que hagas
en tu carrera como analista de datos.
1. Entender los tipos y las estructuras de datos: Todos generamos muchos datos en nuestra vida cotidiana. En esta
parte del curso, comprobarás cómo generamos datos y cómo los analistas deciden qué datos recoger para su
análisis. También aprenderás sobre los datos estructurados y no estructurados, los tipos de datos y los formatos
de datos mientras empiezas a pensar en cómo preparar tus datos para la exploración.
2. Entender el sesgo, la credibilidad, la privacidad, la ética y el acceso: Cuando los analistas de datos trabajan con
datos, siempre verifican que los datos sean imparciales y creíbles. En esta parte del curso, aprenderás cómo
identificar distintos tipos de sesgos en los datos y cómo garantizar la credibilidad de tus datos. También
explorarás los datos abiertos y la relación que existe entre la importancia de la ética de datos y la privacidad de
datos.
3. Bases de datos: Donde viven los datos: Cuando analices datos, accederás a gran parte de los datos de una base
de datos. Es donde viven los datos. En esta parte del curso, aprenderás todo sobre las bases de datos, incluso
la forma de acceder a ellas y de extraer, filtrar y ordenar los datos que contienen. También le echarás un vistazo
a los metadatos para descubrir los diferentes tipos y cómo los usan los analistas.
4. Organizar y proteger tus datos: Tener un buen nivel de organización es una parte importante de la mayoría de
los trabajos, y el análisis computacional de datos no es diferente. En esta parte del curso, aprenderás las
prácticas recomendadas para organizar los datos y mantenerlos seguros. También aprenderás cómo los
analistas usan las convenciones de nomenclatura de archivos para poder mantener su trabajo organizado.
5. Participar en la comunidad de datos (opcional): Tener una fuerte presencia en línea puede ser de gran ayuda
para los solicitantes de empleo de todo tipo. En esta parte del curso, explorarás cómo gestionar tu presencia en
línea. También descubrirás los beneficios de la creación de redes con otros profesionales del análisis
computacional de datos.
6. Completar el Desafío del curso: Al final de este curso, podrás poner en práctica todo lo que has aprendido con el
Desafío del curso. El Desafío del curso te hará preguntas sobre los conceptos clave y luego te dará la
oportunidad de ponerlos en práctica a través de dos escenarios.
Qué esperar
Esta parte del programa está diseñada para que te familiarices con diferentes estructuras de datos y para mostrarte
cómo recopilar, aplicar, organizar y proteger los datos. Todas estas habilidades formarán parte de tus tareas diarias
como analista de datos de nivel inicial. Trabajarás en una amplia gama de actividades que son similares a las tareas de
la vida real que los analistas de datos se encuentran a diario.
Este curso tiene cinco módulos o semanas, y cada uno tiene varias lecciones incluidas. Dentro de cada lección,
encontrarás contenidos como:
Como recordatorio rápido, este curso está diseñado para todo tipo de estudiantes, sin necesidad de un título o
experiencia previa. Todos aprenden de manera diferente, por lo que el Certificado de análisis computacional de datos
de Google se diseñó teniendo eso en cuenta. Los plazos personalizados son solo una guía, así que siéntete libre de
trabajar a tu propio ritmo. No se penalizan las entregas tardías de las tareas. Si lo prefieres, puedes ampliar los plazos
volviendo a Descripción general en el panel de navegación y haciendo clic en Cambiar sesión. Si no cumpliste con plazos
anteriores, haz clic en Restablecer mis plazos.
Si deseas revisar el contenido anterior u obtener un adelanto del próximo contenido, puedes usar los enlaces de
navegación en la parte superior de esta página para ir a otro curso del programa. Cuando apruebes todas las
asignaciones requeridas, estarás en camino de obtener tu certificado.
Vía rápida opcional para aquellos con experiencia en análisis computacional de datos
El Certificado de análisis computacional de datos de Google proporciona instrucciones y comentarios para los alumnos
que esperan obtener un puesto como analista de datos de nivel básico. Si bien muchos alumnos serán completamente
nuevos en el mundo del análisis computacional de datos, es probable que otros estén familiarizados con el campo y
simplemente quieran repasar ciertas habilidades.
Si crees que este curso será principalmente un repaso para ti, te recomendamos que realices el cuestionario de
diagnóstico de práctica que se ofrece esta semana. Te permitirá determinar si debes seguir la vía rápida, que es una
oportunidad para continuar con el Curso 4 después de haber tomado cada uno de los desafíos semanales del Curso 3 y
el Desafío del curso. Los alumnos que obtengan una puntuación del 100% en el cuestionario de diagnóstico pueden
considerar los videos, las lecturas y las actividades del Curso 3 como opcionales. Los alumnos que sigan la vía rápida
igual podrán obtener el certificado.
Consejos
Haz lo posible por completar todos los elementos en orden. Toda la información nueva se basa en lo aprendido
anteriormente.
Trata cada tarea como si fuera una experiencia del mundo real. Piensa que estás trabajando en una empresa o
en una organización como analista de datos. Esto te ayudará a aplicar lo que aprendes en este programa en el
mundo real.
Aunque no se califiquen, es importante completar todos los elementos de práctica. Te ayudarán a construir una
base sólida como analista de datos y te prepararán mejor para las evaluaciones calificadas.
Aprovecha todos los recursos adicionales proporcionados
Cuando encuentres enlaces útiles en el curso, recuerda agregarlos a tus marcadores para que puedas consultar
después la información y estudiarla o revisarla.
Si eres nuevo en el análisis computacional de datos, puedes omitir el cuestionario de diagnóstico después de esta lectura y
pasar directamente a la siguiente actividad: Recopilación de datos en nuestro mundo.
El Certificado de análisis computacional de datos de Google es un programa para cualquier persona. No es necesario
contar con conocimientos previos sobre el análisis de datos, pero puede que ya tengas experiencia. Si eres este tipo de
alumno, hemos diseñado una vía rápida para este curso. Los alumnos que opten por la vía rápida pueden repasar los
temas básicos y completar cada uno de los desafíos semanales y el Desafío del curso más rápido.
Recopilar Datos:
VIDEO: Recopilar datos en nuestro mundo
Justo ahora se están generando datos en todo el mundo y hablamos de toneladas de datos. Cada minuto de cada día millones
de textos son enviados y cientos de millones de correos electrónicos. Además de eso, se realizan millones de búsquedas en
línea y se miran millones de videos y esos números van en aumento. Son muchos datos. Aprendamos más acerca de cómo se
hacen y se utilizan. En este video, hablaremos sobre las formas en que los datos pueden generarse y cómo las industrias
recopilan datos por su propia cuenta. Cada pieza de información es un dato. Todos los datos se generan usualmente como
resultado de nuestra actividad en el mundo. Hoy en día, pasamos mucho tiempo en línea. Con las redes sociales y los
dispositivos móviles millones y millones de personas están agregando enormes cantidades de datos todos y cada uno de los
días. Piénsalo así. Cada foto digital en línea es una pieza de información. Cada foto en sí misma contiene todavía más datos,
desde la cantidad de píxeles hasta los colores que contiene cada uno de esos píxeles. Pero ese no es el único modo en que se
generan los datos. También se pueden generar datos al recolectar información. Esta generación de datos y su recolección
traen aparejadas algunas cosas más en que pensar. Necesita ser realizado teniendo en cuenta la ética, de modo de mantener
los derechos y la privacidad de las personas. Aprenderemos más al respecto más adelante. Por ahora, veamos un ejemplo del
mundo real. La Oficina del Censo de los Estados Unidos utiliza formularios para recolectar datos acerca de la población del
país. Estos datos son utilizados por distintas razones, como financiar escuelas, hospitales y cuarteles de bomberos. La Oficina
también recolecta información sobre otras cosas como las empresas estadounidenses, y crean sus propios datos en el
proceso. Lo mejor acerca de esto es que otros pueden utilizar los datos para sus propias necesidades, incluyendo el análisis.
La encuesta anual de empresas se utiliza para conocer las necesidades de las empresas y cómo brindarles los recursos
necesarios para ayudarlas a tener éxito. En realidad, yo genero datos en el análisis computacional de datos que realizo para la
industria de cuidado de la salud. Realizamos muchas encuestas para conocer cómo los pacientes se sienten acerca de ciertas
cosas relacionadas con el cuidado de su salud. Por ejemplo, una encuesta les preguntó a los pacientes cómo se sentían acerca
de la telemedicina comparada con las visitas en persona al médico. Los datos recolectados ayudaron a las empresas con las
que trabajamos a que mejorasen el cuidado que reciben los pacientes. Los datos de la encuesta son solo un ejemplo. Existen
todo tipos de datos que se generan todo el tiempo, y existen muchos modos diferentes de recolectarlos. Incluso algo tan
simple como una entrevista puede ayudar a alguien a recolectar datos. Imagínate que estás en una entrevista de trabajo. Para
impresionar al gerente de contrataciones, quieres compartir información acerca de ti mismo. El gerente de contrataciones
recolecta los datos y los analiza para que lo ayuden a decidir si te contratará o no. Es un camino de ida y vuelta. Tú también
recolectas tus propios datos acerca de la empresa para que te ayude a decidir si es la empresa que mejor se adapta a tus
necesidades. O puedes utilizar los datos recolectados para pensar preguntas más profundas que desees hacerle al
entrevistador. Los científicos también generan datos. Utilizan muchas observaciones en su trabajo. Por ejemplo, pueden
recolectar datos al estudiar el comportamiento animal u observando bacterias bajo el microscopio. Antes hablamos de los
formularios que la Oficina del Censo de los Estados Unidos utiliza para recolectar datos. Formularios, cuestionarios y
encuestas son formas usuales de recolectar y generar datos. Una cosa para destacar: los datos que son generados en línea no
siempre ocurren directamente. ¿Alguna vez se han preguntado por qué algunos avisos en línea parecen realizar sugerencias
realmente precisas o cómo algunos sitios web recuerdan tus preferencias? Esto se realiza utilizando cookies, que son
pequeños archivos guardados en computadoras que contienen información de los usuarios. Las cookies pueden ayudar a
informar a los publicitarios acerca de sus intereses personales y sus hábitos basándose en la navegación en línea, sin
identificarlos personalmente. Como analista del mundo real, tienes todo tipo de datos justo en la punta de los dedos y son
realmente abundantes. Saber cómo se han generado puede ayudar a agregar contexto a los datos, y saber cómo recopilarlos
puede hacer que el proceso de análisis de datos sea más eficiente. A continuación, aprenderás cómo decidir qué datos
recolectar para tu análisis. Mantente atento.
Ahora sabes más sobre las diferentes consideraciones sobre la recopilación de datos que utilizarás como analistas de datos,
Debido a ello, podrás encontrar los datos correctos cuando comiences a recopilarlos por ti mismo. Y todavía hay más para
aprender acerca de la recopilación de datos, así que mantente en sintonía.
Fuentes de datos:
Si no recoges los datos con tus propios recursos, puedes obtenerlos de proveedores de datos de segunda mano o de
terceros. Los datos de segunda fuente son recogidos directamente por otro grupo y luego vendidos. Los datos de terceros
son vendidos por un proveedor que no ha recogido los datos por sí mismo. Los datos de terceros pueden proceder de
distintas fuentes.
Marco temporal:
Si estás recopilando tus propios datos, decide cuánto tiempo necesitarás para recopilarlos, especialmente si estás
haciendo un seguimiento de las tendencias durante un largo periodo de tiempo. Si necesitas una respuesta
inmediata, puede que no tengas tiempo para recoger datos nuevos. En este caso, tendrás que utilizar los datos
históricos que ya existen.
Utiliza el siguiente diagrama de flujo si la recogida de datos depende en gran medida del tiempo que tengas:
CUESTIONARIO:
Pregunta 1
Pregunta 2
Organizaciones como los Centros para el Control de Enfermedades (CDC) de EE. UU. suelen utilizar datos
recopilados en hospitales. ¿Qué tipo de datos utilizan los CDC si son recopilados por los hospitales y luego
vendidos a los CDC para su propio análisis?
1. Datos de primera fuente
2. Datos de múltiples fuentes
3. Datos de segunda fuente
4. Datos de terceros
Correcto.Los datos recopilados por los hospitales y luego recogidos por los CDC son un ejemplo de datos de segunda
fuente.
Pregunta 3
Completa el espacio en blanco: En el análisis computacional de datos, un/a _____ se refiere a todos los valores
de datos posibles en un determinado conjunto de datos.
1. Población
2. Fuente
3. Representación
4. Muestra
Correcto. En el análisis computacional de datos, una población se refiere a todos los valores de datos posibles en un
determinado conjunto de datos.
Ahora, hablemos de los datos internos. que son los datos que viven dentro de los propios sistemas de una empresa. Por
ejemplo, si un estudio cinematográfico ha compilado todos los datos en la hoja de cálculo utilizando su propio método de
recolección, entonces serían sus datos internos. Lo importante de los datos internos es que por lo general son más confiables
y fáciles de recolectar, pero en esta hoja de cálculo hay más posibilidades de que el estudio cinematográfico deba utilizar
datos propios o compartidos por otros estudios y fuentes porque incluyen películas que ellos no han filmado. Esto significa
que estarían recolectando datos externos. Los datos externos son, ya lo adivinaron, datos alojados y generados fuera de una
organización. Los datos externos se tornan especialmente valiosos cuando tus análisis dependen de todas las fuentes
disponibles posibles. Algo importante acerca de estos datos es que son estructurados. Los datos estructurados son datos que
se organizan en un formato determinado, como filas y columnas. Las hojas de cálculo y las bases de datos relacionales son
dos ejemplos de software que pueden almacenar datos de modo estructurado. Podrás recordar nuestra exploración anterior
sobre el pensamiento estructurado, que colabora sumando un framework al problema de modo que puede resolverse de
modo organizado y lógico. Puedes pensar en los datos estructurados del mismo modo. Con un framework para los datos, los
datos son fácilmente rastreables y están más preparados para el análisis. Como analista de datos, trabajarás con muchos
datos estructurados, que usualmente vendrán en forma de tabla, hoja de cálculo o base de datos relacional, pero a veces te
encontrarás con datos no estructurados. Estos datos no están organizados de una forma fácilmente identificable. Los
archivos de audio y video son ejemplos de datos no estructurados porque no hay un modo claro para identificar y organizar el
contenido. Los datos no estructurados pueden contar con una estructura interna, pero los datos no se ubican prolijamente en
filas y columnas como los datos estructurados.
¡Ahí lo tienes! Espero que ahora estés más familiarizado con los formatos de datos y cómo puedes usarlos en tu trabajo. En
breve, continuarás explorando los datos estructurados y aprenderás aún más de los datos que utilizarás más frecuentemente
como analista. Próximamente en el cine más cercano a ti.
Los formatos de datos en la práctica
Cuando se piensa en la palabra "formato", pueden venir a la mente muchas cosas. Piensa en un anuncio de tu tienda
favorita. Podrías encontrarlo en forma de anuncio impreso, en una valla publicitaria o incluso en un comercial. La
información se presenta en el formato que mejor te convenga para asimilarla. El formato de un conjunto de datos es
muy parecido, y la elección del formato adecuado te ayudará a gestionar y utilizar tus datos de la mejor manera posible.
Primarios vs secundarios
la siguiente tabla destaca las diferencias entre los datos primarios y secundarios y los ejemplos de cada uno de ellos
Clasificación del
Definición Ejemplos
formato de datos
Recogidos por un investigador - Datos de una entrevista que has realizado - Datos de una encuesta
Datos primarios a partir de fuentes de primera realizada a 20 participantes - Datos de cuestionarios que has recibido
mano de un grupo de trabajadores
Recogidos por otras personas - Datos que compró de los perfiles de clientes de una empresa local d
Datos secundarios o a partir de otras análisis computacional de datos - Datos demográficos recogidos por
investigaciones una universidad - Datos del censo recogidos por el gobierno federal
la siguiente tabla destaca las diferencias entre los datos internos y externos y los ejemplos de cada uno de ellos
Clasificación del
Definición Ejemplos
formato de datos
Datos alojados en los -Salarios de los empleados de las distintas unidades de negocio
Datos internos sistemas propios de una controlados por RR. HH. - Datos de ventas por ubicación de la tienda -
empresa Niveles de inventario de productos en los centros de distribución
Datos que viven fuera de
- Salarios medios nacionales para los distintos puestos de su organización
Datos externos una empresa u
- Informes de crédito de los clientes de un concesionario de automóviles
organización
la siguiente tabla destaca las diferencias entre los datos continuos y discretos y los ejemplos de cada uno de ellos
Clasificación del
Definición Ejemplos
formato de datos
Datos que se miden y que pueden - Altura de los niños en las clases de tercer grado (52,5 pulgadas
Datos continuos tener casi cualquier valor 65,7 pulgadas) - Marcadores de tiempo de ejecución en un video
numérico - Temperatura
Datos discretos Datos que se cuentan y tienen un - Cantidad de personas que visitan un hospital a diario (10, 20,
Clasificación del
Definición Ejemplos
formato de datos
200) - Capacidad máxima permitida de la sala - Entradas
número limitado de valores
vendidas en el mes en curso
la siguiente tabla destaca las diferencias entre los datos cualitativos y cuantitativos y los ejemplos de cada uno de ellos
Clasificación del
Definición Ejemplos
formato de datos
- Actividad física que más se disfruta - Marcas favoritas de
Medidas subjetivas y explicativas
Cualitativos los clientes más fieles - Preferencias de moda de los adultos
de cualidades y características
jóvenes
- Porcentaje de médicos certificados que son mujeres -
Medidas específicas y objetivas de
Cuantitativos Población de elefantes en África - Distancia de la Tierra a
hechos numéricos
Marte
la siguiente tabla destaca las diferencias entre los datos nominales y ordinales y los ejemplos de cada uno de ellos
Clasificación del
Definición Ejemplos
formato de datos
Un tipo de datos cualitativos que - Cliente nuevo, cliente que vuelve, cliente habitual - Nuevo
Nominales no se categoriza con un orden solicitante de empleo, solicitante existente, solicitante interno -
establecido Nuevo listado, listado de precio reducido, ejecución hipotecaria
Un tipo de datos cualitativos - Calificaciones de películas (cantidad de estrellas: 1 estrella, 2
Ordinales con un orden o escala estrellas, 3 estrellas) - Selecciones de votación por orden (1º, 2º, 3º)
preestablecidos Nivel de ingresos (ingresos bajos, ingresos medios, ingresos altos)
la siguiente tabla destaca las diferencias entre los datos estructurados y no estructurados y los ejemplos de cada uno
de ellos
Datos estructurados: Datos organizados de cierta forma, por ejemplo, en filas y columnas
Datos no estructurados: No organizados de ninguna manera fácil de identificar.
Por ejemplo, cuando calificas tu restaurante favorito en línea, estás creando datos estructurados. Pero cuando utilizas
Google Earth para ver una imagen por satélite de la ubicación de un restaurante, estás utilizando datos no
estructurados.
Datos no estructurados
Los datos no estructurados no pueden ser organizados de una manera fácil de identificar. Y en el mundo hay muchos
más datos no estructurados que estructurados. Los archivos de video y audio, los archivos de texto, el contenido de las
redes sociales, las imágenes por satélite, las presentaciones, los archivos PDF, las respuestas a encuestas abiertas y
los sitios web son todos ellos tipos de datos no estructurados.
El problema de la equidad
La falta de estructura hace que los datos no estructurados sean difíciles de buscar, gestionar y analizar. Pero los
recientes avances en inteligencia artificial y algoritmos de aprendizaje automático están empezando a cambiar esta
situación. Ahora, el nuevo reto al que se enfrentan los científicos de datos es asegurarse de que estas herramientas
sean inclusivas e imparciales. De lo contrario, ciertos elementos de un conjunto de datos estarán más ponderados y/o
representados que otros. Y como estás aprendiendo, un conjunto de datos no equitativo no representa con exactitud a
la población, causando resultados sesgados, bajos niveles de precisión y análisis poco fiables.
Nota importante: Como analista de datos junior, no se te pedirá que diseñes un modelo de datos. Pero es posible que
te encuentres con modelos de datos existentes en tu organización.
1. El modelado conceptual de datos ofrece una visión de alto nivel de la estructura de datos, como la forma en que
los datos interactúan en una organización. Por ejemplo, un modelo de datos conceptual puede utilizarse para
definir los requisitos comerciales de una nueva base de datos. Un modelo de datos conceptual no contiene
detalles técnicos.
2. El modelo de datos lógico se centra en los detalles técnicos de una base de datos, como las relaciones, los
atributos y las entidades. Por ejemplo, un modelo de datos lógico define cómo se identifican los registros
individuales en una base de datos. Pero no detalla los nombres reales de las tablas de la base de datos. Ese es
el trabajo de un modelo de datos físico.
3. El modelo de datos físico describe el funcionamiento de una base de datos. Un modelo de datos físico define
todas las entidades y atributos utilizados; por ejemplo, incluye los nombres de las tablas, los nombres de las
columnas y los tipos de datos de la base de datos.
Se puede encontrar más información en esta comparación de modelos de datos.
Técnicas de modelado de datos
Hay muchos enfoques a la hora de desarrollar modelos de datos, pero dos métodos comunes son el Diagrama de
Relación de Entidades (ERD) y el diagrama del Lenguaje Unificado de Modelado (UML). Los ERD son una forma visual
de entender la relación entre las entidades del modelo de datos. Los diagramas UML son diagramas muy detallados
que describen la estructura de un sistema mostrando las entidades, los atributos, las operaciones y las relaciones del
sistema. Como analista de datos junior, tendrás que entender que existen diferentes técnicas de modelado de datos,
pero en la práctica, probablemente utilizarás la técnica existente en tu organización.
Puedes leer más sobre ERD, UML y diccionarios de datos en este artículo sobre técnicas de modelado de datos.
CUESTIONARIO:
Pregunta 1
Completa el espacio en blanco: El tiempo de duración de una película es un ejemplo de datos _____.
1. discretos
2. continuos
3. cualitativos
4. nominales
Correcto. Los tiempos de duración de las películas son un ejemplo de datos continuos, que se miden y pueden tener
casi cualquier valor numérico.
Pregunta 2
¿Cuáles son las características de los datos no estructurados? Selecciona todas las opciones que
correspondan.
0.75 / 1 punto
Pregunta 3
Los datos estructurados permiten agrupar los datos para formar relaciones. ¿Esto facilita a los analistas hacer
qué con los datos? Selecciona todas las opciones que correspondan.
Buscar .Correcto. Los datos estructurados que se agrupan para formar relaciones permiten a los analistas almacenar,
buscar y analizar los datos más fácilmente.
Reescribir
Almacenar. Correcto. Los datos estructurados que se agrupan para formar relaciones permiten a los analistas
almacenar, buscar y analizar los datos más fácilmente.
Analizar. Correcto. Los datos estructurados que se agrupan para formar relaciones permiten a los analistas almacenar,
buscar y analizar los datos más fácilmente.
Pregunta 4
El operador Y:
Tu condición es “Si el color del zapato tiene cualquier combinación de gris y rosa, lo comprarás”. La expresión booleana
descompondría la lógica de esa declaración para filtrar sus resultados por ambos colores. Diría “SI (Color=“Gris”) Y
(Color=“Rosa”) entonces cómpralos”. El operador Y le permite acumular múltiples condiciones.
A continuación se muestra una tabla de verdad simple que resume la lógica booleana en el trabajo en esta expresión.
En la columna Color es Gris, hay dos pares de zapatos que cumplen la condición de color. En la columna Color es Rosa,
hay dos pares de zapatos que cumplen tal condición. Pero en la columna Si es Gris Y Rosa, solo hay un par de zapatos
que cumple ambas condiciones. Por lo tanto, según la lógica booleana de la declaración, solo hay un par marcado
como verdadero. En otras palabras, hay un par de zapatos que puedes comprar.
Color es Gris Color es Rosa Si es Gris Y Rosa, entonces comprar Lógica booleana
Gris/verdadero Rosa/verdadero Verdadero/comprar Verdadero Y verdadero = Verdadero
Gris/verdadero Negro/falso Falso/No comprar Verdadero Y Falso = Falso
Rojo/Falso Rosa/verdadero Falso/No comprar Falso Y Verdadero = Falso
Rojo/Falso Verde/Falso Falso/No comprar Falso Y Falso = Falso
El operador O
El operador O te permite avanzar si se cumple una de tus dos condiciones. Tu condición es “Si los zapatos son grises o
rosas, los comprarás”. La expresión booleana sería “SI (Color=“Gris”) O (Color=“Rosa”) entonces cómpralos”. Observa
que cualquier zapato que cumpla la condición Color es Gris o Color es Rosa es marcado como verdadero por la lógica
booleana. Según la tabla de verdad de abajo, hay tres pares de zapatos que puedes comprar.
Color es Gris Color es Rosa Si es Gris O Rosa, entonces comprar Lógica booleana
Rojo/Falso Negro/falso Falso/No comprar Falso O Falso = Falso
Negro/falso Rosa/verdadero Verdadero/comprar Falso O Verdadero = Falso
Gris/verdadero Verde/Falso Verdadero/comprar Verdadero O Falso = Verdadero
Gris/verdadero Rosa/verdadero Verdadero/comprar Verdadero O Verdadero = Verdadero
El operador NO
Por último, el operador NO te permite filtrar restando condiciones específicas de los resultados. Tu condición es
"Comprarás cualquier zapato gris excepto los que tengan algún rastro de rosa". La expresión booleana sería “SI
(Color="Gris") Y (Color=NO “Rosa”) entonces cómpralos”. Ahora, todos los zapatos grises que no son rosas son
marcados como verdaderos por la lógica booleana para la condición NO Rosa. Los zapatos rosas son marcados como
falsos por la lógica booleana para la condición NO Rosa. Solo un par de zapatos está excluido en la tabla de verdad de
abajo.
Ya sea que estés haciendo una búsqueda de zapatos nuevos o aplicando esta lógica a tus consultas de base de datos,
la lógica booleana te permite crear múltiples condiciones para filtrar tus resultados. Y ahora que sabes un poco más
sobre cómo se usa la lógica booleana, ¡puedes empezar a usarla!
Lectura adicional/recursos:
Aprende sobre quién fue el pionero de la lógica booleana en este artículo histórico: Orígenes del Álgebra
Booleana en la Lógica de Clases.
Encuentra más información sobre el uso de Y, O y NO en estos consejos para buscar con operadores
booleanos.
VIDEO: Componentes de la tabla de datos
Te traigo un acertijo. ¿Qué tienen en común una lista de reproducción, un calendario y una bandeja de entrada de correo
electrónico? Te daré una pista. No se trata de una sesión semanal de improvisación. La respuesta es que todo viene
organizado en tablas. Ve y compruébalo en tu casilla de correo o una lista de reproducción favorita o mira tu agenda
calendario. ¡Hay tablas en cada uno! Una tabla de datos, o datos tabulares, tiene una estructura muy simple. Está organizada
en filas y columnas. Puedes llamar a las filas "registros" y a las columnas "campos". Básicamente quieren decir lo mismo,
pero los registros y campos se pueden usar para cualquier tipo de tabla de datos, mientras que las filas y las columnas se
reservan usualmente para las hojas de cálculo. Cuando hablamos de bases de datos estructuradas, las personas que realizan
análisis computacional de datos suelen usar "registros" y "campos". Algunas veces, un campo también se puede referir a un
solo dato, como el valor en una celda. En todo caso, escucharás las dos versiones de esos términos en todo este programa y
en tu trabajo. Volvamos al ejemplo de la lista de reproducción. Utilizaremos los términos nuevos que acabamos de
mencionar. De modo que cada canción es un registro. Cada registro tiene los mismos campos que los otros registros y en el
mismo orden. En otras palabras, la lista de reproducción tiene la misma información acerca de cada canción.
Cada característica de la canción, como el título y el artista, es un campo. Cada campo por separado tiene el mismo tipo de
dato, pero diferentes campos pueden tener diferentes tipos. Te mostraré a qué me refiero. Para la lista de canciones, los
títulos de las canciones son un tipo de texto o cadena, mientras que la duración de la canción puede ser de tipo numérico si
lo estás utilizando para tus cálculos. O puede ser del tipo fecha y hora. La columna de favoritos es booleana, ya que tiene dos
posibles valores: favorita o no favorita. Podemos ver las hojas de cálculo del mismo modo. Los registros en una hoja de
cálculo pueden ser acerca de todo tipo de cosas: clientes, productos, facturas o cualquier otra cosa. Cada registro tiene varios
campos que revelan más acerca de los productos o facturas de los clientes. El valor en cada celda contiene un dato específico,
como la dirección de un cliente o el valor en dólares de una factura. Como analista de datos, muchos datos te llegarán y los
registros, campos y valores en las tablas de datos te ayudarán a navegar por el análisis. Comprender las estructuras de las
tablas con las que estás trabajando es una parte de ello. Y esperemos que mientras trabajas duro en tu análisis y esas tablas,
puedas divertirte un poco con una tabla de datos diferente: ¡la que tiene tu lista de reproducción favorita!
Los datos anchos permiten una fácil identificación y una rápida comparación de las diferentes columnas. En nuestro ejemplo,
los datos están organizados alfabéticamente por país, de modo que se pueden comparar las poblaciones anuales de Antigua
y Barbuda, Aruba y las Bahamas solo controlando los valores en cada columna. Los datos en formato ancho también
simplifican la búsqueda y comparación de las poblaciones de los países en períodos diferentes de tiempo. Por ejemplo, al
ordenar los datos descubrimos que Brasil tenía la mayor población de todos los países en 2010 y que la Islas Vírgenes
Británicas tenían la menor población de todos los países en 2013. Bien, exploremos ahora estos datos en formato largo. Aquí
los datos ya no están organizados en columnas por año. Todos los años están ahora en una columna con cada país, como
Argentina, que aparece en filas múltiples, una para cada año de datos. Así se ven normalmente los datos en formato largo.
Los datos en formato largo en cada fila representan un punto de tiempo único por interesado, de modo que cada interesado
tendrá datos en filas múltiples. Nuestra hoja de cálculo se formatea para mostrar cada año de datos de la población.
Aquí vemos a Antigua y Barbuda primero. Los datos en formato largo son una buena manera de almacenar datos organizados
con variables múltiples para cada sujeto en cada punto de tiempo que queremos observar. Con estos datos en formato largo,
podemos almacenar y analizar todos estos datos utilizando menos columnas. Además, si agregamos una nueva variable,
como el promedio de edad de una población, solo necesitamos una nueva columna. Si hubiéramos utilizado los datos en
formato ancho, en cambio, deberíamos haber agregado 10 columnas, una para cada año. Los datos en formato largo
mantienen todo prolijo y compacto. Si te preguntas qué formato utilizar, la respuesta simple es: "depende".
Algunas veces, debes transformar datos en formato ancho en datos en formato largo o viceversa, en otras ocasiones.
Probablemente, trabajarás con ambos formatos en tu trabajo. Y definitivamente reconsiderarás ambos formatos otra vez más
tarde en este programa. Esto me recuerda: antes definimos los datos como una recopilación de hechos. Como descubriste en
los últimos videos, esa recopilación de hechos puede tomar diferentes formatos, estructuras, tipos y más.
Aprender acerca de los modos en que pueden presentarse los datos te será de gran ayuda a lo largo de los procesos del
análisis de datos. Cuanto más trabajes con datos en todas sus formas, más rápido empezarás a reconocer qué datos utilizar y
cuándo utilizarlos.
Y en breve, utilizarás todos los datos almacenados en tu cerebro para ayudarte a realizar una evaluación. Luego, aprenderás
cómo identificar y evitar el sesgo en los datos y cómo aprovechar la credibilidad, la integridad y la ética. La aventura de los
datos avanza. ¡Y me alegra avanzar con ellos!
Transformación de datos
Una mujer presentando datos, una mano sosteniendo una medalla, dos personas charlando, el timón de un barco
siendo dirigido, dos personas chocando las manos
En esta lectura, explorarás cómo se transforman los datos y las diferencias entre datos en formato ancho y largo. La
transformación de datos es el proceso de cambiar el formato, la estructura o los valores de los datos. Como analista de
datos, es muy probable que en algún momento necesites transformar los datos para que te resulte más fácil
analizarlos.
Organización de los datos: los datos mejor organizados son más fáciles de utilizar
Compatibilidad de datos: diferentes aplicaciones o sistemas pueden entonces utilizar los mismos datos
Migración de datos: los datos con formatos coincidentes pueden trasladarse de un sistema a otro
Fusión de datos: los datos con la misma organización pueden fusionarse
Mejora de datos: los datos pueden mostrarse con campos más detallados
Comparación de datos: a continuación, se pueden realizar comparaciones de los datos entre sí
Ejemplo de transformación de datos: fusión de datos
Mario es un fontanero propietario de una empresa de fontanería. Tras años en el negocio, compra otra empresa de
fontanería. Mario quiere fusionar la información de los clientes de su nueva empresa con la suya, pero la otra empresa
utiliza una base de datos diferente. Así que Mario tiene que hacer que los datos sean compatibles. Para ello, tiene que
transformar el formato de los datos de la empresa adquirida. Luego, debe eliminar las filas duplicadas de los clientes
que tenían en común. Cuando los datos sean compatibles y estén juntos, la empresa de fontanería de Mario tendrá una
base de datos de clientes completa y fusionada.
Los datos en formato largo son datos en los que cada fila contiene un único punto de datos para un elemento concreto. En
el ejemplo de datos en formato largo que aparece a continuación, se han recogido los precios individuales de las
acciones (puntos de datos) de Apple (AAPL), Amazon (AMZN) y Google (GOOGL) (elementos concretos) en las fechas
indicadas.
Los datos en formato ancho son datos en los que cada fila contiene múltiples puntos de datos para los elementos
particulares identificados en las columnas.
Con los datos transformados en datos en formato ancho, puedes crear un gráfico en el que se compara la evolución de
las acciones de cada empresa en el mismo periodo de tiempo.
Puedes notar que todos los datos incluidos en el formato largo están también en formato ancho. Pero los datos en el
formato ancho son más fáciles de leer y comprender. Por eso, los analistas de datos suelen transformar los datos en
formato largo en datos en formato ancho con más frecuencia que al revés. La siguiente tabla resume cuándo se prefiere
cada formato:
CUESTIONARIO:
Pregunta 1
Completa el espacio en blanco: Los motores de búsqueda de Internet son un ejemplo cotidiano de cómo se
utilizan los operadores booleanos. El operador booleano _____ amplía el número de resultados cuando se
utiliza en una búsqueda de palabras clave.
1. O
2. CON
3. NO
4. Y
Correcto. El operador booleano O amplía el número de resultados cuando se utiliza en una búsqueda de palabras
clave.
Pregunta 2
¿Cuál de las siguientes afirmaciones describe con exactitud una diferencia clave entre los datos en formato
ancho y largo?
1. Todos los sujetos de datos en formato ancho tienen una sola columna que contiene los valores de los atributos
del sujeto. Todos los sujetos de datos en formato largo tienen múltiples columnas.
2. Los sujetos de datos en formato ancho pueden tener múltiples filas que contienen los valores de los atributos
del sujeto. Los sujetos de datos en formato largo pueden tener datos en múltiples columnas.
3. Los sujetos de datos en formato ancho pueden tener datos en múltiples columnas. Los sujetos de datos en
formato largo pueden tener múltiples filas que contienen los valores de los atributos del sujeto.
4. Todos los sujetos de datos en formato ancho tienen múltiples columnas. Todos los sujetos de datos en formato
largo tienen datos en una sola columna.
Correcto. Los sujetos de datos en formato ancho pueden tener datos en múltiples columnas. Los sujetos de datos en
formato largo pueden tener múltiples filas que contienen los valores de los atributos del sujeto.
Pregunta 3
Glosario
Análisis computacional de datos
Términos y definiciones
A
Agenda: Una lista de citas programadas.
Alcance del trabajo (SOW): Un esquema acordado de las tareas a realizar durante un proyecto.
Análisis de datos: La recopilación, transformación y organización de los datos para sacar conclusiones, hacer predicciones e
impulsar una toma de decisiones fundamentada.
Análisis de déficits: Un método para examinar y evaluar el estado actual de un proceso con el fin de identificar las
oportunidades de mejora en el futuro.
Analista de datos: Alguien que recopila, transforma y organiza los datos para sacar conclusiones, hacer predicciones e
impulsar la toma de decisiones fundamentada.
Archivo de audio: Almacenamiento digitalizado de audio generalmente en MP3, AAC u otro formato comprimido.
Archivo de video: Conjunto de imágenes, archivos de audio y otros datos generalmente codificados en un formato
comprimido, por ejemplo, MP4, MV4, MOV, AVI o FLV.
Atributo: Característica o calidad de los datos que se usa para etiquetar una columna en una tabla.
B
Base de datos relacional: Base de datos que contiene una serie de tablas que se pueden conectar para mostrar relaciones.
Bordes: Líneas que se pueden agregar alrededor de dos o más celdas en una hoja de cálculo.
C
Campo: Información de una fila o columna de una hoja de cálculo; en una tabla de datos; suele ser una columna de la tabla.
Ciclo de vida de los datos: Sucesión de etapas por las que pasan los datos, que incluye planificar, capturar, gestionar, analizar,
archivar y destruir.
Ciencia de datos: Un campo de estudio que utiliza datos sin procesar para crear nuevas formas de modelar y entender lo
desconocido.
Conjunto de datos: Recopilación de datos que pueden ser manipulados o analizados como una unidad.
CONTAR: Función de la hoja de cálculo que cuenta el número de celdas en un rango que cumplen con un criterio específico.
Controlador de relleno: Casilla en la esquina inferior derecha de cierta celda seleccionada de una hoja de cálculo que se
puede arrastrar pasando por celdas vecinas para seguir una instrucción.
Cookie: Pequeño archivo almacenado en una computadora que contiene información acerca de sus usuarios.
D
Datos abiertos: Datos que están disponibles para el público.
Datos booleanos: Tipo de datos con solo dos valores posibles, generalmente verdadero o falso.
Datos continuos: Datos que se miden y que pueden tener casi cualquier valor numérico
Datos cualitativos: Los datos cualitativos son una medida subjetiva y explicativa de una cualidad o característica.
Datos cuantitativos: Los datos cuantitativos son una medida específica y objetiva, como un número, cantidad o rango.
Datos de primera fuente: Datos recopilados por una persona o por un grupo por medio de sus propios recursos.
Datos de segunda fuente: Datos que recopila un grupo directamente de su audiencia y que, luego, se venden.
Datos de terceros: Datos proporcionados por fuentes externas que no recopilaron de forma directa.
Datos en formato ancho: Conjunto de datos en el que cada tema tiene una sola fila con varias columnas para describir los
valores de los distintos atributos del tema.
Datos en formato largo: Conjunto de datos en el que cada fila constituye un punto en el tiempo por sujeto, es decir que cada
sujeto tiene datos en varias filas.
Datos estructurados: Datos organizados de cierta forma, por ejemplo, en filas y columnas.
Datos no estructurados: Datos que no se organizan de forma que sea fácil identificarlos.
Datos nominales: Tipo de datos cualitativos que se categoriza sin un orden establecido.
Destrezas analíticas: Cualidades y características asociadas al uso de hechos para resolver problemas.
Dominio del problema: Área de análisis que abarca cada actividad que afecta a un problema o se ve perjudicada por él.
E
Ecosistema de datos: Los distintos elementos que interactúan entre sí para producir, gestionar, almacenar, organizar, analizar
y compartir datos.
Ecuación: Cálculo que implica suma, resta, multiplicación o división (también se denomina expresión matemática).
Encabezado: Primera fila en una hoja de cálculo que hace referencia al tipo de datos en cada columna.
Equidad: Característica del análisis de datos que no genera sesgos ni los reafirma.
Estrategia de datos: La gestión de las personas, los procesos y las herramientas que se usan en el análisis de datos.
Expresión matemática: Cálculo que implica la suma, resta, multiplicación o división (también denominada ecuación).
F
Filtrado: Proceso que muestra solo los datos que cumplen con un criterio específico mientras oculta el resto.
Fórmula: Conjunto de instrucciones que se utilizan para realizar un cálculo al utilizar los datos de una hoja de cálculo.
Foto digital: Una imagen electrónica o computarizada, generalmente en formato BMP o JPG.
Función matemática: Función que se utiliza como parte de una fórmula matemática.
Función: Un comando preestablecido que realiza automáticamente un proceso o tarea especificado al utilizar los datos de
una hoja de cálculo.
G
Gráfico dinámico: Gráfico creado a partir de los campos de una tabla dinámica.
H
Hoja de cálculo: Una hoja de cálculo digital.
I
Informe: Conjunto estático de datos que se entrega periódicamente a interesados.
Interesados: Personas que invierten tiempo y recursos en un proyecto y se interesan por su resultado.
L
La toma de decisiones inspirada en datos: Explorar diferentes fuentes de datos para descubrir qué tienen en común.
Lenguaje de consulta estructurado: Lenguaje de programación informática utilizado para comunicarse con una base de
datos.
Lenguaje de consulta: Lenguaje de programación informática utilizado para comunicarse con una base de datos.
M
Macrodatos: Conjuntos de datos grandes y complejos que generalmente se recopilan durante largos períodos y que permiten
que los analistas de datos aborden los problemas comerciales de gran alcance.
MAX: Función de la hoja de cálculo que muestra el valor numérico mayor de un rango de celdas.
Mentalidad técnica: La capacidad de dividir las cosas en pasos o piezas más pequeñas y trabajar con ellas de forma ordenada
y lógica.
Metodología SMART: Herramienta para determinar la eficacia de una pregunta según sea específica, mensurable, orientada a
la acción, pertinente y con plazos determinados.
Métrica: Tipo único y cuantificable de datos que pueden utilizarse para la medición.
Microdatos: Puntos de datos pequeños, específicos, que generalmente involucran un breve período y que son útiles para
tomar decisiones diarias.
MIN: Función de la hoja de cálculo que muestra el valor numérico menor de un rango de celdas.
Modelo de datos: Herramienta para organizar los elementos de datos y la forma en que se relacionan entre ellos.
Muestra: En el análisis computacional de datos, segmento de una población que la representa en su totalidad.
N
Nube: La nube es un lugar para mantener los datos en línea, en lugar de en el disco duro de una computadora.
O
Objetivo medible: Este objetivo métrico es un conjunto de objetivos medibles establecido por una empresa y evaluado
mediante métricas.
Observación: Los atributos que describen una pieza de datos contenida en una fila de una tabla.
Oficina del Censo de los Estados Unidos: Agencia del Departamento de Comercio de los Estados Unidos que funciona como
proveedora principal de datos de calidad sobre las personas y la economía a nivel nacional.
Orden de operaciones: Uso de paréntesis para agrupar ciertos valores de la hoja de cálculo a fin de aclarar el orden en el que
deben realizarse las operaciones.
Ordenación: Es el proceso de organizar los datos en un sistema de clasificación significativo para que sean más fáciles de
entender, analizar y visualizar.
P
Panel: Herramienta que monitorea los datos entrantes en vivo.
Pensamiento analítico: El proceso de identificar y definir un problema, para luego resolverlo mediante el uso de datos de
manera organizada, paso a paso.
Píxel: En imágenes digitales, es un área pequeña de iluminación en una pantalla de visualización que, cuando se combina con
otras áreas adyacentes, forma una imagen digital.
Población: En análisis computacional de datos, todos los valores de datos posibles en un conjunto de datos.
Pregunta específica: Una pregunta simple y significativa que se centra en un solo tema o en algunas ideas estrechamente
relacionadas.
Pregunta injusta: Pregunta en la que se hacen suposiciones o que es difícil de responder honestamente.
Pregunta pertinente: Pregunta que tiene importancia para el problema que se debe resolver.
Pregunta principal: Pregunta que orienta a las personas para que indiquen tal o cual respuesta.
Proceso de análisis de datos: Las seis fases que consisten en preguntar, preparar, procesar, analizar, compartir y actuar, cuyo
objetivo es obtener conocimiento que propicie una toma de decisiones informada.
PROMEDIO: Función de una hoja de cálculo que muestra el resultado de un promedio de los valores de un rango
seleccionado.
Propiedad: El aspecto de la ética de datos que presupone que cada persona es dueña de los datos sin procesar que
proporciona y que tiene control primordial sobre su uso, procesamiento y uso compartido.
R
Rango: Conjunto de dos o más celdas en una hoja de cálculo.
Redes sociales: Sitios web y aplicaciones en los que los usuarios crean y comparten contenido o interactúan entre sí.
Referencia de celda: Una celda o un rango de celdas de una hoja de cálculo que se suelen utilizar en fórmulas y funciones.
Reformulación: Proceso de replantear un problema o desafío para dirigirse hacia una posible resolución.
Registro: Conjunto de datos relacionados en una tabla de datos, generalmente sinónimo de fila.
Retorno sobre la inversión (ROI): Fórmula que utiliza las métricas de inversión y ganancias para evaluar el éxito de una
inversión.
S
SQL: (Ver Lenguaje de consulta estructurado)
SUMA: Función de una hoja de cálculo que suma los valores de un rango de celdas seleccionadas.
T
Tabla dinámica: Una herramienta de resumen de datos utilizada para ordenar, reorganizar, agrupar, contar, totalizar o
promediar datos.
Tasa de rotación: Ritmo en el que los empleados abandonan voluntariamente una empresa.
Tipo de datos de texto: Secuencia de caracteres y puntuación que contiene información textual (también denominado tipo
de datos de cadena).
Tipo de datos en cadena: Secuencia de caracteres y puntuación que contiene información textual (ver Tipo de datos de
texto).
Tipo de datos: Un atributo que describe cierto dato según sus valores, su lenguaje de programación o las operaciones que
puede realizar.
Tipos de problemas: Distintos problemas a los que se enfrenta el analista de datos, que incluyen categorizar elementos,
descubrir conexiones, hallar patrones, identificar temas, hacer predicciones y detectar algo inusual.
Toma de decisiones basada en datos: Uso de datos para guiar la estrategia empresarial.
V
Visualización de datos: La representación gráfica de los datos.
Un analista de datos está trabajando en un estudio de tráfico urgente. Como consecuencia del corto plazo,
¿qué tipo de datos es más probable que utilice?
1. Teóricos
2. Personales
3. Sin depurar
4. Históricos
Correcto. Debido a la brevedad del plazo, lo más probable es que utilicen datos históricos.
Pregunta 2
Pregunta 3
Pregunta 4
¿Por qué los datos internos se consideran más confiables y fáciles de recopilar que los datos externos?
1. Los datos internos provienen de personas que conoces.
2. Los datos internos están alojados dentro de los propios sistemas de la empresa.
3. Los datos internos tienen un tamaño de muestra mucho mayor.
4. Los datos internos sortean las restricciones de privacidad.
Correcto. Los datos internos se consideran más confiables y fáciles de recopilar que los datos externos porque están
alojados dentro de los propios sistemas de la empresa.
Pregunta 5
Pregunta 6
Pregunta 7
En los datos en formato largo, las columnas separadas contienen los valores y el contexto de los valores,
respectivamente. ¿Qué contiene cada columna en los datos en formato largo?
0 / 1 punto
Si necesitas hacer un repaso, vuelve a ver el video sobre datos en formato largo y ancho.
Pregunta 8
La transformación de datos puede cambiar la estructura de los datos. Un ejemplo de esto es tomar los datos
almacenados en un formato y convertirlos en otro.
1. Verdadero
2. Falso
Correcto. La transformación de datos puede cambiar la estructura de los datos. Un ejemplo de esto es tomar los datos
almacenados en un formato y convertirlos en otro.
MODULO 2:
Datos imparciales y objetivos:
VIDEO: Garantizar la integridad de los datos
¡Bienvenido nuevamente! En un curso anterior, hablamos sobre cómo preparar los datos de manera que te ayuden a
transmitir un mensaje significativo. Ahora averigüemos qué sigue. Como todas las buenas historias, la historia de tus datos
tendrá personajes, preguntas, desafíos, conflictos y esperemos que una resolución. La clave es evitar el conflicto, superar los
obstáculos y responder las preguntas. De eso trata este curso. Así es como lo haremos. Primero, aprenderás cómo analizar los
datos respecto de los sesgos y la credibilidad. Esto es muy importante porque aún los datos más sólidos pueden ser sesgados
o malinterpretados. Luego aprenderemos sobre la importancia de los datos correctos e incorrectos. Sí, como cuando éramos
niños. Pero en este caso, exploraremos las fuentes de datos correctos y aprenderemos cómo alejarnos de su némesis, los
datos incorrectos. Después, aprenderemos más sobre el mundo de la ética y la privacidad de los datos y cómo acceder a
estos. A medida que crece la disponibilidad de los datos, y los algoritmos que creamos para utilizar estos datos se tornan
cada vez más complejos y sofisticados, siguen surgiendo los problemas. Tenemos que hacernos preguntas como ¿quién es el
dueño de estos datos? ¿Cuánto control tenemos sobre la privacidad de los datos? ¿Podemos usar y reutilizar los datos como
queramos? Como analista de datos, es importante comprender la ética y la privacidad de los datos porque en tu trabajo,
tomarás un montón de decisiones basadas en el criterio sobre el uso correcto y la aplicación de los datos. Me entusiasma que
repasemos juntos algunas preguntas, respuestas, recompensas y riesgos involucrados. Empecemos el primer capítulo de esta
historia de datos, en nuestro próximo video.
Hagamos un repaso rápido, sesgo del muestro es cuando una muestra no es representativa de la población en su conjunto.
Por ejemplo, si estás haciendo una investigación sobre cómo se trasladan las personas a su trabajo, y solo encuestas a las
personas que caminan por la acera, te perderás la opinión de las personas que van en bicicleta, conducen vehículos o viajan
en subterráneo. Necesitas todas las perspectivas de la historia para evitar el sesgo del muestreo. En este video, analizaremos
otros tres tipos más de sesgo del muestreo: sesgo del observador, sesgo de interpretación y sesgo de confirmación, y
aprenderemos cómo evitarlos.
- Empecemos por el sesgo del observador, al que a veces se llama sesgo del investigador o sesgo de investigación.
Básicamente, es la tendencia de distintas personas a observar las cosas de forma diferente. Como recordarás,
aprendimos que los científicos usan mucho las observaciones en su trabajo, como cuando observan una bacteria en
el microscopio para recabar datos. Aunque dos científicos que miren en el mismo microscopio podrían ver cosas
diferentes, eso es sesgo del observador. Otra situación en la que puede producirse el sesgo del observador es durante
las mediciones de la presión arterial. Como el tensiómetro es tan sensible, los trabajadores de la salud a menudo
obtienen resultados bastante diferentes. En general, suelen redondear al número entero más cercano para
compensar el margen de error. Pero si los médicos redondean sistemáticamente hacia arriba o hacia abajo las
mediciones de la presión arterial de sus pacientes, ciertas afecciones podrían pasar desapercibidas, y los estudios de
sus pacientes no tendrían datos precisos y exactos.
- Otro tipo común de sesgo de los datos es el sesgo de interpretación. La tendencia a interpretar siempre las
situaciones ambiguas de manera positiva o negativa. Aquí hay un ejemplo. Digamos que estás almorzando con un
amigo y recibes un correo de voz de tu jefa, que te pide que le devuelvas la llamada. Dejas el teléfono, enfadado,
seguro que está enojada y estás en la cuerda floja por algo. Pero cuando le reproduces el mensaje a tu amigo, él no
percibe el enojo en absoluto, en realidad, piensa que ella suena tranquila y directa. El sesgo de interpretación puede
hacer que dos personas vean o escuchen lo mismo de manera diferente, y lo interpreten de distintas maneras,
porque provienen de entornos diferentes, con experiencias distintas. La anécdota de tu jefa te hizo interpretar la
llamada de una manera, pero tu amigo la interpretó de otra manera porque ellos no se conocen. Traslada estas
interpretaciones al análisis de datos, y es probable que obtengas resultados sesgados.
- El último tipo de sesgo que analizaremos, me recuerda el dicho "la gente ve lo que quiere ver." Eso resume muy bien
el sesgo de confirmación. El sesgo de confirmación es la tendencia a buscar o interpretar la información de una
manera que confirma las creencias preexistentes. Alguien podría estar tan ansioso por confirmar un sentimiento
visceral, que solo nota cosas que lo confirman, e ignora todas las demás señales. Esto ocurre todo el tiempo en la
vida cotidiana. Es probable que obtengamos las noticias de un determinado sitio web porque los escritores
comparten nuestras creencias, o que socialicemos con determinadas personas porque sabemos que comparten
visiones similares. Después de todo, otros puntos de vistas diferentes podrían hacernos cuestionar nuestra visión del
mundo, lo que puede llevarnos a cambiar todo nuestro sistema de creencias, y seamos sinceros, el cambio nos
cuesta. Pero, ¿sabes qué es aún peor? Hacer un buen trabajo cuando tienes datos incorrectos; por eso, es importante
mantener el sesgo alejado.
Los cuatro tipos de sesgo de datos que analizamos: sesgo del muestreo, sesgo del observador, sesgo de interpretación y
sesgo de confirmación son todos únicos, pero tienen algo en común. Cada uno de ellos afecta la forma en que
recopilamos y damos sentido a los datos. Por desgracia, son también una pequeña muestra, un juego de palabras, de los
tipos de sesgos que puedes encontrar en tu carrera como analista de datos. Pero la buena noticia es que una vez que
conoces algunos, estarás constantemente en guardia para detectar cualquier forma de sesgo. También es importante
recordar que no importa qué tipo de datos utilices, todos deben ser inspeccionados para verificar su precisión y
confiabilidad. Pronto hablaremos más sobre este tema cuando empecemos a explorar los datos incorrectos. Hasta
pronto.
CUESTIONARIO:
Pregunta 1
¿Cuáles de los siguientes son ejemplos de sesgo del muestreo? Selecciona todas las opciones que
correspondan.
1. Un estudio clínico que incluye tres veces más hombres que mujeres. Correcto. Una encuesta de estudiantes de
secundaria que no incluye a los alumnos con escolarización en el hogar, un sondeo electoral nacional que solo
entrevista a personas con título universitario y un estudio clínico que incluye tres veces más hombres que
mujeres no son representativos de la población.
2. Una empresa de análisis computacional de datos en línea que almacena datos en una hoja de cálculo.
3. Un sondeo electoral nacional que solo entrevista a personas con título universitario.Correcto. Una encuesta de
estudiantes de secundaria que no incluye a los alumnos con escolarización en el hogar, un sondeo electoral
nacional que solo entrevista a personas con título universitario y un estudio clínico que incluye tres veces más
hombres que mujeres no son representativos de la población.
4. Una encuesta de estudiantes de secundaria que no incluye a los alumnos con escolarización en el hogar.
Correcto. Una encuesta de estudiantes de secundaria que no incluye a los alumnos con escolarización en el
hogar, un sondeo electoral nacional que solo entrevista a personas con título universitario y un estudio clínico
que incluye tres veces más hombres que mujeres no son representativos de la población.
Pregunta 2
Fill in tCompleta el espacio en blanco: Tendencia a buscar o interpretar la información de manera que valide
creencias preexistentes es un sesgo _____.
1. de confirmación
2. del observador
3. de interpretación
4. del muestreo
Correcto. Tendencia a buscar o interpretar la información de manera que valide creencias preexistentes es un sesgo de
confirmación.
Pregunta 3
¿Cuáles de los siguientes términos son también formas de describir el sesgo del observador? Selecciona todas
las opciones que correspondan.
1. Sesgo de percepción
2. Sesgo de investigación. Correcto. El sesgo del observador también se llama a veces sesgo del investigador o
sesgo de investigación.
3. Sesgo del espectador
4. Sesgo del investigador. Correcto. El sesgo del observador también se llama a veces sesgo del investigador o
sesgo de investigación.
Explorar la credibilidad de los datos:
VIDEO: Identificar fuentes de datos correctos
Hola, ¿qué es bueno o correcto? No, en serio, quiero saber: ¿Qué es bueno o correcto? Por ejemplo, si te pido que nombres
una buena canción, quizás a mí no me guste. Eso es porque “bueno” es algo subjetivo. Lo que yo pienso que es bueno o
correcto y lo que tú crees que es bueno o correcto puede variar. Entonces, ¿qué pasa con las fuentes de datos correctos?
¿También son subjetivos? En cierta forma lo son, pero afortunadamente, aplicar algunas mejores prácticas te ayudará a medir
la confiabilidad de los conjuntos de datos, antes de usarlos. Eso es lo que veremos en este video. Creo que todos
coincidiremos en que todos queremos datos correctos. Cuanto mayor sea la calidad de los datos que tenemos, mayor
confianza tendremos en nuestras decisiones. Aprendamos cómo podemos descubrir e identificar fuentes de datos correctos.
Primero lo primero, necesitamos aprender a identificarlos. Me gusta llamar a este proceso ROCCC, R-O-C-C-C. Muy bien.
Acabo de inventarlo, pero creo que los acrónimos son una muy buena forma de grabar información nueva en el cerebro.
Empecemos por la “R” de “Reliable” (confiable). Como ocurre con los buenos amigos, las fuentes de datos correctos son
confiables. Con estos datos puedes confiar en que obtendrás información precisa, completa y objetiva que ha sido verificada,
probada y es apta para usar. Muy bien. Pasemos a la “O” de “Original”. Es muy probable que descubras datos a través de una
segunda fuente o una fuente de terceros. Para corroborar que estás manejando datos correctos, asegúrate de validarlos con
la fuente original. Llegamos a la “C” de “Comprehensive” (integral). Las mejores fuentes de datos contienen toda la
información crítica que se necesita para responder una pregunta o encontrar una solución. Piénsalo así. No te gustaría
trabajar para una empresa solo porque encontraste una gran reseña en línea sobre la empresa. Investigarás cada aspecto de
la organización para asegurarte de que sea la opción adecuada. Es importante hacer lo mismo con tus análisis de datos. La
siguiente es “C” de “Current” (actual). La utilidad de los datos disminuye a medida que pasa el tiempo. Si quieres invitar a
todos los clientes actuales a un evento empresarial, no usarás una lista de clientes de hace diez años. Lo mismo ocurre con
los datos. Las mejores fuentes de datos son actuales y apropiadas para la tarea en cuestión. La última “C” es por “Cited”
(citado). Si alguna vez le comentaste a un amigo que se estaba por estrenar una nueva parte de una película, habrás citado la
fuente. Citar la fuente hace que la información que estás proporcionando sea más confiable. Cuando elijas una fuente de
datos, piensa tres cosas: ¿Quién creó el conjunto de datos? ¿Forma parte de una organización creíble? ¿Cuándo fue la última
actualización del conjunto de datos? Si obtienes datos originales de una organización confiable, y esos datos son integrales,
actuales y citados, ¡ROCCCean! Hay muchos lugares que son conocidos por tener datos correctos. Tu mejor opción es recurrir
a los conjuntos de datos públicos, documentos académicos, datos financieros y datos de entidades gubernamentales, que
sean verificados. Ahora que ya sabes cómo detectar a los datos correctos, que ROCCCean (funcionan), estás listo para
aprender sobre la montaña de datos incorrectos y cómo evitarlos. Manos a la obra.
“R” de la palabra inglesa “Reliable” (confiable). No se puede confiar en los datos incorrectos porque son imprecisos,
incompletos o sesgados. Podrían ser datos con selección de muestra sesgada porque no refleja la población total. O podrían
ser visualizaciones de datos y gráficos que son simplemente engañosos. Veamos estos dos gráficos de barras, por ejemplo. El
de la izquierda usa un eje Y que comienza con el valor 3.14%. Y el de la derecha, usa 0. Esto hace que parezca que las tasas de
interés se han disparado en un período de cuatro años, cuando en realidad se mantuvieron bastante bajas.
Muy bien, en la “O”. No es Original. Si no puedes ubicar la fuente de datos original y solo confías en información de segundas
fuentes o de terceros, esto indica que necesitarás tomar recaudos extra para interpretar tus datos.
Ahora “C” de la palabra inglesa “Comprehensive” (integral). Las fuentes de datos incorrectos carecen de la información
necesaria para responder una pregunta o encontrar una solución. Y aún peor, pueden contener también errores humanos.
La siguiente es “C” de la palabra inglesa “Current” (actual). Las fuentes de datos incorrectos están desactualizadas y son
irrelevantes. Muchas fuentes respetadas actualizan sus datos habitualmente y esto nos da la seguridad de que es la
información disponible más actualizada. Por ejemplo, siempre puedes confiar en Data.gov, que es la página principal de datos
abiertos del gobierno de los Estados Unidos.
La última “C” es de la palabra inglesa “Cited” (citado). Si tu fuente no ha sido citada o verificada, es peligrosa.
En resumen, los datos correctos deben ser datos originales, integrales, actuales y citados provenientes de una organización
confiable. ¡Deben “ROCCCear”! De lo contrato, son datos incorrectos. Si necesitas una gran fuente de datos confiable,
consulta la página de la Oficina de Censos de los Estados Unidos, que actualiza frecuentemente su información. Es
importante que los analistas de datos entiendan y estén atentos a los datos incorrectos porque pueden tener consecuencias
graves y duraderas. Ya sea una conclusión incorrecta que lleve a una mala decisión empresarial, o información inexacta que
obstaculice los procesos y ponga en riesgo a la población, toda buena solución implica evitar los datos incorrectos. Para
obtener datos correctos, hay que limitarse a los conjuntos de datos públicos, documentos académicos, datos financieros y de
organismos gubernamentales, verificados. Y con esto, hemos llegado al final de nuestra aventura de sesgo y credibilidad.
Después de unos pocos ejercicios más, estarás listo para lo que viene. Deseo ver tus avances.
CUESTIONARIO:
Pregunta 1
¿Cuáles de las siguientes son habitualmente fuentes de datos correctos? Selecciona todas las opciones que
correspondan.
1. Conjuntos de datos públicos verificados. Correcto. Los conjuntos de datos públicos, documentos académicos,
datos financieros y de organismos gubernamentales verificados, por lo general, son fuentes de datos correctos.
2. Documentos académicos. Correcto. Los conjuntos de datos públicos, documentos académicos, datos
financieros y de organismos gubernamentales verificados, por lo general, son fuentes de datos correctos.
3. Datos de organismos gubernamentales. Correcto. Los conjuntos de datos públicos, documentos académicos,
datos financieros y de organismos gubernamentales verificados, por lo general, son fuentes de datos correctos.
4. Sitios de redes sociales
Pregunta 2
To determUna vez que defines si la fuente de datos es citada, ¿cuáles de las siguientes preguntas debes
hacerte? Selecciona todas las opciones que correspondan.
1. ¿Quién creó este conjunto de datos? Correcto. “¿Este conjunto de datos es de una organización creíble?” y
“¿Quién creó este conjunto de datos?” son preguntas que pueden ayudarte a determinar si una fuente de datos
es citada.
2. ¿Son pertinentes estos datos para el problema que intento resolver?
3. ¿Este conjunto de datos fue limpiado correctamente?.
4. ¿Este conjunto de datos es de una organización creíble?. Correcto. “¿Este conjunto de datos es de una
organización creíble?” y “¿Quién creó este conjunto de datos?” son preguntas que pueden ayudarte a
determinar si una fuente de datos es citada.
Pregunta 3
Un analista de datos está analizando datos de ventas para detectar la versión más reciente de un producto. Usa
datos de terceros de una versión anterior del producto. ¿Por qué motivos esto es inadecuado para su análisis?
Selecciona todas las opciones que correspondan.
1. Los datos no son actuales. Correcto. Los datos de terceros sobre una versión anterior del producto son
inadecuados porque no son originales ni actuales.
2. Los datos son sesgados
3. Los datos no son precisos. Esto no debería estar seleccionado. Los datos de terceros sobre una versión
anterior del producto son inadecuados porque no son originales ni actuales.
4. Los datos no son originales
Ahora, hablemos sobre otro aspecto de la ética de datos: el consentimiento. Es un derecho de la persona conocer los detalles
explícitos sobre cómo y por qué se usarán sus datos antes de aceptar proporcionarlos. Deben conocer las respuestas a
preguntas como: ¿Por qué se recopilan los datos? ¿Cómo se usarán? ¿Durante cuánto tiempo se almacenarán? La mejor
forma de otorgar el consentimiento probablemente sea una conversación entre la persona que proporciona los datos y la
persona que los solicita. Pero con tanta actividad que sucede en línea estos días, el consentimiento solo se parece a una
casilla de verificación de términos y condiciones con enlaces a información más detallada. Aceptémoslo, no todos hacen clic
para leer esos detalles. El consentimiento es importante porque impide que se apunte injustamente a todas las poblaciones,
lo que implica un problema muy grande para los grupos marginados que suelen estar desproporcionadamente mal
representados por datos sesgados.
Luego, sigue la vigencia. Las personas deben estar al tanto de las transacciones financieras que derivan del uso de sus datos
personales y la escala de estas transacciones. Si tus datos ayudan a financiar las actividades de una empresa, debes saber a
qué se refieren todas esas actividades y deben darte la oportunidad de optar por no participar. Los últimos dos aspectos de la
ética de datos, la privacidad y la apertura, merecen un tratamiento especial en esta etapa de los datos. Pronto sabrás por
qué.
Anonimización de datos:
¿Qué es la anonimización de datos?:
Has estado aprendiendo sobre la importancia de la privacidad en el análisis computacional de datos. Ahora es
momento de hablar sobre la anonimización de datos y qué tipos de datos se deben anonimizar. Información de
identificación personal, o PII, es la información que se puede usar por sí misma o con otros datos para rastrear la
identidad de una persona.
La anonimización de datos es el proceso de proteger los datos privados o confidenciales de las personas eliminando
esa clase de información. A menudo, la anonimización de datos incluye dejar en blanco, ejecutar el algoritmo hash o
enmascarar la información personal, por lo general, mediante el uso de códigos de longitud fija para representar
columnas de datos u ocultar datos con valores alterados.
Números telefónicos
Nombres
Patentes de vehículos y licencias de conducir
Números de seguro social
Direcciones IP
Registros médicos
Direcciones de correo electrónico
Fotografías
Números de cuentas
Para algunas personas, es lógico que este tipo de datos sean anónimos. Para otros, debemos ser muy específicos
sobre qué debe ser anonimizado. Imagina un mundo en el que todos tuvieran acceso a las direcciones, números de
cuentas y otra información identificable de los demás. Eso invadiría un montón la privacidad de las personas y haría
que el mundo fuera menos seguro. La anonimización de datos es una de las formas de mantener los datos privados y
seguros.
CUESTIONARIO:
Pregunta 1
Completa el espacio en blanco: _____ establece que se deben explicar cabalmente todas las actividades de
procesamiento de datos y los algoritmos a la persona que proporciona los datos y también establece que esta
persona debe comprenderlos.
1. Vigencia
2. Apertura
3. Privacidad
4. Transparencia de la transacción
Correcto. La transparencia de la transacción establece que se deben explicar cabalmente todas las actividades de
procesamiento de datos y los algoritmos a la persona que proporciona los datos y también establece que esta persona
debe comprenderlos.
Pregunta 2
Un analista de datos quita la información de identificación personal de un conjunto de datos. ¿Qué tarea
realiza?
1. Recopilación de datos
2. Ordenación de datos
3. Anonimización de datos
4. Visualización de datos
Correcto. Realiza la anonimización de datos, que es el proceso de protección de los datos privados o sensibles de las
personas mediante la eliminación de información que pueda asociarse con ellas.
Pregunta 3
Antes de completar una encuesta, la persona reconoce haber leído la información sobre cómo y por qué se
utilizarán los datos que proporcione. ¿Cómo se llama este concepto?
1. Consentimiento
2. Vigencia
3. Privacidad
4. Discreción
Correcto. Este concepto se llama consentimiento. El consentimiento es el aspecto de la ética de datos que presupone el
derecho de una persona a conocer cómo y por qué se utilizarán sus datos personales, antes de aceptar
proporcionarlos.
Ahora, veamos un poco más por qué los datos son algo tan importante y cómo pueden ayudarte, como analista de datos.
Uno de los beneficios más importantes que ofrecen los datos abiertos es la posibilidad de usar bases de datos creíbles de
manera más generalizada. Lo más importante es que todos esos datos correctos se pueden aprovechar, compartir y combinar
con otros datos. Imagínate el impacto que tendría eso en la colaboración científica, los avances en investigación, la capacidad
analítica y la toma de decisiones. Por ejemplo, en la salud humana, la apertura nos permite acceder a diversos datos y
combinarlos para detectar las enfermedades cada vez con mayor anticipación. En el gobierno, puede ayudar a que los líderes
rindan cuentas y proporcionen un mejor acceso a los servicios ofrecidos a la comunidad. Las posibilidades y los beneficios son
casi infinitos. Pero, por supuesto, toda gran idea tiene sus desafíos. Se necesita una gran cantidad de recursos para hacer el
cambio tecnológico hacia los datos abiertos. La interoperabilidad es clave para el éxito de los datos abiertos. La
interoperabilidad es la capacidad de los sistemas y los servicios de datos para conectar y compartir datos. Por ejemplo, la
interoperabilidad de los datos es importante para los sistemas de atención médica en los que múltiples organizaciones, como
hospitales, clínicas, farmacias y laboratorios necesitan acceder a los datos y compartirlos para asegurase de que los pacientes
obtengan la atención que necesitan. Así, tu médico puede enviar tu receta directamente a la farmacia para que te entreguen
los medicamentos. Tienen bases de datos compatibles que les permite compartir información. Pero este tipo de
interoperabilidad requiere mucha cooperación. Aunque el intercambio de datos abiertos, oportunos, justos y simples ofrece
un potencial importante, su futuro dependerá de la eficacia con la que se aborden desafíos más amplios. Como analista de
datos, digo que cuanto antes, mejor. Por cierto, vamos a hablar más sobre datos abiertos y ver su uso en acción en un
próximo video. Ahora que has aprendido todo sobre ética de datos, tienes algunos principios importantes que te guiarán en
tu <i>data journey</i>. Cuando no estés seguro de tus datos, recuerda lo que aprendiste aquí.
Estar disponibles y accesibles para el público en general como un conjunto de datos completo.
Ser suministrados bajo términos que permitan reutilizarlos y redistribuirlos.
Permitir la participación universal para que todos puedan usar, reutilizar y redistribuir los datos.
Los datos solo se pueden considerar abiertos cuando cumplen todas esas tres normas.
El debate de los datos abiertos: ¿Qué datos deben estar disponibles públicamente?
Uno de los más grandes beneficios de los datos abiertos es que permiten usar bases de datos creíbles en forma más
amplia. Básicamente, esto significa que todos los datos correctos se pueden aprovechar, compartir y combinar con
otros datos. Esto podría tener un impacto enorme en la colaboración científica, los avances en investigación, la
capacidad analítica y la toma de decisiones. Pero también es importante pensar en los individuos representados por los
datos públicos y abiertos.
Los datos de terceros son recopilados por una entidad que no tiene una relación directa con los datos. Como recordarás,
ya aprendimos sobre este tipo de datos. Por ejemplo, terceros podrían recopilar la información sobre los visitantes a un
determinado sitio web. Esto les permite a dichos terceros crear perfiles de audiencia que los ayuda a comprender mejor
el comportamiento del usuario y apuntar a ellos con publicidad más efectiva.
Información de identificación personal (PII) son datos que pueden identificar razonablemente a una persona y dar a
conocer información sobre ella. Es importante mantener estos datos seguros. PII puede incluir la dirección de una
persona, información de tarjetas de crédito, número de seguro social, registros médicos y mucho más.
Todos quieren conservar la privacidad de su información personal. Como los datos de terceros son de fácil acceso, es
importante equilibrar la apertura de los datos con la privacidad de las personas.
1. Sitio de datos del gobierno de los Estados Unidos: Data.gov es una de las fuentes de datos más completas de los
Estados Unidos. Este recurso proporciona a los usuarios los datos y las herramientas que necesitan para hacer
investigaciones, e incluso los ayuda a desarrollar aplicaciones web y móviles y diseñar visualizaciones de
datos.
2. Oficina de Censos de los Estados Unidos: Esta fuente de datos abiertos ofrece información demográfica de los
gobiernos federales, estatales y locales, y también de entidades comerciales en los Estados Unidos.
3. Red de datos abiertos: Esta fuente de datos es un motor de búsqueda realmente poderoso y con filtros de
avanzada. Aquí puedes encontrar datos sobre temas de finanzas, seguridad pública, infraestructura, vivienda y
desarrollo.
4. Conjuntos de datos públicos de Google Cloud: El Programa de conjuntos de datos públicos de Google Cloud
ofrece una selección de conjuntos de datos públicos que puedes encontrar ya cargados en BigQuery.
5. Dataset Search: Dataset Search es un motor de búsqueda diseñado específicamente para conjuntos de datos;
puedes usarlo para buscar conjuntos de datos específicos.
CUESTIONARIO:
Pregunta 1
¿Qué aspecto de la ética de datos promueve el acceso libre a los datos, su uso y también el uso compartido?
1 / 1 punto
1. Transparencia de la transacción
2. Consentimiento
3. Apertura
4. Privacidad
Correcto. Apertura es el aspecto de la ética de datos que promueve el acceso libre a los datos, su uso y también el uso
compartido.
Pregunta 2
¿Cuáles son los principales beneficios de los datos abiertos? Selecciona todas las opciones que
correspondan.
0.75 / 1 punto
1. Los datos abiertos hacen que los datos correctos estén ampliamente disponibles. Correcto. Entre los beneficios
de los datos abiertos se encuentran la amplia difusión de datos correctos y la combinación de datos de
diferentes campos del conocimiento.
2. Los datos abiertos combinan datos de diferentes campos del conocimiento.Correcto. Entre los beneficios de los
datos abiertos se encuentran la amplia difusión de datos correctos y la combinación de datos de diferentes
campos del conocimiento.
3. Los datos abiertos aumentan la cantidad de datos disponibles para la compra. Esto no debería estar
seleccionado. Entre los beneficios de los datos abiertos se encuentran la amplia difusión de datos correctos y la
combinación de datos de diferentes campos del conocimiento.
4. Los datos abiertos restringen el acceso de los datos a determinados grupos de personas.
Pregunta 3
La participación universal es un estándar de los datos abiertos. ¿Cuáles son los aspectos clave de la
participación universal? Selecciona todas las opciones que correspondan.
1. Todas las corporaciones pueden vender datos abiertos.
2. Ciertos grupos de personas deben compartir sus datos privados.
3. Nadie puede imponer restricciones en los datos para discriminar a una persona o a un grupo. Correcto. Los
aspectos clave de la participación universal sostienen que todo el mundo debe poder utilizar, reutilizar y
redistribuir los datos abiertos. Además, nadie puede imponer restricciones en los datos para discriminar a una
persona o a un grupo.
4. Todos deben poder usar, reutilizar y redistribuir los datos abiertos. Correcto. Los aspectos clave de la
participación universal sostienen que todo el mundo debe poder utilizar, reutilizar y redistribuir los datos
abiertos. Además, nadie puede imponer restricciones en los datos para discriminar a una persona o a un grupo.
Glosario
Análisis computacional de datos
Términos y definiciones
A
Agenda: Una lista de citas programadas.
Alcance del trabajo (SOW): Esquema acordado de las tareas a realizar durante un proyecto.
Análisis de datos: La recopilación, transformación y organización de los datos para sacar conclusiones, hacer predicciones e
impulsar una toma de decisiones fundamentada.
Análisis de déficits: Método para examinar y evaluar el estado actual de un proceso con el fin de identificar las
oportunidades de mejora en el futuro.
Analista de datos: Alguien que recopila, transforma y organiza los datos para sacar conclusiones, hacer predicciones e
impulsar la toma de decisiones fundamentada.
Anonimización de datos: El proceso de proteger los datos privados o confidenciales de las personas eliminando información
que pueda asociarse a ellas.
Apertura: El aspecto de la ética de datos que promueve el acceso libre a los datos, su uso y también el uso compartido.
Archivo de audio: Almacenamiento en audio digitalizado generalmente en MP3, AAC u otro formato comprimido.
Archivo de video: Conjunto de imágenes, archivos de audio y otros datos generalmente codificados en un formato
comprimido, por ejemplo, MP4, MV4, MOV, AVI o FLV.
Atributo: Característica o calidad de los datos que se usa para etiquetar una columna en una tabla.
B
Base de datos relacional: Base de datos que contiene una serie de tablas que se pueden conectar para formar relaciones.
Bordes: Líneas que se pueden agregar alrededor de dos o más celdas en una hoja de cálculo.
C
Campo: Información de una fila o columna de una hoja de cálculo; en una tabla de datos, suele ser una columna de la tabla.
Ciclo de vida de los datos: Secuencia de etapas por las que pasan los datos, que incluye planificar, capturar, gestionar,
analizar, archivar y destruir.
Ciencia de datos: Campo de estudio que utiliza datos sin procesar para crear nuevas formas de modelar y entender lo
desconocido.
Conjunto de datos: Una colección de datos que pueden ser manipulados o analizados como una unidad.
Consentimiento: El aspecto de la ética de datos que considera el derecho de una persona de conocer cómo y por qué se
utilizarán sus datos personales antes de estar de acuerdo de proporcionarlos.
CONTAR: Función de la hoja de cálculo que cuenta el número de celdas en un rango que cumplen con un criterio específico.
Controlador de relleno: Cuadro en la esquina inferior derecha de una celda seleccionada de una hoja de cálculo que se
puede arrastrar pasando por celdas vecinas para seguir una instrucción.
Cookie: Pequeño archivo almacenado en una computadora que contiene información acerca de sus usuarios.
D
Datos abiertos: Datos que están disponibles para el público.
Datos booleanos: Tipo de datos con solo dos valores posibles, generalmente verdadero o falso.
Datos continuos: Datos que se miden y que pueden tener casi cualquier valor numérico.
Datos de primera fuente: Datos recopilados por una persona o por un grupo utilizando sus propios recursos.
Datos de segunda fuente: Datos que recopila un grupo directamente de su audiencia y que, luego, se venden.
Datos de terceros: Datos proporcionados de fuentes externas que no los recopilaron directamente.
Datos en formato ancho: Conjunto de datos en el que cada tema tiene una sola fila con varias columnas para describir los
valores de los distintos atributos del tema.
Datos en formato largo: Conjunto de datos en el que cada fila constituye un punto en el tiempo por sujeto, es decir que cada
sujeto tiene datos en varias filas.
Datos estructurados: Datos organizados de cierta forma, por ejemplo, en filas y columnas.
Datos externos: Los datos que se alojan y generan fuera de una organización.
Datos no estructurados: Datos que no se organizan de forma que sea fácil identificarlos.
Datos nominales: Tipo de datos cualitativos que se categorizan sin un orden establecido.
Datos ordinales: Datos cualitativos con un orden o escala establecidos.
Destrezas analíticas: Cualidades y características asociadas al uso de hechos para resolver problemas.
Dominio del problema: Área de análisis que abarca cada actividad que afecta a un problema o se ve afectada por él.
E
Ecosistema de datos: Los distintos elementos que interactúan entre sí para producir, gestionar, almacenar, organizar, analizar
y compartir datos.
Ecuación: Cálculo que implica suma, resta, multiplicación o división (también se denomina expresión matemática).
Encabezado: La primera fila en una hoja de cálculo que hace referencia al tipo de datos en cada columna.
Equidad: Cualidad del análisis de datos que no genera sesgos ni los reafirma.
Estrategia de datos: La gestión de las personas, los procesos y las herramientas que se usan en el análisis de datos.
Ética de datos: Normas justificadas respecto de lo que está bien y lo que está mal a la hora de recopilar, compartir y usar
datos.
Ética: Normas justificadas respecto de lo que está bien y lo que está mal. Por lo general, presuponen lo que deben hacer los
seres humanos, usualmente en términos de derechos, obligaciones, beneficios para la sociedad, equidad o virtudes
específicas.
Expresión matemática: Cálculo que implica la suma, resta, multiplicación o división (también denominada “ecuación”).
F
Filtrado: Proceso que muestra solo los datos que cumplen con un criterio específico mientras oculta el resto.
Fórmula: Conjunto de instrucciones que se utilizan para realizar un cálculo utilizando los datos de una hoja de cálculo.
Foto digital: Una imagen electrónica o computarizada, generalmente en formato BMP o JPG.
Fuente de datos correctos: Fuente de datos confiable, original, integral, actual y citada (ROCCC).
Fuente de datos erróneos: Fuente de datos que no es confiable, original, integral, actual ni citada (ROCCC).
Función matemática: Función que se utiliza como parte de una fórmula matemática.
Función: Comando preestablecido que realiza automáticamente un proceso o tarea especificado utilizando los datos de una
hoja de cálculo.
G
Gráfico dinámico: Gráfico creado a partir de los campos de una tabla dinámica.
H
Hoja de cálculo: Una hoja de cálculo digital.
I
Informe: Conjunto estático de datos que se entrega periódicamente a los interesados.
Interesados: Personas que invierten tiempo y recursos en un proyecto y se interesan por su resultado.
Interoperabilidad de los datos: Factor clave que conlleva el uso satisfactorio de los datos abiertos entre empresas y
gobiernos.
J
K
L
Lenguaje de consulta estructurado (SQL): Lenguaje de programación informática utilizado para comunicarse con una base de
datos.
Lenguaje de consulta: Lenguaje de programación informática utilizado para comunicarse con una base de datos.
M
Macrodatos: Conjuntos de datos grandes, complejos que generalmente implican largos períodos de tiempo, que permiten
que los analistas de datos aborden los problemas comerciales de gran alcance.
MAX: Función de la hoja de cálculo que muestra el valor numérico mayor de un rango de celdas.
Mentalidad técnica: La capacidad de dividir las cosas en pasos o piezas más pequeñas y trabajar con ellas de forma ordenada
y lógica.
Metodología SMART: Herramienta para determinar la eficacia de una pregunta según sea específica, mensurable, orientada a
la acción, pertinente y con plazos determinados.
Microdatos: Puntos de datos pequeños, específicos, que generalmente involucran un breve período y que son útiles para
tomar decisiones diarias.
MIN: Función de la hoja de cálculo que muestra el valor numérico menor de un rango de celdas.
Modelo de datos: Herramienta para organizar los elementos de datos y la forma en que se relacionan entre ellos.
Muestra: En el análisis computacional de datos, segmento de una población que la representa toda.
N
Nube: Lugar para mantener los datos en línea, en lugar de tenerlos en el disco duro de una computadora.
O
Objetivo medible: Objetivo medible establecido por una empresa y evaluado mediante métricas.
Observación: Los atributos que describen una pieza de datos contenida en una fila de una tabla.
Oficina del Censo de los Estados Unidos: Agencia del Departamento de Comercio de los Estados Unidos que funciona como
proveedor principal de datos de calidad sobre las personas y la economía a nivel nacional.
Orden de operaciones: Uso de paréntesis para agrupar los valores de la hoja de cálculo a fin de aclarar el orden en el que
deben realizarse las operaciones.
Ordenación: El proceso de organizar los datos en un orden significativo para que sea más fácil entenderlos, analizarlos y
visualizarlos.
P
Panel: Herramienta que monitorea los datos entrantes en vivo.
Pensamiento analítico: El proceso de identificar y definir un problema, para luego resolverlo mediante el uso de datos de
manera organizada, paso a paso.
Pensamiento estructurado: El proceso de reconocer el problema o la situación actuales, organizar la información disponible,
revelar déficits y oportunidades, e identificar opciones.
Píxel: En imágenes digitales, es un área pequeña de iluminación en una pantalla de visualización que, cuando se combina con
otras áreas adyacentes, forma una imagen digital.
Población: En análisis computacional de datos, todos los valores de datos posibles en un conjunto de datos.
Pregunta específica: Pregunta simple, significativa y enfocada en un solo tema o en algunas ideas estrechamente
relacionadas entre sí.
Pregunta injusta: Pregunta en la que se hacen suposiciones o que es difícil de responder honestamente.
Pregunta principal: Pregunta que orienta a las personas hacia cierta respuesta.
Pregunta relevante: Pregunta que tiene importancia para el problema que se debe resolver.
Privacidad de los datos: Preservación de la información sobre los datos de una persona cada vez que ocurre una transacción
de datos.
Proceso de análisis de datos: Las seis fases de preguntar, preparar, procesar, analizar, compartir y actuar cuyo propósito es el
de obtener conocimiento que propicie la toma de decisiones informada.
PROMEDIO: Función de una hoja de cálculo que muestra el resultado de un promedio de los valores de un rango
seleccionado.
Propiedad: El aspecto de la ética de datos que presupone que cada persona es dueña de los datos sin procesar que
proporciona y que tiene control primordial sobre su uso, procesamiento y uso compartido.
Q
R
Rango: Conjunto de dos o más celdas en una hoja de cálculo.
Redes sociales: Sitios web y aplicaciones en los que los usuarios crean y comparten contenido o interactúan entre sí.
Referencia de celda: Una celda o un rango de celdas en una hoja de cálculo que se utiliza generalmente en las fórmulas y
funciones.
Reformulación: Proceso de replantear un problema o desafío, que se redirecciona luego hacia una posible resolución.
Registro: Conjunto de datos relacionados en una tabla de datos, generalmente sinónimo de “fila”.
Reglamento General de Protección de Datos de la Unión Europea (GDPR): Organismo formulador de políticas en la Unión
Europea, creado para ayudar a proteger a las personas y sus datos.
Retorno de la inversión (ROI): Fórmula que utiliza las métricas de inversión y ganancias para evaluar el éxito de una inversión.
S
Sesgo de confirmación: La tendencia de buscar o interpretar la información de manera que confirma creencias preexistentes.
Sesgo de los datos: Cuando una preferencia a favor o en contra de una persona, un grupo de personas o una cosa sesga
sistemáticamente los resultados del análisis de datos en una cierta dirección.
Sesgo del investigador: Tendencia de distintas personas a observar las cosas de forma diferente (también se denomina
“sesgo del observador”).
Sesgo del muestreo: Representar en mayor o en menor medida a ciertos miembros de una población debido a que se trabaja
con una muestra que no representa a la población en su totalidad.
Sesgo del observador: Tendencia de distintas personas a observar las cosas de forma diferente (también se denomina “sesgo
del investigador”).
Sesgo: Preferencia consciente o no a favor o en contra de una persona, un grupo de personas o una cosa.
SUMA: Función de una hoja de cálculo que suma los valores de un rango de celdas seleccionadas.
T
Tabla dinámica: Herramienta de resumen de datos que se utiliza para clasificar, reorganizar, agrupar, contar, totalizar o
promediar datos.
Tarea empresarial: La pregunta o el problema que el análisis de datos resuelve para un negocio.
Tasa de rotación: Ritmo en el que los empleados abandonan voluntariamente una empresa.
Tipo de datos de texto: Secuencia de caracteres y puntuación que contiene información textual (también denominado “tipo
de datos de cadena”).
Tipo de datos en cadena: Secuencia de caracteres y puntuación que contiene información textual (también denominado
“tipo de datos de texto”).
Tipo de datos: Atributo que describe los datos según sus valores, su lenguaje de programación o las operaciones que puede
realizar.
Tipos de problemas: Distintos problemas a los que se enfrenta el analista de datos, que incluyen categorizar elementos,
descubrir conexiones, hallar patrones, identificar temas, hacer predicciones y detectar algo inusual.
Toma de decisiones basada en datos: Uso de datos para guiar la estrategia empresarial.
Toma de decisiones inspirada en datos: Exploración de diferentes fuentes de datos para descubrir qué tienen en común.
Transparencia de la transacción: Aspecto de la ética de datos que presupone que se deben explicar todas las actividades de
procesamiento de datos y los algoritmos a la persona que proporciona los datos y que también presupone que esta persona
debe comprenderlos.
U
V
Vigencia: El aspecto de la ética de datos que presupone que las personas deben conocer las transacciones financieras
resultantes del uso de sus datos personales y la magnitud de esas transacciones.
CUESTIONARIO MODULO 2:
Pregunta 1
¿Cuáles de las siguientes situaciones son ejemplos de sesgo? Selecciona todas las opciones que
correspondan.
1. Un juez de concurso de baile que es amigo íntimo de la bailarina que gana el concurso
2. Un académico que solo lee fuentes que apoyan su argumento. Correcto. Un académico que solo lee las fuentes
que apoyan su argumento, una guardería que no contrata a hombres para puestos de cuidado de niños y un
juez de concurso de baile que es amigo íntimo de la bailarina que gana el concurso son ejemplos de sesgo.
3. Una guardería que no contrata a hombres para puestos de cuidado de niños. Correcto. Un académico que solo
lee las fuentes que apoyan su argumento, una guardería que no contrata a hombres para puestos de cuidado
de niños y un juez de concurso de baile que es amigo íntimo de la bailarina que gana el concurso son ejemplos
de sesgo.
4. Un investigador que encuesta al grupo de una muestra que no es representativa de la población.
Esto no debería estar seleccionado
Una universidad encuesta a sus alumnos deportistas sobre su experiencia deportiva en la universidad. La
encuesta solo incluye estudiantes deportistas becados. ¿Qué tipo de sesgo es el de este ejemplo?
1. Sesgo de interpretación
2. Sesgo del observador
3. Sesgo de confirmación
4. Sesgo del muestreo
Correcto. Este es un ejemplo de sesgo del muestro, que ocurre cuando una muestra no es representativa de toda la
población en su conjunto.
Pregunta 3
¿Cuál de las siguientes opciones describe cualidades de los datos correctos? Selecciona todas las opciones
que correspondan.
1. Integrales. Correcto Los datos correctos son completos, actuales y citados.
2. Actuales. Correcto. Los datos correctos son completos, actuales y citados.
3. Consecuentes
4. Citados. Correcto. Los datos correctos son completos, actuales y citados.
Pregunta 4
Completa el espacio en blanco: _____ de datos se refiere a normas justificadas respecto de lo que está bien y
lo que está mal a la hora de recopilar, compartir y usar datos
1. privacidad
2. ética
3. credibilidad
4. anonimización
Correcto. La ética de datos se refiere a normas justificadas respecto de lo que está bien y lo que está mal a la hora de
recopilar, compartir y usar datos.
Pregunta 5
La persona que proporciona sus datos tiene derecho a saber y comprender todas las actividades de
procesamiento de datos y los algoritmos utilizados en esos datos. Esto se llama propiedad.
1. Verdadero
2. Falso
Correcto. La persona que proporciona sus datos tiene derecho a saber y comprender todas las actividades de
procesamiento de datos y los algoritmos utilizados en esos datos. Esto se llama transparencia de la transacción.
Pregunta 6
Pregunta 8
Un aspecto clave de los datos abiertos es el libre acceso a la información personal de las personas.
1. Verdadero
2. Falso
Correcto. Los datos abiertos no implican otorgar libre acceso a la información personal de las personas.
Modulo 3
Trabajar con bases de datos.
VIDEO: Todo sobre las bases de datos.
Hola de nuevo. Hasta ahora, has visto cómo se pueden reunir y analizar los datos para resolver todo tipo de problemas. El
siguiente paso es aprender todo sobre bases de datos a modo de repaso. Una base de datos es un conjunto de datos
almacenados en un sistema informático, pero el almacenamiento es solo el comienzo. Descubrirás cómo las bases de datos
posibilitan encontrar la información exacta que necesitas para tu análisis. También aprenderás cómo ordenar los datos para
acercar aquellos que necesites para generar informes perspicaces y mucho más. Luego profundizaremos estos temas muy,
pero muy a fondo. Estoy hablando de metadatos. Es probable que hayas escuchado a alguien decir que algo es
“autoconsciente” (en inglés, “meta”). En general, están hablando de algo que se refiere a sí mismo o que está siendo
consciente de sí mismo. Por ejemplo, si el personaje de un libro sabe que está dentro de un libro, es autoconsciente.. Si
realizas un documental sobre cómo hacer documentales, eso también es algo autoconsciente. Y aquí, en Google,
constantemente analizo la forma en que analizo los datos. No hay duda de que eso es autoconsciente.
Hago eso para que mi trabajo cuente con una revisión de calidad, para asegurarme de que mis métodos son justos. Y para
asegurarme de que estoy prestando atención a cualquier sesgo que pueda afectar el resultado. Como analista, debes hacer
esto también. A veces nos acercamos demasiado a nuestros datos. Y es clave tomar distancia y preguntarnos a nosotros
mismos si nuestros procesos tienen sentido. Pero regresemos un poco hacia atrás y definamos metadatos. Los metadatos<b>
</b>son datos sobre los datos. Como ya dije: es muy profundo.
Los metadatos son muy importantes cuando trabajas con bases de datos. Piensa en ellos como una guía de referencia. Sin
esa guía lo único que tienes es un montón de datos sin un contexto que explique lo que significan. Los metadatos indican de
dónde vienen los datos, cuándo y cómo se crearon, y de qué se tratan.
A continuación, aprenderás cómo tomar datos de una base de datos u otra fuente y agregarlos a una hoja de cálculo. Podrás
hacer esto importando datos directamente o utilizando SQL para generar la solicitud. Y una vez que tengas los datos en una
hoja de cálculo, las posibilidades son infinitas. Todo lo que estamos a punto de aprender es una parte muy importante de la
fase de preparación del proceso de análisis de datos. Es cómo los analistas de datos descubren qué tipo de datos serán útiles
para ellos. Si tienes los datos correctos, es muy probable que puedas resolver los problemas de tu empresa de forma exitosa.
¿Estás listo para aprovechar el increíble poder de las bases de datos? Empecemos.
En una tabla no relacional, encontrarás todas las variables posibles que podría interesarte analizar agrupadas
conjuntamente. Esto puede hacer que sean realmente difíciles de clasificar. Esa es una de las razones por las que las
bases de datos relacionales son tan comunes en el análisis de datos: simplifican muchos procesos de análisis y hacen
que los datos sean más fáciles de encontrar y de usar en toda una base de datos.
Por el contrario, una clave externa es un campo en una tabla que es una clave primaria en otra tabla. Una tabla puede
tener solo una clave primaria, pero puede tener varias claves externas. Esas claves son las que generan las relaciones
entre las tablas en una base de datos relacional, lo que ayuda a organizar y conectar los datos entre varias tablas en la
base de datos.
Algunas tablas no requieren una clave primaria. Por ejemplo, una tabla de ingresos puede tener muchas claves
externas y ninguna clave primaria. Una clave primaria también puede construirse a partir de varias columnas de una
tabla. Este tipo de clave primaria se denomina clave compuesta. Por ejemplo, si customer_id y location_id son dos
columnas de una clave compuesta en la tabla de un cliente, los valores asignados a esos campos en cualquier fila dada
deben ser únicos en toda la tabla.
¿SQL? Estás hablando mi idioma
Las bases de datos utilizan un lenguaje especial para comunicarse denominado lenguaje de consulta. El lenguaje de
consulta estructurado (SQL) es un tipo de lenguaje de consulta que permite a los analistas de datos comunicarse con la
base de datos. De este modo, un analista de datos usará SQL para crear una consulta con el fin de ver los datos
específicos que quiere visualizar en un conjunto más grande. En una base de datos relacional, los analistas de datos
pueden escribir consultas para obtener información de las tablas relacionadas. SQL es una herramienta poderosa para
trabajar con bases de datos; ¡por eso aprenderás más sobre esta herramienta a continuación!
Antes de comenzar un análisis, es importante examinar tus datos para determinar si contienen la información específica
que necesitas para responder las preguntas de tus interesados. En cualquier conjunto de datos puede darse el caso de
que:
Los datos no estén allí (tienes datos sobre sándwiches, pero necesitas datos sobre pizza).
Los datos no sean suficientes (tienes datos sobre pizza desde el 1 hasta el 7 de junio, pero necesitas datos de
todo el mes de junio).
Los datos sean incorrectos (los datos sobre pizza cotizan una porción a $250, lo que te hace dudar de la validez
del conjunto de datos).
Examinar el conjunto de datos te ayudará a identificar las preguntas que puedes responder y qué datos aún te faltan.
Podrás reponer esos datos de una fuente externa o, al menos, recomendarles a tus interesados que utilicen otra fuente
de datos.
En esta lectura, imagina que eres un analista de datos que busca datos en una hoja de cálculos para determinar si es
posible responder las preguntas de tus interesados.
El escenario:
Eres una analista de datos que trabaja para una empresa de helados. La gerencia está interesada en mejorar las
ventas de helado de la empresa.
La empresa ha estado recopilando datos sobre sus ventas, pero no son demasiados. Los datos disponibles son de una
fuente de datos interna y están basados en las ventas de 2019. Te han pedido que revises los datos y que brindes
información sobre las ventas de helados de la empresa. Idealmente, la gerencia quisiera las respuestas a las siguientes
preguntas:
Si no tienes una cuenta de Google, puedes descargar las hojas de cálculo directamente desde el siguiente archivo
adjunto:
XLSX File
XLSX File
Haz clic en la pestaña saboresde la hoja de cálculo para ver los datos pertinentes. La hoja de sabores tiene tres
columnas y 209 filas de datos. Los encabezados de las columnas son semana(A), unidades vendidas(B) y sabor(C). Este
conjunto de datos no tiene una descripción de datos, así que tendrás que descubrir la importancia de las columnas por
ti mismo. En base a los datos, deduces que estas columnas brindan información sobre el número de unidades vendidas
semanalmente de cada sabor de helado en 2019.
En este caso, puedes descubrir cuál es el sabor más popular utilizando las unidades vendidas como medida. En
particular, puedes utilizar la columna unidades vendidas(B) para calcular el número total de unidades vendidas de cada
sabor durante el año. Desafortunadamente, el conjunto de datos no proporciona el monto de ventas anuales de cada
sabor. En este caso, el siguiente paso sería preguntarles a los interesados si los datos de las ventas anuales por sabor
están disponibles en otra fuente. Si no es el caso, puedes agregar una instrucción sobre las limitaciones que presentan
los datos actuales para tu análisis.
Entonces, ¿qué significa? Es posible que sea un panorama diario porque hay 365 entradas para la temperatura y
muchas filas con la misma temperatura y diferentes valores de ventas. Esto quiere decir que cada entrada corresponde
a un día y no a un resumen de varios días. De todos modos, si no cuentas con más información, no puedes estar
seguro. Además, no sabes si estos datos están ordenados de manera consecutiva por fecha o si se encuentran en otro
orden. El siguiente paso sería ponerse en contacto con el propietario del conjunto de datos para que aclare esta
cuestión.
Si resulta que las temperaturas afectan las ventas, podrás ofrecerle a tus interesados información como la siguiente:
“Cuando las temperaturas máximas están por encima de los X grados, el promedio de las ventas de helados aumenta
en Y cantidad. Por ese motivo, la empresa debería planear un aumento del inventario durante esa época para
maximizar las ventas”.
Pregunta 3: ¿De qué manera los fines de semana y los días feriados afectan las ventas?
A continuación, haz clic en la pestaña ventas para ver los datos sobre las fechas de venta. La hoja ventas tiene dos
columnas y 366 filas de datos. Los encabezados de las columnas son fecha y ventas. Es muy probable que los datos
sean las ventas diarias totales en 2019, ya que se registran las ventas de cada día durante 2019.
Puedes utilizar estos datos para determinar si una fecha específica cae en un fin de semana o en un día feriado y
agregar una columna a tu hoja que refleje esta información. Luego, podrás averiguar si las ventas durante los fines de
semana o los días feriados son más altas que en cualquier otro día. Esto será útil para planificar el inventario y para
propósitos de marketing.
De ser así, el siguiente paso será descubrir cómo acceder a los datos de clientes que tiene la empresa. Luego podrás
incorporar los datos de ventas de ingreso a la tabla de datos del cliente para categorizar cada venta como
perteneciente a un cliente nuevo o a un cliente recurrente, para luego poder analizar la diferencia en cuanto a la
rentabilidad entre los dos grupos de clientes. Esta información ayudará a tus interesados a desarrollar campañas de
marketing para tipos específicos de clientes con el fin de aumentar la lealtad a la marca y la rentabilidad general.
Conclusión
Cuando trabajes con proyectos de analítica no siempre tendrás a tu disposición todos los datos necesarios o
pertinentes. En muchos de esos casos, podrás recurrir a otras fuentes de datos para completar la información.
Más allá de las limitaciones de tu conjunto de datos, todavía es posible ofrecer información valiosa a los interesados.
Para los próximos pasos, tu mejor plan de acción será tomar la iniciativa y hacer preguntas, identificar otros conjuntos
pertinentes de datos o investigar por tu cuenta. Analizar cuidadosamente tus datos tendrá un gran impacto en la
calidad general de tu análisis, sin importar los datos con los que estés trabajando.
CUESTIONARIO:
Pregunta 1
Completa el espacio en blanco: Un _____ es un identificador que hace referencia a una columna de una base de
datos en la que cada valor es único.
1. relación
2. clave externa
3. clave primaria
4. campo
Correcto. Una clave primaria es un identificador que hace referencia a una columna en la que cada valor es único. Una
clave externa es un campo en una tabla que es una clave primaria en la tabla original.
Pregunta 2
Completa el espacio en blanco: Una base de datos relacional contiene una serie de _____ que se pueden
conectar para formar relaciones.
1. celdas
2. hojas de cálculo
3. campos
4. tablas
Correcto. Una base de datos relacional contiene una serie de tablas que se pueden conectar para formar relaciones.
Pregunta 3
Un beneficio clave de trabajar con bases de datos normalizadas es que ayudan a reducir la redundancia de
datos. ¿Cuál de las siguientes opciones es un ejemplo de redundancia?
1. Una base de datos que contiene dos claves externas.
2. Una base de datos que forma dos o más relaciones
3. Los miembros del equipo en las distintas oficinas que trabajan con los mismos datos.
4. Los mismos datos se almacenan en dos lugares diferentes.
Correcto. Los mismos datos que se almacenan en dos lugares diferentes son un ejemplo de redundancia.
Así podrás ver los metadatos de tu fotografía, que te dirán el tipo de archivo que es, la fecha y la hora en que la tomaste, la
geolocalización o dónde la tomaste, qué tipo de dispositivo utilizaste para tomarla y mucho más. Asombroso, ¿verdad? Aquí
tienes otro ejemplo. Cada vez que envías o recibes un correo electrónico, los metadatos acompañan ese mensaje. Puedes
encontrarlos haciendo clic en “Ver original” o “Ver detalles del mensaje”.
Los metadatos de un correo electrónico incluyen su asunto, el remitente, el destinatario, y la fecha y la hora en que fue
enviado. Los metadatos incluso saben qué tan rápido fue enviado una vez que el remitente presionó “Enviar”. Los metadatos
son información que se utiliza para describir los datos que algo contiene, como una fotografía o un correo electrónico.
Recuerda que los metadatos no son los datos. En cambio, son datos sobre datos. En el análisis computacional de datos, los
metadatos ayudan al analista de datos a interpretar el contenido de los datos de una base de datos. Por eso los metadatos
son tan importantes cuando trabajas con bases de datos. Le indican al analista de qué se tratan los datos. Eso posibilita poner
los datos a trabajar para resolver problemas y tomar decisiones basadas en datos. Como analista de datos, hay tres tipos
comunes de metadatos con los que te vas a cruzar: descriptivos, estructurales y administrativos. Los metadatos descriptivos
son metadatos que describen una pieza de datos y pueden utilizarse para identificarla más adelante. Por ejemplo, los
metadatos descriptivos de un libro que se encuentra en una biblioteca incluirían el código que ves en el lomo, que se conoce
como código normalizado internacional para libros, también denominado ISBN.
También incluiría el autor y el título del libro. Luego pasamos a los metadatos estructurales, que son los metadatos que
indican cómo se organiza un dato y si forma parte de una o más recopilaciones de datos. Volvamos a la biblioteca. Un
ejemplo de datos estructurales sería cómo se reúnen las páginas de un libro para crear los diferentes capítulos. Es importante
dar cuenta de que los metadatos estructurales también hacen un seguimiento de la relación entre dos cosas. Por ejemplo,
pueden mostrarnos que el documento digital del manuscrito de un libro era en realidad la versión original de un libro que
hoy está impreso. Finalmente, tenemos los metadatos administrativos. Los metadatos administrativos son metadatos que
indican la fuente técnica de un recurso digital. Cuando observamos los metadatos de la fotografía, esos eran metadatos
administrativos. Te dirán el tipo de archivo que era, la fecha y la hora en que tomaste la fotografía, y mucho más. Aquí tienes
una reflexión final que te ayudará a comprender los metadatos. Si estás yendo a la biblioteca a buscar un libro, podrías buscar
el título de un libro, el autor, la extensión y la cantidad de capítulos. Esos son metadatos, y pueden decirte mucho sobre el
libro, pero tendrás que leer realmente el libro para saber de qué se trata. Del mismo modo, puedes leer sobre análisis
computacional de datos pero debes tomar este curso para obtener al certificado de Google Data Analytics. Sigue adelante
para obtener esa nueva perspectiva.
Echa un vistazo a cualquier dato que encuentres. ¿Qué es? ¿De dónde provino? ¿Es útil? ¿Cómo lo sabes? Aquí es
donde entran en juego los metadatos para proporcionar una mejor comprensión de los datos. En pocas palabras, los
metadatos son datos sobre datos. En la gestión de la base de datos, proporcionan información sobre otros datos y
ayudan a los analistas de datos a interpretar los contenidos de los datos en una base de datos.
Independientemente de si estás trabajando con una gran cantidad de datos o con una pequeña, los metadatos son la
marca de un equipo de análisis bien informado, que ayuda a comunicar datos a toda la empresa y a simplificar la
reutilización de los datos. Básicamente, los metadatos informan el quién, qué, cuándo, dónde, cuál, cómo y por qué de
los datos.
Título y descripción
¿Cuál es el nombre del archivo o del sitio web que estás examinando? ¿Qué tipo de contenido tiene?
Etiquetas y categorías
¿Cuál es la descripción general de los datos que tienes? ¿Los datos están indexados o descriptos de algún modo
específico?
Ejemplos de metadatos
En el mundo digital actual, los metadatos están en todos lados y es una práctica cada vez más común brindar
metadatos en muchos medios e información con la que interactúas. Aquí tienes algunos ejemplos de la vida real sobre
dónde encontrar metadatos:
Fotografías
Cuando se toma una fotografía con una cámara, se recopilan y se guardan metadatos relacionados con el nombre del
archivo en la cámara, la fecha, la hora y la geolocalización.
Correos electrónicos
Cuando envías o recibes un correo electrónico, hay muchos metadatos visibles, como la línea del asunto, el
destinatario, y la fecha y la hora del envío. También hay metadatos ocultos que incluyen nombres de servidores,
direcciones IP, formatos HTML y detalles de software.
Sitios web
Cada página web tiene un número de campos de metadatos estándar; por ejemplo, etiquetas y categorías, nombre del
creador del sitio, título y descripción de la página web, hora de creación y cualquier iconografía.
Archivos digitales
Por lo general, si haces clic con el botón derecho en cualquier archivo de la computadora, verás sus metadatos.
Pueden consistir en el nombre de un archivo, su tamaño, la fecha de creación y de modificación, y el tipo de archivo.
Libros
Los metadatos no son solamente digitales. Cada libro tiene una cantidad de metadatos estándares en las tapas y en el
interior que te informarán sobre el título, el nombre del autor, la tabla de contenidos, la información editorial, la
descripción de copyright, el índice y una breve descripción de los contenidos del libro.
Es una parte importante del proceso de descubrimiento de un proyecto de análisis de datos mientras trabajas con un cliente
o un proveedor para comprender los recursos con los que contarás para resolver un problema y qué es lo que falta. Te da las
claves para desbloquear los datos de modo simple y directo y es una gran herramienta de comunicación. Cuando estaba
trabajando para un publicitario, una de las cosas que estábamos tratando de hacer era construir algo llamado lago de datos.
En esencia, se trata de reunir todas las fuentes de datos que quieras utilizar en un análisis en un solo lugar, lo que puede
resultar realmente riesgoso. Uno de los beneficios de los metadatos era imaginar que teníamos fuentes que podían
superponerse, donde había fuentes de datos que tenían cosas en común. Y cuáles son las piezas únicas de información que
estábamos obteniendo de cada uno de esos conjuntos de datos. De modo que al pensar cómo encarar este proyecto
realmente enorme e importante pudimos utilizar los metadatos para alcanzar en forma rápida y fácil los constructos básicos
que estamos tratando de manejar. Cuando estás trabajando con personas que pueden no realizar análisis de datos en su
trabajo normal llegar al momento en que dicen "claro", ayudarlos a entender cómo las herramientas de medición y análisis
de datos pueden ayudarlos a lograr sus metas, es muy importante. Y darte cuenta de que hiciste algo que previamente era
inaccesible un poco más accesible para el equipo y lo has convertirlo en algo más cómodo para poner en práctica es
realmente importante y algo genial como resultado de una sociedad.
CUESTIONARIO:
Pregunta 1
Una empresa grande tiene varias recopilaciones de datos en sus diversos departamentos. ¿Qué tipo de
metadatos indica exactamente en cuántas recopilaciones se encuentra un dato?
1. Estructurales
2. Administrativos
3. Representativos
4. Descriptivos
Correcto. Los metadatos estructurales indican exactamente en cuántas recopilaciones se encuentran ciertos datos.
Proporciona información sobre cómo se organizan los datos y si forman parte de una o de más de una recopilación de
datos.
Pregunta 2
¿La fecha y el momento en que se tomó una foto es un ejemplo de qué tipo de metadatos?
1. Estructurales
2. Representativos
3. Descriptivos
4. Administrativos
Correcto. La fecha y el momento en que se tomó una foto es un ejemplo de metadatos administrativos. Los metadatos
administrativos indican la fuente técnica y los detalles para un activo digital.
Pregunta 3
Una escuela secundaria metropolitana grande le proporciona a cada estudiante un número de ID para
diferenciarlos en su base de datos. ¿Qué tipo de metadatos son los números de ID?
1. Administrativos
2. Representativos
3. Estructurales
4. Descriptivos
Correcto. Los números de ID son metadatos descriptivos. Los metadatos descriptivos describen a un dato o se pueden
utilizar para identificarlo en cualquier momento.
Pregunta 4
Una empresa necesita fusionar datos de terceros con sus propios datos. ¿Cuál de las siguientes acciones
ayudarán a que este proceso sea exitoso? Selecciona todas las opciones que correspondan.
1. Utilizar los metadatos para estandarizar los datos. Correcto. La empresa puede utilizar los metadatos para
estandarizar los datos y evaluar la calidad y credibilidad de los datos de terceros.
2. Reemplazar los metadatos de los datos entrantes con los metadatos de su propia empresa.
3. Utilizar los metadatos para evaluar la calidad y credibilidad de los datos de terceros.
4. Alterar los metadatos de la empresa para reflejar más minuciosamente los metadatos entrantes. Esto no
debería estar seleccionado. La empresa puede utilizar los metadatos para estandarizar los datos y evaluar la
calidad y credibilidad de los datos de terceros.
Google Sheets
En Google Sheets puedes utilizar la función IMPORTRANGE. Te permite especificar un rango de celdas en la otra hoja
de cálculo para duplicarlo en la hoja de cálculo en la que estás trabajando.
Debes permitir el acceso a la hoja de cálculo que contiene los datos la primera vez que importes los datos. La URL que
se muestra debajo es solamente para fines sintácticos. No la ingreses en tu hoja de cálculo. Reemplázala con una URL que
te dirija a una hoja de cálculo que hayas creado para que puedas controlar el acceso a la misma al hacer clic en el
botón Permitir acceso.
Para obtener más información sobre la sintaxis, consulta la página IMPORTRANGE en el Centro de ayuda de Google.
También hay un ejemplo para utilizar más adelante en el programa en Funciones avanzadas para una limpieza rápida
de datos.
Microsoft Excel
Para importar datos desde otra hoja de cálculo, sigue las siguientes instrucciones:
Paso 2: Haz clic en Obtener datos, selecciona Desde archivo, y luego selecciona Desde libro.
Paso 3: Explora y selecciona el archivo de la hoja de cálculo y luego haz clic en Importar.
Paso 5: Haz clic en Cargar para importar todos los datos en la hoja de trabajo; o haz clic en Transformar datos para abrir
el Editor de Power Query para ajustar las columnas y las filas de los datos que quieres importar.
Paso 6: Si hiciste clic en Transformar datos, haz clic en Cerrar y cargar y, luego, selecciona una de las dos opciones:
Cerrar y cargar para importar los datos a una hoja de cálculo nueva.
Cerrar y cargar a... para importar los datos a una hoja de cálculo existente.
Importar datos desde archivos CSV
Google Sheets
Paso 1: Abre el menú Archivo en tu hoja de cálculo y selecciona Importar para abrir la ventana que permite importar
archivos.
Paso 2: Selecciona Cargar y luego selecciona el archivo CSV que quieres importar.
Paso 3: A partir de aquí tendrás algunas opciones. Para Importar ubicación puedes elegir reemplazar la hoja de cálculo
actual, crear una nueva, insertar los datos CSV como una nueva hoja, agregar los datos a la hoja de cálculo actual o
reemplazar los datos en una celda específica. Los datos se insertarán como texto sin formato solo si desmarcas la
casilla Convertir texto a números, fechas y fórmulas, que es la configuración predeterminada. A veces, un archivo CSV
utiliza un separador, como un punto y coma, o incluso un espacio en blanco en lugar de una coma. En Tipo de
separador puedes seleccionar Pestaña o Coma, o seleccionar Personalizar para ingresar otro carácter que se utilice
como separador.
Paso 4: Seleccione Importar datos. Se cargarán los datos del archivo CSV en tu hoja, ¡y ya puedes comenzar a usarlos!
Nota: También puedes utilizar la función IMPORTDATA en la celda de una hoja de cálculo para importar datos
utilizando la URL que te dirige a un archivo CSV. Para obtener más información y la sintaxis, consulta la página
IMPORTDATA del Centro de ayuda de Google.
Microsoft Excel
Paso 1: Abre una hoja de cálculo nuevo o existente.
Paso 2: Haz clic en Datos en el menú principal y selecciona la opción Desde texto/CSV.
Paso 4: A partir de aquí tendrás algunas opciones. Puedes cambiar el delimitador, y en vez de ser una coma puede ser
cualquier otro carácter, como un punto y coma. También puedes habilitar o deshabilitar la detección automática de tipos
de datos. Y, finalmente, puedes transformar tus datos haciendo clic en Transformar datos para abrir el Editor de Power
Query.
Paso 5: En la mayoría de los casos, acepta la configuración predeterminada en el paso anterior y haz clic en Cargar
para cargar los datos que están en el archivo CSV a la hoja de cálculo. Se cargarán los datos del archivo CSV en la
hoja de cálculo, ¡y ya puedes comenzar a trabajar con los datos!
Google Sheets
En Google Sheets, puedes utilizar la función IMPORTHTML. Permite que importes datos de una tabla (o lista) HTML
de una página web.
Para obtener más información sobre la sintaxis, consulta la página IMPORTHTML del Centro de ayuda de Google. Si
estás importando una lista, reemplaza “tabla” por “lista” en el ejemplo anterior. El número 4 es el índice que hace
referencia al orden de las tablas en una página web. Es como un indicador que señala de qué tabla de la página
quieres importar los datos.
¡Inténtalo tú mismo! En hojas de cálculo en blanco, copia y pega cada una de las siguientes funciones IMPORTHTML
en la celda A1 y observa lo que ocurre. Estarás importando los datos de cuatro tablas HTML diferentes en un artículo
de Wikipedia: La demografía de la India. Puedes comparar los datos importados con las tablas del artículo.
=IMPORTHTML("http://en.wikipedia.org/wiki/Demographics_of_India","table",1)
=IMPORTHTML("http://en.wikipedia.org/wiki/Demographics_of_India","table",2)
=IMPORTHTML("http://en.wikipedia.org/wiki/Demographics_of_India","table",3)
=IMPORTHTML("http://en.wikipedia.org/wiki/Demographics_of_India","table",4)
Microsoft Excel
Puedes importar datos de páginas web utilizando la opción Desde web:
Paso 2: Haz clic en Datos en el menú principal y selecciona la opción Desde web.
Paso 5: Haz clic en Cargar para cargar los datos de una tabla en tu hoja de cálculo.
Los archivos CSV usan texto normal y están delineados por caracteres. Así que cada columna o campo es muy diferente de la
otra a la hora de importar. Como sabes, los archivos CSV están separados por comas y, en general, la aplicación de la hoja de
cálculo detectará automáticamente esas separaciones. Sin embargo, a veces, puedes necesitar indicar que un separador es
otro carácter o un espacio, y para ello seleccionas las distintas opciones en esta ventana.
Asimismo, si estás planificando trabajar con un conjunto de datos, en general, lo convertirías a texto, números u otras
opciones desde aquí. Pero un texto normal está bien para los propósitos de un informe. Así que podemos dejar tranquilos
esos campos. Finalmente, selecciona Importar datos.
Ahora nuestro archivo CSV está listo para funcionar en nuestra hoja de cálculo. Paso la mayor cantidad de tiempo en el
trabajo analizando hojas de cálculo llenas de información sobre cuidados de la salud. En general, comienzo por buscar en un
conjunto de datos más grande. Luego, extraigo un subconjunto a una hoja de cálculo para poder trabajar con él. Quizás
quiero analizar el crecimiento año por año en la demanda de usuario en Google Search para ciertos servicios de cuidado de la
salud, como telemedicina. O quizás quiero mirar conjuntos de datos de organizaciones o agencias externas sobre cuidados de
la salud para obtener más información sobre esta tendencia. Por ejemplo, con telemedicina quizás observaría una hoja de
cálculo que enumera los proveedores de telemedicina. Hay muchas formas en que las hojas de cálculo pueden ayudarte a
encontrar la información que necesitas. Una fuente que utilizo mucho es el repositorio de datos de la Organización Mundial
de la Salud.
En ese sitio cualquiera puede acceder a datos de fuente abierta. Como puedes ver, hay cientos de datos disponibles. Puedes
buscar por tema, categoría, indicador y país. También puedes acceder a los metadatos de la Organización Mundial de la Salud
si quieres aprender más sobre los datos en este repositorio.
Después, abriremos una hoja de cálculo nueva e importaremos el archivo seleccionando Archivo, Importar.
Tras revisar los datos para asegurarte de que se vean limpios, podemos ponerles un título y comenzar a trabajar.
Sé que es demasiada información para recordar, pero te sentirás más cómodo a medida que vayas practicando. A
continuación, aprenderemos cómo ordenar y filtrar tus datos para enfocarte en la información que te resulte pertinente.
Los Conjuntos de datos públicos de Google Cloud permiten a los analistas de datos acceder a conjuntos de
datos públicos de gran demanda y facilitan el descubrimiento de información en la nube.
La Búsqueda de conjuntos de datos puede ayudarte a encontrar conjuntos de datos disponibles en línea
mediante la búsqueda de palabras clave.
Kaggle tiene una función de búsqueda de Datos abiertos que puede ayudarte a encontrar conjuntos de datos
para practicar.
Por último, BigQuery almacena más de 150 conjuntos de datos públicos a los que puedes acceder y utilizar.
Conjuntos de datos públicos sobre salud
1. Datos del Observatorio Mundial de la Salud: Puedes buscar conjuntos de datos en esta página o explorar las
colecciones de datos destacadas de la Organización Mundial de la Salud.
2. El conjunto de datos del Archivo de imágenes de cáncer (TCIA): Al igual que el conjunto de datos anterior, estos
datos están almacenados en los conjuntos de datos públicos de Google Cloud y puedes cargarlos a BigQuery.
3. 1000 genomas: Este es otro conjunto de datos de los recursos públicos de la Google Cloud que puedes cargar
a BigQuery.
Conjuntos de datos públicos sobre el clima
1. Centro Nacional de Datos Climáticos: La página de enlaces rápidos del Centro Nacional de Datos Climáticos
(NCDC) tiene una selección de conjuntos de datos que puedes explorar.
2. Galería del conjunto de datos públicos de la Asociación Nacional de Asuntos Oceánicos y Atmosféricos : La
Galería del conjunto de datos públicos de la Asociación Nacional de Asuntos Oceánicos y Atmosféricos (NOAA)
contiene una colección de conjuntos de datos que puedes consultar.
Conjuntos de datos públicos sobre política y sociedad
1. El Estado de la infancia a nivel mundial de UNICEF: El conjunto de datos de UNICEF incluye una colección de
tablas que puedes descargar.
2. Estadísticas del mercado laboral de la Encuesta continua de población: Esta página contiene enlaces hacia
muchos conjuntos de datos disponibles que puedes explorar.
3. El proyecto abierto sobre mantenimiento del orden en Stanford: Puedes descargar este conjunto de datos como
un archivo .CSV para tu propio uso.
CUESTIONARIO:
Pregunta 1
Pregunta 2
Un analista de datos desea agregar datos de un archivo CSV a una hoja de cálculo. ¿Este es un ejemplo de qué
proceso?
1. Archivado de datos
2. Edición de datos
3. Normalización de datos
4. Importación de datos
Correcto. Un analista de datos que agrega datos de un archivo CSV en una hoja de cálculo es un ejemplo de la
importación de datos.
Pregunta 3
¿Un archivo CSV les facilita a los analistas de datos completar qué tipo de tareas? Selecciona todas las
opciones que correspondan.
0.75 / 1 punto
1. Examinar un pequeño subconjunto de un conjunto de datos grande. Correcto Un archivo CSV les facilita a los
analistas de datos examinar una pequeña parte de un conjunto de datos grande, importar datos a una nueva
hoja de cálculo y distinguir valores entre sí.
2. Importar datos a una nueva hoja de cálculo. Correcto. Un archivo CSV les facilita a los analistas de datos
examinar una pequeña parte de un conjunto de datos grande, importar datos a una nueva hoja de cálculo y
distinguir valores entre sí.
3. Gestionar varias pestañas en una hoja de cálculo
4. Distinguir valores entre sí
Ordenar y filtrar:
VIDEO: Ordenar y filtrar
En los videos anteriores, aprendiste sobre datos internos y externos. Ahora te mostraré cómo enfocarte solamente en los
datos que son pertinentes para el problema que tratas de resolver. Esto es útil si estás trabajando con una hoja de cálculo
compleja y extensa, algo muy común para los analistas de datos. Tener muchos datos puede dificultar la búsqueda y el
análisis de la información que necesitas. No hay dos proyectos de análisis iguales. A menudo, los analistas de datos procesan,
ven y usan los datos de maneras muy diferentes, incluso si vienen de la misma fuente. Aquí hay un ejemplo. Analiza esta hoja
de cálculo que muestra los representantes de ventas de una empresa y dónde trabajan. Distintos analistas de datos pueden
querer información diferente de esta hoja de cálculo, y ahí es donde aparece la ordenación y el filtrado. Ordenar y filtrar los
datos en una hoja de cálculo nos ayuda a personalizar la forma en que se presentan los datos. También pueden organizar
datos para que los analistas puedan acercar los datos que son importantes. Piensa que son una lupa de nuestros datos.
Comencemos con la ordenación. Ordenar significa organizar los datos en un orden significativo para que sea más fácil
comprenderlos, analizarlos y visualizarlos. Los datos pueden organizarse en orden ascendente o descendente, alfabético o
numérico. La ordenación puede realizarse en toda la hoja de cálculo o solo en una columna o en una tabla. También puedes
clasificar según múltiples variables. Por ejemplo, si nuestro conjunto de datos contiene campos de ciudad y estado, podemos
ordenarlos primero por ciudad y luego por estado.
Cuando ordenas datos, siempre es mejor inmovilizar la fila del encabezado primero. Para hacer esto, destacaremos la fila.
Luego, en el menú Ver, selecciona inmovilizar y una fila.
Esto inmoviliza la fila en ese lugar. Ahora cuando desplacemos el cursor hacia abajo en la hoja de cálculo, la fila del
encabezado seguirá visible y así sabremos la categoría de cada columna.
Me parece bien. Ahora ordenemos toda la hoja de cálculo. Primero la ordenaremos por ciudad. Para hacer esto, selecciona la
columna ciudad,
luego, utiliza la flecha desplegable hacia abajo para ordenar la hoja. Selecciona A a Z.
Todas las columnas se ordenarán de la A a la Z por fila, y la columna seleccionada será el criterio principal de ordenación.
Ahora las ciudades están ordenadas alfabéticamente y siguen agrupadas con sus respectivos estados, representantes de
ventas y auto partes. Los detalles de cada fila se mantienen juntos automáticamente cuando se ordena una selección
particular, como puedes ver aquí. La ordenación de varios criterios es otra herramienta muy útil del análisis de datos. Por
ejemplo, digamos que queremos ver una lista de representantes de ventas en base a las ciudades y a los estados en los que
trabajan. Primero, seleccionamos todo el conjunto de datos,
En el cuadro de diálogo, asegúrate de que “Los datos tienen fila de encabezado” esté destacado.
De esa forma, la fila A, ciudad, estados, representante de ventas y auto partes no formarán parte de la ordenación.
Luego, en la ordenación mediante el menú desplegable, selecciona el estado y, luego, el criterio para la ordenación de la A a
la Z. Ahora agrega otra columna para ordenar. En el desplegable “luego por”, selecciona ciudad y el criterio para la ordenación
de la A a la Z.
Ahora podemos buscar los datos y encontrar fácilmente un representante de ventas que trabaje en un estado y en una
ciudad particular. La ordenación es útil cuando quieres ver todo en orden alfabético o numérico en una hoja de cálculo. Pero,
a veces, los analistas de datos quieren aislar un dato en particular. Para hacer eso, utilizan un filtro. Filtrar significa mostrar
solamente los datos que cumplen con un criterio específico mientras se esconde el resto. Un filtro simplifica una hoja de
cálculo al mostrar solamente la información que necesitamos. Por ejemplo, podemos agregar un filtro para ver solo los
representantes de ventas que trabajaron con un producto en particular. Para hacer eso, primero seleccionamos Datos y Crear
un filtro. Elige la columna con los datos que necesitamos. En este caso, Auto Partes. Aparecerán botones de filtrado en la
esquina de cada encabezado de columna. Para filtrar nuestra hoja de cálculo por auto parte, haz clic en el botón del
encabezado de Auto Partes. En este ejemplo, digamos que queremos ver solamente los representantes de ventas que
trabajaron con llantas. Quita las marcas de verificación de las categorías que no queremos ver, que son todas excepto las de
las llantas.
El filtro esconde momentáneamente todo lo que no cumple con la condición. Pero ten en cuenta que, aunque no están
visibles, aún están allí. Cuando sea el momento de ver toda el área de la hoja de cálculo de nuevo, simplemente desactiva el
filtro.
Ordenar y filtrar datos son herramientas muy importantes de la caja de herramientas de un analista de datos. En el siguiente
video descubrirás más formas de acotar la búsqueda a la información exacta que necesitas para cualquier proyecto de
análisis de datos.
1.
Pregunta 1
Resumen de la actividad
Por el momento, ya conoces cómo limpiar datos en las hojas de cálculo, además de las destrezas de la hoja de cálculo
principal como por ejemplo la ordenación y el filtrado. En esta actividad, utilizarás la ordenación y el filtrado para limpiar
un conjunto de datos sucio.
La limpieza de datos corrige o elimina los datos incorrectos, faltantes o erróneos. La limpieza de datos es de suma
importancia porque un análisis basado en datos sucios puede originar conclusiones incorrectas y malas decisiones.
Cuanto más limpios estén tus datos, mejores resultados obtendrás.
Para esta actividad, imagínate que eres analista de datos y que trabajas para el supervisor de un gran distrito escolar
público de Portugal. El supervisor desea saber qué factores afectan a las calificaciones de los estudiantes en las
materias principales y qué cambios se pueden realizar para mejorar el desempeño de los estudiantes. Tu equipo va a
analizar los datos de desempeño en relación con los logros de estudiantes de escuelas secundarias de dos escuelas
públicas de Portugal: Gabriel Pereira (GP) y Mousinho da Silveira (MS). El distrito escolar recopiló los datos mediante
informes académicos y encuestas a los estudiantes. Los datos incluyen la siguiente información:
Lo que necesitarás:
Para empezar, accede a la hoja de cálculo que contiene los datos. Haz clic en el enlace y haz una copia de la hoja de
cálculo.
Si no tienes una cuenta de Google, puedes descargar el conjunto de datos directamente desde el siguiente archivo
adjunto:
Es importante asegurarse de que los datos estén limpios para que tu eventual análisis sea correcto. Lo primero que hay
que hacer es revisar los valores en las columnas más importantes para tu análisis y averiguar si hay algo que se deba
limpiar. En este ejemplo, el principal objetivo del supervisor es determinar qué factores impulsan el desempeño del
estudiante. Para comenzar a responder esta pregunta, las columnas en las que deseas centrarte en primer lugar son
escuela, edad, motivo, Medu, Fedu. Puedes utilizar la ordenación y el filtrado para limpiar los datos en cada una de estas
columnas.
Debido a que cuentas con datos de dos escuelas, Gabriel Pereira (GP) y Mousinho da Silveira (MS), puedes comenzar
ordenando los datos por escuela. Luego, puedes ordenarlos por edad para descubrir los rangos etarios de los
estudiantes para cada escuela. Ordenar implica organizar los datos en un orden significativo para que sea más fácil
entenderlos, analizarlos y visualizarlos.
1. Primero, cámbiale el nombre a tu hoja de cálculo. En la esquina superior izquierda, haz clic en Hoja de cálculo
sin nombre y escribe un nombre nuevo. Puedes usar el nombre student_performance_datau otro similar que
describa los datos que contiene la hoja de cálculo.
2. Ahora, ordena por escuela. Debido a que quieres ordenar varias columnas, debes seleccionar todos los datos
de tu hoja de cálculo. Haz clic en el rectángulo negro arriba de la fila 1 y a la izquierda de la columna A. Esto te
permitirá seleccionar todos los datos en tu hoja.
3. Luego, en la barra de menús, selecciona Datos,luego Ordenar rango. (Nota: Para algunas versiones de Google
Sheets, la selección de Opciones avanzadas de ordenación de rango puede aparecer en el menú desplegable Datos en
lugar de Ordenar rango).
4. En la ventana emergente, selecciona Los datos tienen una fila de encabezado. Ahora puede elegir encabezados de
columna específicos para ordenar.
5. En el menú desplegable Ordenar por, elije el encabezado escuela.Luego, haz clic en A → Z para ordenar en orden
ascendente.
6. También deseas ordenar por edad. Antes de poder ordenar por edad, debes hacer clic en Agregar otra columna para
ordenar para elegir un encabezado de la segunda columna.
7. En el menú desplegable Ordenar por,elije el encabezado edad.Esta vez, haz clic en Z → A para ordenar en orden
descendente. De esta manera, los estudiantes mayores aparecerán primero.
Ahora, si te desplazas por los datos, observarás que el rango etario de los estudiantes en Gabriel Pereira (GP) es entre
15 y 22 años, y el rango etario en Mousinho da Silveira (MS) es entre 15 y 20 años. Parece que ambas escuelas tienen
rangos etarios similares, pero la escuela GP tiene estudiantes que son un poco mayores.
Al ordenar los datos, descubriste un posible problema con ellos. Debido a que este conjunto de datos representa el
logro del estudiante de la escuela secundaria, toda edad mayor que 18 puede indicar que se cometió un error al escribir
la edad del estudiante. Ahora sabes qué datos etarios posiblemente deban investigarse y corregirse. El próximo paso
es el de preguntarle al supervisor sobre el rango etario legítimo para los estudiantes en la escuela secundaria pública.
Luego, sabrás qué datos etarios son incorrectos y deberán eliminarse.
El supervisor te comenta que el límite etario máximo para el que se proporciona educación pública es de 19 años y que
el rango etario debe ser entre 15 y 19 años para ambas escuelas. Todo estudiante que no corresponda a este rango
etario deberá eliminarse del conjunto de datos.
Para limpiar los datos, deberás eliminar las edades 20, 21 y 22 de tu conjunto de datos. Puedes comenzar aplicando un
filtro en la columna edad. El filtradoes el proceso que muestra solo los datos que cumplen con un criterio específico
mientras oculta el resto. El filtrado facilita la búsqueda de los datos que necesitas.
1. Primero, aplica un filtro en la columna edad. Selecciona la columna edadhaciendo clic en la letra de la parte
superior de la columna (C).
2. Luego, desde la barra de menús, selecciona Datos, luego Crear un filtro.
3. Ahora puedes inspeccionar los valores en la columna edadsi vas a la parte superior de la columna y haces clic
en el ícono Filtro ().
4. En Google Sheets, hay nueve valores posibles para el campo (15, 16, 17, 18, 19, 20, 21 y 22). Es posible que
notes que todos los valores tienen marcas de comprobación. Filtra esta columna para los valores que deseas
seleccionar desactivando todos los demás valores (15, 16, 17, 18 y 19).
5. Luego, haz clic en Aceptar. Esto separará las filas que contienen las edades 20, 21 y 22. Luego de aplicar el filtro,
debe haber nueve filas de ese tipo (siete para la escuela GP y dos para la escuela MS).
6. Para eliminar las nueve filas, primero selecciónalas haciendo clic en los números de fila.
8. Haz clic en el ícono Filtro en la parte superior de la columna edadpara inspeccionar los valores nuevamente. Ahora
que eliminaste las tres edades incorrectas (20, 21 y 22), hay cinco edades restantes (15, 16, 17, 18 y 19). Las edades
restantes son legítimas y se pueden utilizar para el análisis.
9. Por último, desactiva el filtro. Desde la barra de menús, elije Datosy Desactivar filtro.
Completar los datos faltantes es una parte importante de la limpieza de datos. Debes encargarte de completar los
espacios en blanco de tus datos con valores precisos.
El supervisor desea conocer los factores que influyen en el desempeño del estudiante y para realizar el análisis será
importante saber el motivo por el que el estudiante elige una escuela específica. La columna motivo muestra el motivo
principal por el que el estudiante elige inscribirse en una escuela específica, según la respuesta de la encuesta; por
ejemplo, debido a la reputación de la escuela, o porque ofrece ciertos cursos, etc. Por ende, debes asegurarte de que
la columna motivo esté completa y sin espacios en blanco.
1. Comienza aplicando un filtro en toda la hoja de cálculo. Haz clic en cualquier celda de la hoja. Luego, desde la
barra de menús, selecciona Datosy Crear un filtro.
2. Todas las celdas aparecen ahora resaltadas y hay filtros en la parte superior de cada columna que contiene
datos. Haz clic en el ícono Filtro en la columna motivo (K).
3. Es posible que adviertas que los valores de los datos en la columna motivoincluyen espacios en blanco. Filtra
esta columna para los espacios en blanco desactivando todos los demás valores (curso, casa, reputación).
4. Luego, haz clic en Aceptar. Ahora, tu hoja muestra todas las filas en blanco en la columna motivo.
5. Para limpiar los datos, deberás buscar una buena manera de completar los valores faltantes. En este caso, no
puedes saber cuál debería ser cada valor faltante (es decir, sin una nueva encuesta, no puedes descubrir el motivo por
el cual cada estudiante eligió una escuela específica). Por ende, puedes reemplazar los valores faltantes con el valor
none_given. Para hacer esto mientras la columna todavía está filtrada para los espacios en blanco, escribe
none_givenen la primera celda vacía (K2). Luego, presiona Enter.
6. Selecciona nuevamente la celda K2. Aparecerá un pequeño cuadrado azul, conocido como controlador de relleno, en
la esquina inferior derecha de la celda. Haz doble clic en el controlador de relleno para completar todas las demás
celdas en blanco con el valor none_given.
7. Por último, desactiva el filtro. Desde la barra de menús, elije Datosy Desactivar filtro. Si te desplazas hacia abajo en
la columna motivo, verás que el valor none_given ha reemplazado todos los espacios en blanco en la columna motivo.
Durante el proceso de análisis de datos, a veces es necesario cambiar los datos del texto (palabras) por datos
numéricos (números). Por ejemplo, algunos paquetes estadísticos como los que se utilizan para realizar el aprendizaje
automático solo aceptarán valores de datos numéricos como entrada.
En este caso, el supervisor desea conocer si el nivel de educación de los padres es un factor significativo en el
desempeño del estudiante. Los datos relevantes son las columnas Medu y Fedu;que, respectivamente, se refieren al
nivel de educación de la madre y el padre del estudiante. Actualmente, los datos se encuentran en formato de texto.
Para los propósitos del análisis, será útil conocer el nivel de educación promedio de los padres de cada estudiante.
Para realizar este cálculo, primero debes convertir los datos en las columnas Meduy Fedual formato numérico.
Para hacer esto, puedes hacer coincidir los valores de números específicos con los datos de texto en cada columna.
Comienza con la columna Medu. Si haces clic en el ícono Filtro en la parte superior de la columna Medu (G), verás que
la columna contiene los datos de texto que se muestran en la siguiente tabla. Puedes utilizar los siguientes códigos
numéricos para cada uno de los datos de texto:
6. Estando en la ventana emergente, repite este proceso (pasos 4-5) para los otros cuatro niveles de educación:
educación primaria (4º grado), de 5º a 9º grado, educación secundaria y educación superior.
7. Luego de reemplazar los cinco niveles de educación por los valores numéricos, haz clic en Listo para cerrar la
ventana emergente.
8. Analiza tu hoja de cálculo. Todas las celdas en la columna Medu ahora muestran valores numéricos.
9. Cambia los datos de texto en la columna Fedu (H) del mismo modo.
Confirmación y reflexión:
¿Cómo se denomina el proceso que muestra solo los datos que cumplen con un criterio específico mientras oculta el
resto?
1 / 1 punto
1. Filtrado
2. Inspeccionar
3. Ordenación
4. Conversión
Correcto. El filtrado es el proceso que muestra solo los datos que cumplen con un criterio específico mientras oculta el
resto. El filtrado es una técnica extremadamente útil para la limpieza de los datos y es una herramienta esencial del kit
de herramientas del analista de datos.
CUESTIONARIO:
Pregunta 1
¿Cuál es el proceso de organizar los datos en un sistema de clasificación significativo para que sea más fácil entenderlos, analizarlos
y visualizarlos?
1 / 1 punto
1. Filtrado
2. Ordenación
3. Capacidad para priorizar
4. Reformulación
Correcto. La ordenación es el proceso de organizar los datos en un orden significativo para que sea más fácil entenderlos,
analizarlos y visualizarlos.
Pregunta 2
Una analista de datos revisa una base de datos nacional de las ventas de inmobiliaria. Solo le interesan las ventas de los
condominios. ¿Cómo puede el analista acotar su alcance?
0 / 1 punto
Un analista de datos trabaja para una empresa de alquiler de automóviles. Tiene una hoja de cálculo que enumera los números de ID
y las fechas en las que se devolvieron los automóviles. ¿Cómo puede ordenar la hoja de cálculo para buscar los automóviles
devueltos recientemente?
1 / 1 punto
Pregunta 4
Completa el espacio en blanco: Para mantener una fila de encabezado en la parte superior de una hoja de cálculo, destaca la fila y
selecciona _____ desde el menú Ver.
1 / 1 punto
1. Configurar
2. Anclar
3. Inmovilizar
4. Bloquear
Correcto. Para mantener una fila de encabezado en la parte superior de una hoja de cálculo, destaca la fila y
selecciona Inmovilizar desde el menú Ver.
Trabajar con conjuntos de datos grandes en SQL
VIDEO: Configurar BigQuery, incluso el espacio aislado y las opciones de facturación
Hola. Bienvenido de nuevo. A lo largo de este curso, has aprendido que puedes usar BigQuery para ver y analizar datos de
muchísimas fuentes distintas. Ahora vamos a explorar los distintos tipos de cuenta que ofrece BigQuery, de modo que puedas
elegir la correcta según tus necesidades y sepas cómo acceder a ellas. Puedes usar BigQuery de forma gratuita. Si bien
también tiene opciones pagas, no las necesitas para las actividades de este curso. Así que vamos a hablar de dos tipos de
cuentas: de espacio aislado o <i>sandbox</i> y de prueba gratuita. La cuenta de espacio aislado está disponible gratis y
cualquier persona con una cuenta de Google puede iniciar sesión y usarla. Sin embargo, tiene algunas limitaciones. Por
ejemplo, puedes hacer hasta 12 proyectos por vez. Esto significa que si quieres hacer el proyecto número 13, tendrás que
eliminar uno de los 12 que ya tienes. Tampoco te permite insertar nuevos registros a la base de datos ni actualizar el valor de
los campos de los registros existentes. Sandbox no admite este tipo de lenguaje de manipulación de datos, estas operaciones
no son compatibles. Sin embargo, sí tendrás que hacer esto en las actividades del curso. Para más información sobre las
limitaciones de una cuenta de espacio aislado, consulta la documentación de BigQuery. Este es el tipo de cuenta que más
usaremos para nuestras actividades. Es fácil de configurar. Así que, más adelante en este video, repasaremos los pasos que
tienes que seguir para crear una cuenta. Antes de eso, deberíamos hablar un poco sobre la otra forma de usar BigQuery sin
pagar nada. La prueba gratuita de Google Cloud. La prueba gratuita te brinda acceso a más funciones que BigQuery tiene
para ofrecer, y las limitaciones son menores. La prueba gratuita ofrece $300 de crédito para usar en Google Cloud durante los
primeros 90 días. Y no alcanzarás ni por asomo ese límite de crédito si solo usas la consola de BigQuery para practicar las
consultas de SQL. Cuando gastes los $300 de crédito o pasen los 90 días, finalizará tu prueba gratuita y tú mismo deberás
elegir si quieres suscribirte a una cuenta paga y seguir trabajando en Google Cloud. No recibirás cargos automáticos en el
método de pago que hayas elegido una vez que finalice la prueba gratuita, aunque para registrarte sí debes configurar una
opción de pago en Google Cloud. Entonces, a menos que elijas suscribirte a BigQuery, no deberás pagar nada. Pero sí debes
ingresar algún tipo de pago al principio. Por eso, entendemos si no te sientes del todo cómodo con esta opción. Esta es una
de las razones por las que existe la cuenta de espacio aislado en BigQuery: para que no tengas que ingresar ninguna
información de pago. Con cualquiera de las dos cuentas, puedes suscribirte a una cuenta paga en el momento que quieras y
seguir teniendo tus proyectos existentes. Así que, si configuras una cuenta gratuita pero no quieres suscribirte a una paga
cuando finaliza el período de prueba, puedes configurar una cuenta de espacio aislado gratuita cuando quieras. Pero ten en
cuenta que los proyectos de la prueba gratuita no se transferirán al espacio aislado. Sería como empezar de cero otra vez. Es
algo para tener en cuenta. Ahora, vamos a configurar tu cuenta de espacio aislado, que puedes modificar a prueba gratuita o
a cuenta paga si así lo deseas. Primero, vamos a la página de documentación de la cuenta de espacio aislado de BigQuery.
Luego, en la esquina superior derecha iniciamos sesión en la cuenta de Google que queramos usar para la cuenta de espacio
aislado de BigQuery. Después, hacemos clic en "Ir a BigQuery" de la página de documentación. Allí, tenemos un menú
desplegable para seleccionar el país y leer los términos y condiciones del acuerdo de servicio. Es entonces que podremos
ingresar al espacio de trabajo de SQL, que vamos a usar en las próximas actividades. Elige "Crear proyecto", ponle un nombre
al proyecto y elige una identificación. Haz clic en "Crear" y, luego, en "Listo". Ya está. En el próximo video, exploraremos para
qué sirve cada parte del espacio de trabajo de SQL y cómo lo usaremos en las actividades futuras. Nos vemos ahí.
¡Hola! En este video, vamos a aprender sobre cada parte del espacio de trabajo SQL de BigQuery para que puedas usarlo
durante este curso y a lo largo de tu carrera como analista de datos. Es una herramienta sumamente valiosa y muy popular,
así que es muy útil entender cómo funciona. Siéntete libre de seguirlo en tu pantalla a medida que exploramos BigQuery.
Notarás que mi pantalla se ve un poco diferente a la tuya, ya que BigQuery actualiza constantemente su interfaz. No te
preocupes si pasa eso, ya que las pequeñas diferencias no te impedirán comprender los conceptos básicos. Para empezar, ve
a la página de destino de BigQuery, luego inicia sesión en la cuenta que creaste anteriormente. Para navegar en el espacio de
trabajo SQL, selecciona el menú del lado izquierdo de la pantalla y deslízate hasta el encabezado ''Macrodatos''. Luego, pasa
el mouse por encima de la etiqueta BigQuery y haz clic en ''Espacio de trabajo SQL'', en el menú desplegable. Ahora que ya
estamos en el espacio de trabajo SQL, vamos a buscar conjuntos de datos públicos, seleccionar un conjunto de datos a través
del Explorador de datos, ejecutar una consulta y cargar nuestros propios datos para consultar. Primero, vamos a buscar un
conjunto de datos públicos para usar. Para seleccionar un conjunto de datos públicos, navega hasta el menú del Explorador,
en el lado izquierdo de la pantalla. Haz clic en el botón "Agregar datos", en la parte superior derecha del menú. Luego, en el
menú desplegable, selecciona "Explorar conjuntos de datos públicos". Esto abrirá el marketplace y te mostrará los conjuntos
de datos públicos disponibles. Vayamos a la barra de búsqueda de marketplace y busca “noaa_lightning”, el conjunto de
datos que usaremos en la próxima actividad. Haz clic en el conjunto de datos "Cloud-to-Ground Lightning Strikes". Esto nos
traerá una descripción y una vista previa del conjunto de datos que captura observaciones sobre la actividad de rayos y los
patrones meteorológicos en los Estados Unidos. Haz clic en "Ver conjunto de datos". Esto te hará volver al espacio de trabajo
SQL y creará una pestaña para el conjunto de datos. Luego, podemos volver a la pestaña del Editor que hemos abierto, o
hacer clic en "Componer consulta nueva" para empezar a escribir con SQL. Observa a la izquierda y verás que la lista
desplegable de datos públicos de BigQuery está en el menú del Explorador. Podemos hacer clic en la flecha para ampliar la
lista de datos de BigQuery y seleccionar un nuevo conjunto de datos. Vamos a seleccionar el primer conjunto de datos,
"austin_311", en la lista desplegable. Cuando lo hagamos, se ampliará para mostrar la tabla en el conjunto de datos. Podemos
abrir el conjunto de datos para obtener una vista previa. La pestaña Esquema contiene los nombres de cada columna en el
conjunto de datos. La pestaña Detalles contiene metadatos adicionales, como la fecha de creación del conjunto de datos. La
pestaña Vista previa contiene las primeras filas en el conjunto de datos. En esta página, podemos hacer clic en "Consultar"
para crear automáticamente una nueva ventana de editor con la plantilla para una consulta ya completada. A partir de aquí,
pon un asterisco después de Select, donde aparece nuestro cursor, luego, ejecuta la consulta. Felicitaciones, ejecutaste una
consulta de SQL en BigQuery. La consulta que ejecutaste arrojó filas en el conjunto de datos que se completan en una
ventana debajo de la interfaz de editor. Aquí también se visualizarán los resultados de cualquier consulta que ejecutes.
Digamos que ya tienes los resultados de una consulta que quieres cargar a BigQuery y analizar usando SQL. Para agregar tus
propios datos a BigQuery, elige el ID del proyecto que quieres agregar. Selecciona el ícono de los tres puntos verticales para
abrir las opciones del proyecto, luego elige "Crear conjunto de datos". Dale un nombre al conjunto de datos que te ayude a
identificarlo, más adelante, por ejemplo, "upload_test_dataset". Luego haz clic en "Crear conjunto de datos". A continuación,
ve al menú del Explorador y elige los tres puntos verticales junto al conjunto de datos, debajo del menú desplegable de
"Proyectos". Ahora, seleccionaremos el ícono para crear una tabla, que abre una ventana emergente. Debajo de Fuente y
crear tabla desde, seleccionamos "Cargar" o cualquier método que prefieras para cargar tus datos. Aquí, podemos cargar
cualquier archivo de datos, por ejemplo, un archivo CSV. Vamos a darle a nuestra tabla un nombre útil como "test_table".
Asegúrate de que el esquema esté configurado para detectar y seleccionar automáticamente "Crear tabla". Hay mucho más
por conocer sobre BigQuery. Siéntete libre de volver a ver este video en cualquier momento y sigue practicando. Nos vemos
pronto.
Aquí podemos ver los conjuntos de datos públicos que están disponibles. Nos desplazaremos por los datos antes de empezar
a usarlos para tener una idea de qué se trata y para asegurarnos de que estén limpios.
Algunos visualizadores de tablas te permiten previsualizar algunas filas antes de escribir una consulta. Esto es útil si quieres
echarle un vistazo para asegurarte de que el conjunto de datos será el adecuado para tu proyecto. Para mostrarte cómo
funciona, veamos un ejemplo de un conjunto de datos. Este muestra cuánta luz solar reciben los tejados durante un año.
Eso sería muy útil para un analista de datos que esté trabajando en un proyecto sobre energía solar, por ejemplo.
Luego, seleccionaremos un subconjunto de estos datos, donde encontraremos regiones, estados, luz solar anual y más. Para
ver todo el conjunto de datos, escribamos una consulta. El primer paso es encontrar el nombre completo correcto del
conjunto de datos. Para hacer esto, selecciona el conjunto de datos, el potencial solar por código postal y selecciona una
tabla de consulta.
El nombre del conjunto de datos aparece entre dos comillas simples. Esto nos ayudará a leer la consulta de forma mucho más
fácil. También podemos quitar las comillas simples en este caso, y nuestra consulta seguirá funcionando.
Las palabras que ves antes del punto representan el nombre de la base de datos.
Y las palabras que están después del punto representan el nombre de la tabla.
Seleccionemos y copiemos el nombre del conjunto de datos porque lo necesitaremos dentro de poco.
Ahora hacemos clic en el signo más para crear una nueva consulta.
Como queremos ver todo el conjunto de datos, pondremos un asterisco a continuación. El asterisco indica que queremos
incluir todas las columnas. Ese es un gran atajo, ya que sin él tendríamos que completar cada nombre de campo.
Luego presionaremos mostrar resultados y escribiremos FROM (desde). FROM hace justo lo que parece. Indica de dónde
vienen los datos. Luego, agregaremos otro espacio. Ahora pegamos el nombre del conjunto de datos que copiamos antes.
Ahora, puedes examinar el conjunto de datos con cuidado antes de empezar a trabajar con él. Es importante tener en cuenta
lo siguiente: Las consultas SQL pueden estar escritas de muchas maneras diferentes, pero proporcionarán los mismos
resultados. Por ejemplo, podríamos haber escrito esta consulta como una línea larga de instrucciones como esta,
Las líneas y los espacios adicionales no impactan en el resultado de la consulta, pero mantienen tu consulta organizada y más
fácil de leer para ti y para otros. Ahora bien, si el proyecto no requiere todos estos campos, podemos utilizar SQL para ver una
o varias piezas de datos. Para hacer esto, especificamos un nombre de columna determinado en la consulta. Por ejemplo,
quizás solo queremos ver los datos de Pensilvania. Así que comenzaremos nuestra consulta de la misma manera que hemos
aprendido. SELECT, espacio y un asterisco.
Luego, FROM nuestra base de datos de potencial solar. Pero esta vez agregaremos WHERE (dónde).
WHERE también hace exactamente lo que parece. Le dice a la base de datos dónde buscar información. En este caso, en la
columna state name. Entonces, agrega un espacio y escribe state guion bajo name, el nombre de la columna.
Como solo queremos ver los datos de Pensilvania, agregamos un signo igual y la palabra Pensilvania entre comillas simples.
En SQL, las comillas simples indican el comienzo y el final de una cadena. Finalmente, ejecutamos la consulta.
Ahora podemos ver los datos sobre el potencial solar solo para Pensilvania. Ahora ya tenemos los datos que queremos y
estamos listos para comenzar a ponerlos a trabajar, algo que veremos más adelante. Por ahora, celebremos que hemos
terminado otro módulo. Has abordado un montón de información compleja y muy técnica. A medida que vayas practicando,
las cosas comenzarán a sentirse más naturales. Por ahora, tómate un momento para relajarte y pensar en todo lo que has
aprendido. Has descubierto los metadatos y cómo mantienen a los datos organizados al describir de qué se tratan esos datos.
Has visto cómo acceder a los datos internos y externos, y cómo los analistas de datos los utilizan para encontrar información
convincente para resolver problemas de la empresa. Y puedes ordenar y filtrar tus datos para encontrar la información que
necesitas. Por último, has aprendido sobre consultas y hasta has practicado cómo escribirlas. A continuación, tendrás algunas
lecturas y, luego, un desafío semanal para comprobar tus conocimientos. Esto te ayudará a confirmar que has comprendido lo
que hemos trabajado en estos videos. Y, como siempre, si llegas a tener alguna duda sobre una pregunta, te recomiendo que
repases los videos y las lecturas para encontrar la respuesta. Ahora eres el detective de datos, así que usa esas habilidades.
¡Buen trabajo, sigue así! Nos vemos en el desafío semanal.
Utilizar BigQuery:
BigQuery es un depósito de datos en Google Cloud que los analistas de datos pueden utilizar para realizar consultas,
filtrar conjuntos de datos grandes, agregar resultados y realizar operaciones complejas.
La próxima actividad está realizada en BigQuery. Esta lectura proporciona instrucciones para crear tu propia cuenta en
BigQuery, seleccionar conjuntos de datos públicos y cargar archivos CSV. Al final de esta lectura puedes confirmar tu
acceso a la consola de BigQuery antes de pasar a la actividad.
Nota: Al final de esta lectura, también proporcionamos recursos adicionales introductorios que se encuentran en
algunas plataformas de la base de datos SQL, por si eliges trabajar con ellos en lugar de BigQuery.
Una cuenta gratuita de espacio aislado no pide un método de pago. Sin embargo, tiene un límite de 12
proyectos. Tampoco permite insertar nuevos registros a una base de datos o actualizar el campo de valores de
registros existentes. Las operaciones de lenguaje de manipulación de datos (DML) no están permitidas en el
espacio aislado.
Una cuenta de prueba gratuita requiere un método de pago para establecer una cuenta facturable, pero ofrece
plena funcionalidad durante el período de prueba.
Con ambos tipos de cuenta puedes subir de categoría a una cuenta paga en cualquier momento y conservar todos tus
proyectos existentes. Si configuras una cuenta gratuita pero no quieres subir de categoría a una cuenta paga, cuando
finaliza tu período de prueba puedes configurar una cuenta gratuita de espacio aislado en ese momento. No obstante,
los proyectos de tu cuenta gratuita no se transferirán a la cuenta de espacio aislado. Sería como empezar de cero otra
vez.
Configura una cuenta de espacio aislado gratuita para usar en este programa.
Sigue estas instrucciones paso a paso o mira el video Configurar BigQuery, incluso el espacio aislado y las
opciones de facturación.
Para obtener información más detallada sobre el uso del espacio aislado, comienza con la documentación
Utilizar el espacio aislado de BigQuery.
Una vez que termines de configurar tu cuenta, verás el nombre del proyecto creado para la cuenta en el banner
y en SANDBOX, arriba del cuadro de mando de BigQuery.
Sigue estas instrucciones paso a paso o mira el video Configurar BigQuery, incluso el espacio aislado y las
opciones de facturación. La cuenta gratuita ofrece $300 de crédito para los próximos 90 días. Ni siquiera
estarás cerca de sobrepasar ese límite si solo utilizas la consola de BigQuery para practicar consultas SQL. Una
vez que hayas gastado tu crédito de $300 (o una vez que hayan pasado los 90 días) tu prueba gratuita expirará
y tendrás que subir de categoría personalmente a una cuenta paga si quieres seguir utilizando los servicios de
la plataforma de Google Cloud, incluso BigQuery. No se aplicarán gastos de manera automática a tu método de
pago una vez que finalice tu período de prueba. Si elijes subir de categoría, se comenzarán a facturar cargos.
Una vez que hayas configurado tu cuenta, verás Mi Primer Proyecto en el banner, y el estado de tu cuenta sobre el
banner, que incluye el saldo de tu crédito y el número de días que quedan en tu período de prueba.
Cómo obtener el cuadro de mando de BigQuery.
Copia el siguiente enlace en tu navegador: console.cloud.google.com/bigquery.
Primeros pasos con MySQL: Esta es una guía para configurar y utilizar MySQL.
Primeros pasos con el servidor Microsoft SQL: Este es un tutorial para comenzar a utilizar el servidor SQL.
Primeros pasos con PostgreSQL: Este es un tutorial para comenzar a utilizar PostgreSQL.
Primeros pasos con SQLite: Esta es una guía de inicio rápido para utilizar SQLite.
Pregunta 1
Resumen de la actividad
Hasta ahora, te han presentado BigQuery, un almacén de datos en Google Cloud que pueden utilizar los analistas de datos para
realizar consultas, filtrar conjuntos de datos grandes, agregar resultados y realizar operaciones complejas. En esta actividad,
explorarás la interfaz de BigQuery; cargarás datos públicos a tu consola y escribirás algunas consultas SQL simples mediante
SELECT, FROM y WHERE.
Cuando completes esta actividad, estarás más familiarizado con la escritura de consultas en la interfaz de BigQuery. Esto te
permitirá practicar SQL, que es importante para trabajar con bases de datos en tu carrera como analista de datos.
Explorar BigQuery
Para esta actividad, necesitarás una cuenta de BigQuery. Si todavía no tienes una cuenta, puedes seguir las instrucciones del artículo
Cómo utilizar BigQuery. Una vez que tienes la cuenta, puedes comenzar a explorar.
Abre tu consola
1. Inicia sesión en BigQuery.
2. Luego, haz clic en el botón Ir a la consola en la página de inicio de BigQuery. Esto abrirá una nueva pestaña con tu consola.
3. Tómate un momento para explorar la consola. En el lado izquierdo, encontrarás el menú Explorador; esto incluye una barra de
búsqueda que puedes utilizar para buscar los recursos, los proyectos anclados y el botón + AGREGAR DATOS. En el lado derecho,
encontrarás el Editor de consulta. Aquí es donde escribirás las consultas y verás los conjuntos de datos. También aquí puedes
encontrar tu historial de trabajo, historial de consulta y consultas guardadas.
Para comenzar realmente a escribir consultas, necesitarás algunos datos con los que trabajar. Una vez que te familiarices con la
interfaz de BigQuery, puedes acceder al conjunto de datos público directamente desde tu consola.
1. Haz clic en el botón + AGREGAR DATOSen el Panel del menú del explorador y selecciona Explorar conjuntos de datos
públicos.Esto abrirá un menú nuevo donde puedas buscar conjuntos de datos públicos que ya estén disponibles mediante Google
Cloud.
2. En el menú del conjunto de datos que acabas de abrir, escribe london bicycleen el cuadro de búsqueda en la parte superior, esto
mostrará los resultados del conjunto de datos London Bicycle Hires de Greater London Authority. Haz clic en el conjunto de
datospara obtener más información.
3. Desde la página de información del conjunto de datos, haz clic en el botón azul VER CONJUNTO DE DATOS. Esto abrirá tu
consola en una pestaña nueva con este conjunto de datos cargado.
Advertirás que bigquery-public-data está ahora marcado en tu panel del Explorador. Ahora puedes explorar y consultar estos
conjuntos de datos públicos.
4. Haz clic en la flechaal lado de bigquery-public-data y desplázate hacia abajo de la lista de conjuntos de datos públicos hasta
encontrar los datos london_bicycles. Cuando haces clic en el conjunto de datos, aparecerán dos tablas. Haz clic en cycle_hire.
Esto generará una nueva pestaña en tu Editor de consultas con información sobre el esquema de la tabla.
5. Luego de revisar el esquema de la tabla, puedes echar un vistazo sobre qué datos contiene la tabla cycle_hire, haciendo clic en la
pestaña Previsualizar. Esto te proporcionará una mejor idea sobre el tipo de datos con los que trabajarás.
Una vez que hayas finalizado de previsualizar los datos, puedes escribir una consulta.
Hasta ahora, has aprendido tres partes básicas de una consulta: SELECT, FROM y WHERE. A modo de repaso, aquí presentamos
qué representan esas partes básicas en la consulta:
SELECT es la sección de una consulta que indica sobre qué datos deseas que SQL te muestre resultados.
FROM es la sección de una consulta que indica de qué tabla provienen los datos deseados.
WHERE es la sección de una consulta que indica los filtros que deseas aplicar a tu conjunto de datos.
Escribir una consulta básica
Ahora, crea un simple comando utilizando las partes básicas de una consulta que acabas de aprender. Por ejemplo, puedes
seleccionar una columna específica de la tabla cycle_hire, por ejemplo, la columna end_station_name.
1. Inicia la consulta con una cláusula SELECT e indica qué columna deseas seleccionar de la tabla, en este caso, escribirás
end_station_name.
2. Luego de haber indicado qué columna seleccionaste, escribe tu cláusula FROM. Deberás especificar la tabla desde la que estás
consultando y escribir la siguiente ubicación: `bigquery-public-data.london_bicycles.cycle_hire`;
SELECT
end_station_name
FROM
`bigquery-public-data.london_bicycles.cycle_hire`;
La ejecución de la consulta demorará unos segundos. Una vez finalizada, encontrarás la lista de los nombres de estación que
solicitaste en el panel de la consola Resultados de la consulta.
Escribir una consulta para responder una pregunta
Luego de ejecutar la primera consulta básica, intenta responder una pregunta específica acerca de los datos. Por ejemplo, ¿cuáles
fueron los rental_ids para todos los viajes en bicicleta que duraron 20 minutos o más?
1. Haz clic en COMPONER CONSULTA NUEVA para iniciar una nueva consulta. Comienza nuevamente con tu instrucción
SELECT. Esta vez, querrás incluir todas las columnas de la tabla para esta consulta. Puedes utilizar un asterisco para indicar que
estás seleccionando todos los datos de la siguiente manera: SELECT COUNT(*) AS num_of_trips
2. Luego, agregarás tu instrucción FROM. Utilizarás el mismo conjunto de datos que en la consulta anterior: FROM `bigquery-
public-data.london_bicycles.cycle_hire`.
3. Por último, agregarás una instrucción WHERE para especificar que deseas filtrar solo para recorridos en bicicleta de 20 minutos
o más. Si revisas la previsualización de estos datos, podrías notar que la duración se registra en segundos, por lo que especificarás
1200 segundos en tu consulta. Puedes escribir eso como WHERE duration>=1200;
SELECT
COUNT(*) AS num_of_trips
FROM
`bigquery-public-data.london_bicycles.cycle_hire`
WHERE
La ejecución de la consulta demorará unos segundos. Una vez finalizada, encontrarás una lista de recorridos de esta tabla que
cumplan con tu criterio. Hay más de 7 millones de filas con recorridos de bicicletas de 20 minutos o más.
Si te sientes cómodo utilizando las consultas para responder preguntas, intenta crear y ejecutar consultas para responder cualquiera
de las siguientes preguntas:
¿Cuáles son los nombres de las estaciones desde donde se inició bike_id 1710?
¿Cuántos bike_ids han finalizado en "Moor Street, Soho"?
¿Cuál es el station_id para "Canton Street, Poplar"?
¿Cuál es el nombre de la estación cuyo ID es 111?
¿Cuántos bike_ids distintos tenían duraciones de viajes mayores que 2400 segundos (o 40 minutos)?
Puedes utilizar el documento con las soluciones para revisar tu trabajo: Introducción a las soluciones de BigQuery
En esta actividad, tuviste oportunidad de familiarizarte más con BigQuery y de escribir consultas SQL. En el cuadro de texto a
continuación, escribe 2 o 3 oraciones (entre 40 y 60 palabras) en respuesta a cada una de las siguientes preguntas:
¿Cómo crees que puedes utilizar los conjuntos de datos en BigQuery para que te ayude a desarrollar tus destrezas
relacionadas con el análisis de datos?
¿De qué manera piensas que tener un conocimiento sobre la sintaxis básica de las consultas te ayudará a escribir consultas
más complicadas en el futuro?
1 / 1 punto
Correcto
¡Felicitaciones por completar esta actividad práctica! Exploraste BigQuery, subiste datos públicos a tu consola y
generaste algunas consultas. Una buena respuesta incluiría que los conjuntos de datos públicos de BigQuery pueden
ayudarte a practicar la escritura de SQL.
Poder crear consultas SQL es una destreza importante para los analistas de datos, debido a que con frecuencia deben
trabajar con bases de datos. En las próximas actividades, seguirás trabajando con bases de datos y escribiendo
consultas con SQL: una herramienta esencial del kit de herramientas del analista de datos.
1.
Pregunta 1
Resumen de la actividad
Recientemente, estuviste pensando sobre cómo identificar los orígenes de datos que serían útiles para el análisis.
También pasaste un tiempo en la actividad anterior explorando un conjunto de datos públicos en BigQuery y
escribiendo algunas consultas SQL básicas. Además de utilizar datos públicos en BigQuery, deberás poder importar
datos de otras fuentes. En esta actividad, crearás una tabla y un conjunto de datos personalizados, que cargarás en
una tabla y consulta nuevas.
Al finalizar esta actividad, podrás cargar tus propios datos en BigQuery para realizar el análisis. Esto te permitirá
importar tus propias fuentes de datos en BigQuery, que es una destreza que necesitarás para analizar los datos de las
distintas fuentes.
Lo que necesitarás
Para comenzar, descarga el archivo Zip con datos de nombres de bebés. Este archivo contiene alrededor de 7 MB de
datos sobre nombres populares de bebés extraídos del sitio web de la Administración del Seguro Social de los Estados
Unidos.
Haz clic en el enlace del archivo Zip con datos de nombres de bebés y descárgalo.
Una vez que hayas descargado el archivo Zip, puedes importarlo en BigQuery para realizar consultas y análisis. Para
ello, necesitarás crear un nuevo conjunto de datos y una tabla personalizada.
Deberás descomprimir el archivo que descargaste en tu computadora para acceder a este en BigQuery. Una vez que
hayas descomprimido el archivo, encontrarás un archivo .pdf denominado NationalReadMe que contiene más
información acerca del conjunto de datos. Este conjunto de datos realiza un seguimiento de la popularidad de los
nombres de bebés por cada año. Puedes encontrar archivos de texto etiquetados por el año que contienen. Abre
yob2014.txt para previsualizar los datos. Verás que es un archivo .csv con tres columnas. Recuerda dónde guardaste esta
carpeta para poder consultarla luego.
Antes de poder cargar tu archivo txt y crear una tabla para realizar consultas, deberás crear un conjunto de datos para
cargar tus datos y almacenar tus tablas.
1. Ve al Panel del explorador en tu espacio de trabajo y haz clic en los tres puntos al lado de tu proyecto marcadopara abrir
un menú. Desde aquí, selecciona Crear conjunto de datos.
2. Esto abrirá el menú de Crear conjunto de datos en el lado derecho de tu consola. Aquí es donde completarás
información sobre el conjunto de datos. Escribirás el ID del conjunto de datos como nombres de bebés y configurarás la
ubicación de los datos en los Estados Unidos (EE. UU.). Una vez que hayas finalizado de completar esta información,
puedes hacer clic en el botón azul CREAR CONJUNTO DE DATOS en la parte inferior del menú.
Paso 3: Crear tabla
Ahora que tienes un conjunto de datos personalizado almacenado en el espacio de tu proyecto, aquí es donde
agregarás la tabla.
1. Desde el conjunto de datos babynames, haz clic en el botón CREAR TABLA. Esto abrirá otro menú en el lado
derecho de tu consola.
2. En la sección Origen, seleccionarás la opción Cargar en Crear tabla desde. Luego, harás clic en el botón Examinar para
abrir tus archivos. Busca y abre el archivo yob2014.txt. Selecciona el formato de archivo .csv. En la sección Destino,
coloca el nombre names_2014 a tu tabla. En Esquema, selecciona Editar como textoy escribe el siguiente código:
string,gender:string,count:integer. Esto establecerá los tipos de datos de las tres columnas de la tabla. Deja el resto de
los parámetros tal como están y selecciona Crear tabla.
3. Una vez que hayas creado la tabla, aparecerá en el panel de tu explorador en el conjunto de datos que creaste
antes.
Haz clic en la tabla para abrirla en tu espacio de trabajo. Aquí, puedes revisar el esquema de la tabla. Luego, ve a la
pestaña Previsualizar para explorar tus datos. La tabla debe tener tres columnas: nombre, género y recuento.
Ahora que tu tabla está configurada, estás listo para comenzar a escribir consultas y responder preguntas acerca de
estos datos. Por ejemplo, supongamos que estabas interesado en los principales cinco nombres de bebés para niños
en los Estados Unidos en 2014.
Haz clic en COMPONER CONSULTA NUEVA para iniciar una nueva consulta para esta tabla. Luego, copia y pega
este código:
SELECT name, count FROM `babynames.names_2014` WHERE gender = 'M' ORDER BY count DESC LIMIT 5
Esta consulta SELECCIONA las columnas de nombre y recuento de la tabla names_2014. Mediante la cláusula
WHERE, estás filtrando para un género específico para tus resultados. Luego, estás ordenando cómo deseas que
aparezcan los resultados con ORDENAR POR. Debido a que estás ordenando por el recuento en orden descendente,
obtendrás los nombres y los recuentos correspondientes de mayor a menor. Y, por último, el LÍMITE le indica a SQL
que solo muestre los resultados de los cinco nombres más populares y los recuentos.
Una vez que hayas escrito esto en tu consola, selecciona EJECUTAR para obtener los resultados de la consulta.
Si te sientes cómodo creando tus propias tablas personalizadas, intenta cargar más archivos del conjunto de datos de
nombres de bebés en tablas que puedas consultar. Por ejemplo, podrías cargar cada uno de los archivos desde 2015
hasta 2019 para descubrir los principales nombres de bebés de esos años.
Confirmación y reflexión
Luego de realizar la consulta en tu nueva tabla, ¿cuál fue el tercer nombre de bebé más popular para niños en 2014?
1 / 1 punto
1. William
2. Jacob
3. Mason
4. Noah
Correcto. Para averiguar que Mason fue el tercer nombre de bebé más popular para niños en 2014, consultaste tu tabla
personalizada y revisaste los resultados. Al avanzar, podrás cargar tus propias fuentes de datos en BigQuery para
futuros proyectos de análisis. Esto te permitirá practicar cómo escribir consultas SQL para más fuentes de datos, que
será una destreza clave como analista de datos.
DOCX File
Estas prácticas recomendadas incluyen pautas para escribir consultas SQL y desarrollar documentación, así como
ejemplos de estas prácticas. Es un buen recurso para tener a mano cuando estés utilizando SQL por tu cuenta, así
puedes dirigirte a la sección que necesites para revisar esas prácticas. ¡Es como una guía práctica de SQL!
Para escribir consultas SQL como un profesional, siempre es bueno usar mayúsculas en los iniciadores de cláusulas
(por ejemplo, SELECT, FROM, WHERE, etcétera). Las funciones también deberían estar escritas con mayúsculas (por
ejemplo, SUM()). Los nombres de las columnas deberían estar escritos en minúscula (consulta la sección sobre
snake_case que se encuentra más adelante en esta guía). Los nombres de las columnas deberían estar escritos en
CamelCase (consulta la sección sobre CamelCase que se encuentra más adelante en esta guía). Esto ayuda a que tus
consultas sean coherentes y fáciles de leer, y no impactarán en los datos que extraigas cuando las realices. En el único
momento en que es importante el uso de mayúsculas es cuando se encuentran dentro de citas (podrás leer más sobre
citas más adelante).
Los proveedores de bases de datos SQL pueden utilizar variaciones ligeramente diferentes de SQL. Estas variaciones
se denominan dialectos SQL. Algunos dialectos SQL distinguen entre mayúsculas y minúsculas. BigQuery es uno de
ellos. Vertica es otro. Pero la mayoría, como MySQL, PostgreSQL y SQL Server no distinguen entre mayúsculas y
minúsculas. Esto quiere decir que si buscas country_code = ‘us’, te mostrará todas las entradas que contengan 'us',
'uS', 'Us' y 'US'. Esto no sucederá con BigQuery. BigQuery distingue entre mayúsculas y minúsculas, de manera que
esa misma búsqueda solo te mostrará entradas en las que el country_code sea exactamente 'us'. Si el country_code es
'US', BigQuery no incluirá esas entradas en los resultados.
Pero hay dos situaciones en las que sí importa qué tipo de comillas utilices:
1. Cuando quieres que las cadenas sean identificables en cualquier dialecto SQL
2. Cuando tu cadena contiene un apóstrofo o comillas
Dentro de cada dialecto SQL, hay reglas sobre lo que es aceptado y lo que no. Pero una regla general que comparten
casi todos los dialectos SQL es el uso de comillas simples para cadenas. Esto ayuda a evitar confusiones. Así que si
queremos referirnos a Estados Unidos en una cláusula WHERE (por ejemplo, country_code = 'US'), utiliza comillas
simples para encerrar la palabra 'US'.
La segunda situación es cuando tu cadena tiene comillas dentro. Imagina que tienes una columna de comidas favoritas
en una tabla denominada FavoriteFoods y otra columna que corresponde a cada amigo.
Amigo Favorite_food
Rachel DeSantos Shepherd’s pie (pastel de pastor)
Sujin Lee Tacos
Najil Okoro Paella española
Puedes ver que la comida favorita de Rachel contiene un apóstrofo. Si usaras comillas simples en una cláusula
WHERE para encontrar al amigo que tiene esta comida favorita, el resultado sería:
Esto no funcionará. Si ejecutas esta consulta, obtendrás un error. Esto sucede porque SQL reconoce una cadena de
texto como algo que comienza con una comilla 'y termina con otra comilla '. Así, en la consulta errónea de arriba, SQL
piensa que la comida favorita (Favorite_food) que estás buscando es 'Shepherd'. Solo 'Shepherd' porque el apóstrofo
de Shepherd’s finaliza la cadena.
En términos generales, este debería ser el único momento en el que deberías utilizar comillas dobles en lugar de
comillas simples. Entonces, tu consulta debería verse así:
SQL entiende cadenas de texto que comienzan con una comilla simple ' o con una comilla doble ". Dado que esta
cadena comienza con comillas dobles, SQL esperará que otra comilla doble marque el final de la cadena. Esto
asegurará el apóstrofo, así que volverá a "Shepherd’s pie" y no a 'Shepherd'.
Por ejemplo:
Puedes utilizar # en lugar de dos guiones, --, en la consulta de arriba, pero recuerda que no todos los dialectos SQL
reconocen # (MySQL no reconoce #). Por lo tanto, se recomienda usar -- de manera coherente. Cuando agregas un
comentario a una consulta utilizando --, el motor de consulta de la base de datos ignorará todo lo que esté en la misma
línea luego de --. Continuará procesando la consulta a partir de la próxima línea.
The following table features the results of this query: f0: 8 f1: 4 total_tickets: 8 Number_of_purchases: 4
La siguiente tabla muestra los resultados de esta consulta: f0: 8 f1: 4 total_tickets: 8 Number_of_purchases: 4
f0 f1 total_tickets number_of_purchases
8 4 8 4
Las primeras dos columnas se denominan f0 y f1 porque no recibieron un nombre en la consulta anterior. Los nombres
SQL predeterminados son f0, f1, f2, f3 y así sucesivamente. Denominamos las últimas dos columnas total_tickets y
number_of_purchases, así que los nombres de estas columnas aparecen en los resultados de la consulta. Por eso
siempre es bueno ponerles nombres útiles a las columnas, en especial cuando utilizamos funciones. Luego de realizar
la consulta, quieres tener la capacidad de comprender rápidamente tus resultados, como las dos columnas que
describimos en el ejemplo.
Además de eso, notarás que los nombres de las columnas tienen guiones bajos entre las palabras. Los nombres nunca
deben tener espacios. Si 'total_tickets' tuviera un espacio y fuera 'total tickets', SQL cambiaría el nombre SUM(tickets)
por 'total'. Debido al espacio, SQL utilizará 'total' como el nombre y no comprenderá lo que quieres decir con 'tickets'.
Entonces, los espacios son malos para los nombres en SQL. Nunca utilices espacios.
Lo mejor es utilizar snake_case. Eso quiere decir que 'total tickets', que tiene un espacio en el medio de las dos
palabras, debe escribirse como 'total_tickets', con un guion bajo en lugar de un espacio.
Todas las letras en minúscula o todas las letras en mayúscula, como ticketsbyoccasion o
TICKETSBYOCCASION.
Con snake_case, como tickets_by_occasion.
Recuerda que la opción de escribir todas las letras en minúscula o todas las letras en mayúscula puede dificultar la
lectura del nombre de tu tabla, por eso no es recomendable para uso profesional.
La segunda opción, snake_case, es técnicamente correcta. Si las palabras están separadas por guiones bajos, el
nombre de tu tabla es fácil de leer, pero puede ser bastante largo porque estás agregando los guiones bajos. Además,
lleva más tiempo escribirlo. Si utilizas mucho esa tabla, puede convertirse en un fastidio.
En resumen, depende de ti utilizar snake_case o CamelCase a la hora de ponerle nombre a tus tablas. Solo asegúrate
de que el nombre de tu tabla sea fácil de leer y coherente. También asegúrate de averiguar si tu empresa prefiere
nombrar las tablas de una manera específica. Si es así, siempre sigue su convención de nomenclatura para ser
coherente.
Sangría:
Como regla general, es preferible mantener la longitud de cada línea en una consulta <= 100 caracteres. Esto hará que
tus consultas sean fáciles de leer. Por ejemplo, observa esta consulta con una línea de >100 caracteres.
SELECT CASE WHEN genre = 'horror' THEN 'Will not watch' WHEN genre = 'documentary' THEN 'Will watch alone'
ELSE 'Watch with others' END AS Watch_category, COUNT(
Esa consulta es difícil de leer e igual de complicada para solucionar o editar. Por otro lado, aquí hay una consulta en la
que nos limitamos a la regla de <= 100 caracteres:
Ahora es más fácil comprender lo que estás tratando de hacer en la cláusula SELECT. Ambas consultas se
desarrollarán sin problema porque la sangría no tiene importancia en SQL. No obstante, una sangría adecuada sigue
siendo importante para que las líneas sean cortas. Y cualquiera que lea tu consulta la valorará, ¡incluso tú mismo!
-- Fecha: 15 de septiembre de 2020 -- Analista: Jazmin Cisneros -- Objetivo: Cuenta el número de filas de la tabla
SELECT COUNT(*) cantidad de filas -- el * representa todo, así que cuenta todo FROM tabla
/* Date: September 15, 2020 Analyst: Jazmin Cisneros Goal: Count the number of rows in the table */ SELECT
COUNT(*) AS number_of_rows -- the * stands for all so count all FROM table
/* Fecha: 15 de septiembre de 2020 Analista: Jazmin Cisneros Objetivo: Cuenta el número de filas de la tabla */
SELECT COUNT(*) AS number_of_rows -- el * representa todo, así que cuenta todo FROM tabla
En SQL no importa el método que utilices. SQL ignora los comentarios independientemente de si utilizas: #, -- o /* y */.
Así que depende de ti y de tu preferencia personal. El método /* y */ para realizar comentarios de muchas líneas suele
verse más prolijo y ayuda a separar los comentarios de la consulta. Pero no hay un método correcto o uno incorrecto.
Esto es muy difícil de leer, así que es probable que quieras eliminar las sangrías y comenzar de nuevo. En una
plataforma regular SQL, tendrías que ir línea por línea y presionar RETROCESO para borrar cada sangría por línea.
Pero en Sublime, puedes eliminar todas las sangrías al mismo tiempo si seleccionas todas las líneas y presionas
Comando (o CTRL en Windows) + [. Esto eliminará todas las sangrías de cada línea. Luego puedes seleccionar las
líneas a las que quieras agregarle sangría (por ejemplo, líneas 2, 4 y 6), y presionar la tecla Comando (o la tecla CTRL
en Windows) y seleccionar esas líneas. Luego, mientras mantienes presionada la tecla Comando (o la tecla CTRL en
Windows), presiona ] para agregar sangrías a las líneas 2, 4 y 6 al mismo tiempo. Esto ordenará tu consulta y, en
cambio, se verá así:
Sublime Text también acepta expresiones regulares. Puedes utilizar expresiones regulares (o regex) para buscar y
reemplazar patrones de cadena en las consultas. Aquí no nos dedicaremos a las expresiones regulares, pero quizás
quieras aprender más sobre ellas por tu cuenta, ya que son una herramienta muy poderosa.
Estas prácticas recomendadas incluyen pautas para escribir consultas SQL y desarrollar documentación, así como ejemplos
de estas prácticas. Es un buen recurso para tener a mano cuando estés utilizando SQL por tu cuenta, así puedes dirigirte a la
sección que necesites para revisar esas prácticas. ¡Es como una guía práctica de SQL!
Con SQL, el uso de mayúsculas no suele importar. Puedes escribir SELECT, seleccionar o SeLeCT. ¡Todas las opciones
funcionan! Pero si utilizas mayúsculas como parte de un estilo coherente, tus consultas se verán más profesionales.
Para escribir consultas SQL como un profesional, siempre es bueno usar mayúsculas en los iniciadores de cláusulas (por
ejemplo, SELECT, FROM, WHERE, etcétera). Las funciones también deberían estar escritas con mayúsculas (por
ejemplo, SUM()). Los nombres de las columnas deberían estar escritos en minúscula (consulta la sección sobre
snake_case que se encuentra más adelante en esta guía). Los nombres de las columnas deberían estar escritos en
CamelCase (consulta la sección sobre CamelCase que se encuentra más adelante en esta guía). Esto ayuda a que
tus consultas sean coherentes y fáciles de leer, y no impactarán en los datos que extraigas cuando las realices. En el
único momento en que es importante el uso de mayúsculas es cuando se encuentran dentro de citas (podrás leer
más sobre citas más adelante).
Los proveedores de bases de datos SQL pueden utilizar variaciones ligeramente diferentes de SQL. Estas variaciones se
denominan dialectos SQL. Algunos dialectos SQL distinguen entre mayúsculas y minúsculas. BigQuery es uno de ellos. Vertica
es otro. Pero la mayoría, como MySQL, PostgreSQL y SQL Server no distinguen entre mayúsculas y minúsculas. Esto quiere
decir que si buscas country_code = ‘us’, te mostrará todas las entradas que contengan 'us', 'uS', 'Us' y 'US'. Esto no sucederá
con BigQuery. BigQuery distingue entre mayúsculas y minúsculas, de manera que esa misma búsqueda solo te mostrará
entradas en las que el country_code sea exactamente 'us'. Si el country_code es 'US', BigQuery no incluirá esas entradas en
los resultados.
Pero hay dos situaciones en las que sí importa qué tipo de comillas utilices:
1. Cuando quieres que las cadenas sean identificables en cualquier dialecto SQL
2. Cuando tu cadena contiene un apóstrofo o comillas
Dentro de cada dialecto SQL, hay reglas sobre lo que es aceptado y lo que no. Pero una regla general que
comparten casi todos los dialectos SQL es el uso de comillas simples para cadenas. Esto ayuda a evitar
confusiones. Así que si queremos referirnos a Estados Unidos en una cláusula WHERE (por ejemplo, country_code
= 'US'), utiliza comillas simples para encerrar la palabra 'US'.
La segunda situación es cuando tu cadena tiene comillas dentro. Imagina que tienes una columna de comidas favoritas en
una tabla denominada FavoriteFoods y otra columna que corresponde a cada amigo.
Friend Favorite_food
Puedes ver que la comida favorita de Rachel contiene un apóstrofo. Si usaras comillas simples en una cláusula WHERE para
encontrar al amigo que tiene esta comida favorita, el resultado sería:
Esto no funcionará. Si ejecutas esta consulta, obtendrás un error. Esto sucede porque SQL reconoce una cadena de texto
como algo que comienza con una comilla 'y termina con otra comilla '. Así, en la consulta errónea de arriba, SQL piensa que la
comida favorita (Favorite_food) que estás buscando es 'Shepherd'. Solo 'Shepherd' porque el apóstrofo de Shepherd’s finaliza
la cadena.
En términos generales, este debería ser el único momento en el que deberías utilizar comillas dobles en lugar de comillas
simples. Entonces, tu consulta debería verse así:
SQL entiende cadenas de texto que comienzan con una comilla simple ' o con una comilla doble ". Dado que esta cadena
comienza con comillas dobles, SQL esperará que otra comilla doble marque el final de la cadena. Esto asegurará el
apóstrofo, así que volverá a "Shepherd’s pie" y no a 'Shepherd'.
que tengas comentarios en la consulta para recordar lo que estás tratando de hacer. Y si compartes tu consulta, eso ayudará a
Por ejemplo:
Puedes utilizar # en lugar de dos guiones, --, en la consulta de arriba, pero recuerda que no todos los dialectos SQL
reconocen # (MySQL no reconoce #). Por lo tanto, se recomienda usar -- de manera coherente. Cuando agregas un
comentario a una consulta utilizando --, el motor de consulta de la base de datos ignorará todo lo que esté en la misma línea
luego de --. Continuará procesando la consulta a partir de la próxima línea.
nueva columna (ya sea desde un cálculo o desde nuevos campos concatenados), la nueva columna recibirá un nombre
La siguiente tabla muestra los resultados de esta consulta: f0: 8 f1: 4 total_tickets: 8 Number_of_purchases: 4
8484
Las primeras dos columnas se denominan f0 y f1 porque no recibieron un nombre en la consulta anterior. Los nombres SQL
predeterminados son f0, f1, f2, f3 y así sucesivamente. Denominamos las últimas dos columnas total_tickets y
number_of_purchases, así que los nombres de estas columnas aparecen en los resultados de la consulta. Por eso siempre es
bueno ponerles nombres útiles a las columnas, en especial cuando utilizamos funciones.
Luego de realizar la consulta, quieres tener la capacidad de comprender rápidamente tus resultados, como las dos columnas
que describimos en el ejemplo.
Además de eso, notarás que los nombres de las columnas tienen guiones bajos entre las palabras. Los nombres nunca deben
tener espacios. Si 'total_tickets' tuviera un espacio y fuera 'total tickets', SQL cambiaría el nombre SUM(tickets) por 'total'.
Debido al espacio, SQL utilizará 'total' como el nombre y no comprenderá lo que quieres decir con 'tickets'. Entonces, los
espacios son malos para los nombres en SQL. Nunca utilices espacios.
Lo mejor es utilizar snake_case. Eso quiere decir que 'total tickets', que tiene un espacio en el medio de las dos palabras,
debe escribirse como 'total_tickets', con un guion bajo en lugar de un espacio.
• Todas las letras en minúscula o todas las letras en mayúscula, como ticketsbyoccasion o
TICKETSBYOCCASION.
• Con snake_case, como tickets_by_occasion.
Recuerda que la opción de escribir todas las letras en minúscula o todas las letras en mayúscula puede dificultar la lectura del
nombre de tu tabla, por eso no es recomendable para uso profesional.
La segunda opción, snake_case, es técnicamente correcta. Si las palabras están separadas por guiones bajos, el nombre
de tu tabla es fácil de leer, pero puede ser bastante largo porque estás agregando los guiones bajos. Además, lleva más
tiempo escribirlo. Si utilizas mucho esa tabla, puede convertirse en un fastidio.
En resumen, depende de ti utilizar snake_case o CamelCase a la hora de ponerle nombre a tus tablas. Solo asegúrate de que
el nombre de tu tabla sea fácil de leer y coherente. También asegúrate de averiguar si tu empresa prefiere nombrar las tablas
de una manera específica. Si es así, siempre sigue su convención de nomenclatura para ser coherente.
Sangría:
Como regla general, es preferible mantener la longitud de cada línea en una consulta <= 100 caracteres.
Esto hará que tus consultas sean fáciles de leer. Por ejemplo, observa esta consulta con una línea de >100 caracteres.
SELECT CASE WHEN genre = 'horror' THEN 'Will not watch' WHEN genre = 'documentary' THEN 'Will watch alone' ELSE
'Watch with others' END AS Watch_category, COUNT(
Esa consulta es difícil de leer e igual de complicada para solucionar o editar. Por otro lado, aquí hay una consulta en la que
nos limitamos a la regla de <= 100 caracteres:
Ahora es más fácil comprender lo que estás tratando de hacer en la cláusula SELECT. Ambas consultas se desarrollarán sin
problema porque la sangría no tiene importancia en SQL. No obstante, una sangría adecuada sigue siendo importante para
que las líneas sean cortas. Y cualquiera que lea tu consulta la valorará, ¡incluso tú mismo!
-- Fecha: 15 de
septiembre de 2020 -- Analista: Jazmin Cisneros -- Objetivo: Cuenta el número de filas de la tabla SELECT COUNT(*) cantidad
de filas -- el * representa todo, así que cuenta todo FROM tabla
O puedes utilizar el método /* */ como se muestra debajo:
/* Fecha:
15 de septiembre de 2020 Analista: Jazmin Cisneros Objetivo: Cuenta el número de filas de la tabla */ SELECT
COUNT(*) AS number_of_rows -- el * representa todo, así que cuenta todo FROM tabla
En SQL no importa el método que utilices. SQL ignora los comentarios independientemente de si utilizas: #, -- o /* y */. Así
que depende de ti y de tu preferencia personal. El método /* y */ para realizar comentarios de muchas líneas suele verse
más prolijo y ayuda a separar los comentarios de la consulta. Pero no hay un método correcto o uno incorrecto.
Esto es muy difícil de leer, así que es probable que quieras eliminar las sangrías y comenzar de nuevo. En una plataforma
regular SQL, tendrías que ir línea por línea y presionar RETROCESO para borrar cada sangría por línea. Pero en Sublime,
puedes eliminar todas las sangrías al mismo tiempo si seleccionas todas las líneas y presionas Comando (o CTRL en Windows)
+ [. Esto eliminará todas las sangrías de cada línea. Luego puedes seleccionar las líneas a las que quieras agregarle sangría
(por ejemplo, líneas 2, 4 y 6), y presionar la tecla Comando (o la tecla CTRL en Windows) y seleccionar esas líneas. Luego,
mientras mantienes presionada la tecla Comando (o la tecla CTRL en Windows), presiona ] para agregar sangrías a las líneas
2, 4 y 6 al mismo tiempo. Esto ordenará tu consulta y, en cambio, se verá así:
Sublime Text también acepta expresiones regulares. Puedes utilizar expresiones regulares (o regex) para buscar y reemplazar
patrones de cadena en las consultas. Aquí no nos dedicaremos a las expresiones regulares, pero quizás quieras aprender más
sobre ellas por tu cuenta, ya que son una herramienta muy poderosa.
Puedes comenzar con estos recursos:
● Buscar y reemplazar en Sublime Text
● Tutorial de expresiones regulares (si no sabes qué son las expresiones regulares)
● Hoja de referencia de expresiones regulares
.
Pregunta 1
Resumen de la actividad
En lecciones anteriores, aprendiste cómo aplicar fórmulas en las hojas de cálculo. En esta actividad, practicaremos
cómo utilizar las fórmulas con las consultas SQL.
Al finalizar esta actividad, podrás utilizar SQL para escribir consultas para los conjuntos de datos. Esto te permitirá
explorar los conjuntos de datos públicos en BigQuery, lo cual es importante para escribir consultas en tu carrera como
analista de datos.
Configurar tus datos
1. Inicia sesión en el espacio aislado de BigQuery. Si cuentas con una versión de prueba gratuita de BigQuery, puedes
utilizarla. En la página de BigQuery, haz clic en el botón Ir a BigQuery.
Nota:El espacio aislado de BigQuery actualiza frecuentemente su interfaz de usuario. Los últimos cambios
posiblemente no se vean reflejados en las capturas de pantalla presentadas en esta actividad, pero los
principios siguen siendo los mismos. Adaptarse a los cambios de las actualizaciones de software es una
destreza esencial para los analistas de datos, y es útil para ti para practicar la resolución de problemas.
También puedes comunicarte con tu comunidad de alumnos en el foro de debate para obtener ayudar.
2. Si nunca has creado un proyecto de BigQuery antes, haz clic en CREAR PROYECTO en el lado derecho de la
pantalla. Si has creado un proyecto antes, puedes utilizar uno existente o crear uno nuevo haciendo clic en la lista
desplegable del proyecto en la barra del encabezado azul y seleccionando NUEVO PROYECTO.
3. Coloca un nombre al proyecto que te permita identificarlo luego. Puedes colocarle un ID de proyecto único o utilizar
uno generado automáticamente. No te preocupes por seleccionar una organización si no sabes qué colocar.
4. Ahora, verás la interfaz del Editor. En la mitad de la pantalla hay una ventana donde puedes escribir el código y,
hacia la izquierda, está el menú del Explorador donde puedes buscar conjuntos de datos.
Sigue estos pasos para encontrar y elegir un conjunto de datos para esta actividad:
2. Haz clic en el botón + AGREGAR (+ ADD) del menú Explorador (Explorer), navega hacia abajo por la lista en la
ventana Agregar y selecciona Conjuntos de datos públicos (Public Datasets).
Se abrirá un menú nuevo en el que podrás buscar conjuntos de datos públicos que ya estén disponibles a través de
Google Cloud.
3. En la barra Buscar en Marketplace (Search Marketplace), busca “Árboles de la ciudad de Nueva York”. Haz clic en el
resultado y, luego, en Ver conjunto de datos (View Dataset). Esto te llevará nuevamente a la interfaz de zona de
pruebas de BigQuery en una pestaña nueva.
● Nota: Es posible que con esta acción se fije el menú desplegable de bigquery-public-data al menú Explorador con
una estrella destacada. De esta forma, puedes explorar tablas y conjuntos de datos adicionales para futuras lecciones.
4. En BigQuery, encontrarás información sobre el conjunto de datos que seleccionaste. Revisa la descripción del
conjunto de datos.
Por ejemplo, puedes localizar el ID del conjunto de datos que necesitarás para escribir una consulta en SQL y, así,
advertir a qué base de datos, conjunto de datos y tabla te orientarás. En este caso, la conexión de la base de datos es
“bigquery-public-data” y el ID del conjunto de datos es “árboles_ciudad_nueva_york”, por lo que aún deberás identificar
qué tabla quieres consultar.Para hacerlo, comienza con una revisión minuciosa delconjunto de datos.
Si no se generan resultados, puedes buscarlo manualmente borrando el texto de la barra de búsqueda, haciendo clic
en la flecha al lado de bigquery-public-data y desplazándote para encontrar el conjunto de datos correcto.
2. Una vez que hayas encontrado el conjunto de datos “árboles_ciudad_nueva_york”, haz clic en la flecha que está
junto a él para expandirlo y examinar las tablas que contiene.
Estas son todas tablas incluidas en el conjunto de datos. Puedes consultar los datos de todos los árboles catalogados
en la ciudad de Nueva York para tres años específicos.
4. Haz clic en la tabla censo_árboles_2005 (tree_census_2005) para que aparezca la información de la tabla.
5. En el lado derecho de la ventana de información, haz clic en Consulta (Query) y, luego, selecciona “En una pestaña
nueva” (In new tab).
De esta forma, se completará la ventana con una consulta. Observa que la consulta no contiene información entre
“SELECT” y “FROM”.
1. Inserta un asterisco * después de la selección, para que en la consulta se lea SELECT * FROM seguido de la
ubicación de la tabla.
3. Escribe una consulta para averiguarel diámetro promedio de todos los árboles de Nueva York en 2005. En lugar de
un asterisco, escribe AVG(tree_dbh).
Aparecerá la respuesta: 12.833 (que significa que el diámetro promedio de los árboles de la ciudad de Nueva York en
2005 era de 12.833 pulgadas).
Eres libre de elegir otro conjunto de datos disponible públicamente en BigQuery y de escribir tus propias consultas para
una práctica adicional. Hay muchas opciones interesantes.
Confirmación y reflexión
Según el conjunto de datos que usaste en esta actividad, ¿cuál fue el diámetro promedio de los árboles de la ciudad de
Nueva York en 2015?
1. 11.439
2. 12.334
3. 12.981
4. 11.279
Correcto. El diámetro promedio de los árboles de la ciudad de Nueva York en 2015 fue de 11.279 pulgadas. De ahora
en adelante, podrás escribir otras consultas en SQL para devolver los resultados de los conjuntos y las bases de datos.
No debes incluir el signo igual ni las comillas. De esta forma podrás encontrar los datos que necesitas para futuros
proyectos.
Pregunta 2
Durante esta actividad, practicaste cómo escribir consultas en SQL para devolver resultados de la información de los
conjuntos de datos. En el siguiente cuadro de texto, escribe 2 o 3 oraciones (entre 40 y 60 palabras) en respuesta a
cada una de las siguientes preguntas:
¿Qué crees que ocurriría si escribieras cada componente de una consulta correctamente, pero cambiaras el
orden?
¿Cómo puedes utilizar las consultas en SQL para crecer como analista de datos?
Correcto
¡Felicitaciones por completar esta actividad práctica! En una respuesta sólida, se incluiría cómo realizar consultas a los
conjuntos de datos públicos es una gran manera de practicar con SQL. Más allá de eso, considera lo siguiente:
Los analistas de datos utilizan SQL para interactuar con las bases de datos y visualizar la información que necesitan
analizar. Este es un conocimiento importante que te preparará para cursos futuros y muchos aspectos de tu carrera
como analista de datos. En las próximas actividades, aprenderás y practicarás cómo escribir consultas más avanzadas
que te ayudarán a dominar SQL, una herramienta esencial para el kit de herramientas de todo analista de datos.
CUESTIONARIO:
Pregunta 1
En MySQL, ¿cuál es la sintaxis aceptable para la palabra clave SELECT? Selecciona todas las opciones que
correspondan.
1. 'SELECT'
2. Select. Correcto. En MySQL, SELECT o seleccionar es una sintaxis aceptable.
3. SELECT. Correcto. En MySQL, SELECT o seleccionar es una sintaxis aceptable.
4. "SELECT"
Pregunta 2
La tabla de una base de datos se denomina blueFlowers. ¿Qué tipo de notación es esta?
1. Camel case
2. Minúscula
3. Snake Case
4. Tipo oración
Correcto. blueFlowers está en Camel Case.
Pregunta 3
En BigQuery, ¿qué sintaxis opcional se puede eliminar de la siguiente cláusula FROM sin dejar de realizar la
consulta?
FROM `bigquery-public-data.sunroof_solar.solar_potential_by_postal_code`
1. Guiones
2. Guiones bajos
3. Comillas simples
4. Puntos
Correcto. El nombre del conjunto de datos se muestra entre dos comillas simples para ayudar a las personas a leer la
consulta más fácilmente. Si quitas las comillas simples, la consulta seguirá ejecutándose.
Pregunta 4
FROM bigquery-public-data.sunroof_solar.solar_potential_by_postal_code
1. sunroof_solar
2. public-data.sunroof
3. solar.solar
4. solar_potential_by_postal_code
Correcto. El nombre de la tabla en la consulta SQL es solar_potential_by_postal_code. La tabla está en el conjunto de
datos sunroof_solar, un conjunto de datos público en BigQuery.
Glosario
Análisis (computacional) de datos
Términos y definiciones
A
Agenda: Lista de citas programadas.
Alcance del trabajo (SOW): Esquema acordado de las tareas a realizar durante un proyecto.
Análisis de déficits: Método para examinar y evaluar el estado actual de un proceso con el fin de identificar las
oportunidades de mejora en el futuro.
Analista de datos: Alguien que recopila, transforma y organiza los datos para sacar conclusiones, hacer predicciones e
impulsar la toma de decisiones fundamentada.
Anonimización de datos: El proceso de proteger los datos privados o confidenciales de las personas eliminando información
que pueda asociarse a ellas.
Apertura: El aspecto de la ética de datos que promueve el acceso libre a los datos, su uso y también el uso compartido.
Archivo CSV (valores separados por coma): Archivo de texto delimitado que utiliza una coma para separar los valores.
Archivo de audio: Almacenamiento en audio digitalizado generalmente en MP3, AAC u otro formato comprimido.
Archivo de video: Conjunto de imágenes, archivos de audio y otros datos generalmente codificados en un formato
comprimido, por ejemplo, MP4, MV4, MOV, AVI o FLV.
Atributo: Característica o calidad de los datos que se usan para etiquetar una columna en una tabla.
B
Base de datos normalizada: Base de datos en la que solo se almacenan datos relacionados en cada tabla.
Base de datos relacional: Base de datos que contiene una serie de tablas que se pueden conectar para formar relaciones.
Bloc de notas: Entorno de programación interactivo y editable para generar informes de datos y mostrar destrezas en el uso
de datos.
Bordes: Líneas que se pueden agregar alrededor de dos o más celdas en una hoja de cálculo.
C
Campo: Información de una fila o columna de una hoja de cálculo; en una tabla de datos, suele ser una columna de la tabla.
Ciclo de vida de los datos: Secuencia de etapas por las que pasan los datos, que incluye planificar, capturar, gestionar,
analizar, archivar y destruir.
Ciencia de datos: Campo de estudio que utiliza datos sin procesar para crear nuevas formas de modelar y entender lo
desconocido.
Clave externa: Campo en una tabla de una base de datos que constituye una clave primaria en otra tabla (Ver “Clave
primaria”).
Clave primaria: Identificador en una base de datos que hace referencia a una columna en la que cada valor es único (Ver
“Clave externa”).
Conjunto de datos: Una colección de datos que pueden ser manipulados o analizados como una unidad.
Consentimiento: El aspecto de la ética de datos que considera el derecho de una persona de conocer cómo y por qué se
utilizarán sus datos personales antes de estar de acuerdo de proporcionarlos.
Controlador de relleno: Cuadro en la esquina inferior derecha de una celda seleccionada de una hoja de cálculo que se
puede arrastrar pasando por celdas vecinas para seguir una instrucción.
Convenciones de nomenclatura: Pautas uniformes para el nombre de un archivo que describen el contenido, la fecha de
creación y la versión.
Cookie: Pequeño archivo almacenado en una computadora que contiene información acerca de sus usuarios.
D
Datos abiertos: Datos que están disponibles para el público.
Datos booleanos: Tipo de datos con solo dos valores posibles, generalmente verdadero o falso.
Datos continuos: Datos que se miden y que pueden tener casi cualquier valor numérico.
Datos de primera fuente: Datos recopilados por una persona o por un grupo por medio de sus propios recursos.
Datos de segunda fuente: Datos que recopila un grupo directamente de su audiencia y que, luego, se venden.
Datos de terceros: Datos proporcionados de fuentes externas que no los recopilaron directamente.
Datos en formato ancho: Conjunto de datos en el que cada tema tiene una sola fila con varias columnas para describir los
valores de los distintos atributos del tema.
Datos en formato largo: Conjunto de datos en el que cada fila constituye un punto de tiempo por persona, por lo que cada
persona tiene datos en varias filas.
Datos estructurados: Datos organizados de cierta forma, por ejemplo, en filas y columnas.
Datos externos: Los datos que se alojan y generan fuera de una organización.
Datos no estructurados: Datos que no se organizan de forma que sea fácil identificarlos.
Datos nominales: Tipo de datos cualitativos que se categorizan sin un orden establecido.
DESDE: La sección de una consulta que indica de donde provienen los datos seleccionados.
Destrezas analíticas: Cualidades y características asociadas al uso de hechos para resolver problemas.
Dominio del problema: Área de análisis que abarca cada actividad que afecta a un problema o se ve afectada por él.
DÓNDE: La sección de una consulta que especifica los criterios que deben cumplir los datos solicitados.
E
Ecosistema de datos: Los distintos elementos que interactúan entre sí para producir, gestionar, almacenar, organizar, analizar
y compartir datos.
Ecuación: Cálculo que implica suma, resta, multiplicación o división (también se denomina expresión matemática).
Encabezado: La primera fila en una hoja de cálculo que hace referencia al tipo de datos en cada columna.
Equidad: Cualidad del análisis de datos que no genera sesgos ni los reafirma.
Esquema: Una manera de describir cómo se organiza algo, como por ejemplo datos.
Estrategia de datos: La gestión de las personas, los procesos y las herramientas que se usan en el análisis de datos.
Ética de los datos: Normas justificadas respecto de lo que está bien y lo que está mal a la hora de recopilar, compartir y usar
datos.
Ética: Normas justificadas respecto de lo que está bien y lo que está mal. Por lo general, presuponen lo que deben hacer los
seres humanos, usualmente en términos de derechos, obligaciones, beneficios para la sociedad, equidad o virtudes
específicas.
Expresión matemática: Cálculo que implica la suma, resta, multiplicación o división (también denominada “ecuación”).
F
Filtrado: Proceso que muestra solo los datos que cumplen con un criterio específico mientras oculta el resto.
Fórmula: Conjunto de instrucciones que se utilizan para realizar un cálculo utilizando los datos de una hoja de cálculo.
Fuente de datos correctos: Una fuente de datos que es confiable, original, integral, actual y citada (ROCCC) (Ver “Fuente de
datos incorrectos”).
Fuente de datos erróneos: Fuente de datos que no es confiable, original, integral, actual ni citada (ROCCC).
Función matemática: Función que se utiliza como parte de una fórmula matemática.
Función: Comando preestablecido que realiza automáticamente un proceso o tarea especificado utilizando los datos de una
hoja de cálculo.
G
Geolocalización: La ubicación geográfica de una persona o dispositivo mediante información digital.
Gobierno de datos: Proceso para garantizar la gestión formal de los recursos de datos de una empresa.
Gráfico dinámico: Gráfico creado a partir de los campos de una tabla dinámica.
H
Hoja de cálculo: Una hoja de cálculo digital.
I
Informe: Conjunto estático de datos que se entrega periódicamente a los interesados.
Interesados: Personas que invierten tiempo y recursos en un proyecto y se interesan por su resultado.
Interoperabilidad de los datos: La capacidad de integrar datos de varias fuentes y un factor clave en el uso satisfactorio de los
datos abiertos entre las empresas y los gobiernos.
L
Lenguaje de consulta estructurado: Lenguaje de programación informática utilizado para comunicarse con una base de
datos.
Lenguaje de consulta: Lenguaje de programación informática utilizado para comunicarse con una base de datos.
M
Macrodatos: Conjuntos de datos grandes, complejos que generalmente implican largos períodos de tiempo, que permiten
que los analistas de datos aborden los problemas comerciales de gran alcance.
MAX: Función de la hoja de cálculo que muestra el valor numérico mayor de un rango de celdas.
Mentalidad técnica: La capacidad de dividir las cosas en pasos o piezas más pequeñas y trabajar con ellas de forma ordenada
y lógica.
Metadatos descriptivos: Metadatos que describen datos y que se pueden utilizar para identificarlos más adelante.
Metadatos estructurales: Metadatos que indican cómo se organizan ciertos datos y si forman parte de una recopilación de
datos o de varias.
Metodología SMART: Herramienta para determinar la eficacia de una pregunta según sea específica, mensurable, orientada a
la acción, pertinente y con plazos determinados.
Métrica: Tipo único y cuantificable de datos que pueden utilizarse para medición.
Microdatos: Puntos de datos pequeños, específicos, que generalmente involucran un breve período y que son útiles para
tomar decisiones diarias.
MIN: Función de la hoja de cálculo que muestra el valor numérico menor de un rango de celdas.
Modelo de datos: Herramienta para organizar los elementos de datos y la forma en que se relacionan entre ellos.
Muestra: En el análisis computacional de datos, segmento de una población que la representa toda.
N
Nube: Lugar para mantener los datos en línea, en lugar de en el disco duro de una computadora.
O
Objetivo métrico: Objetivo medible establecido por una empresa y evaluado mediante métricas.
Observación: Los atributos que describen una pieza de datos contenida en una fila de una tabla.
Oficina del Censo de los Estados Unidos: Agencia del Departamento de Comercio de los Estados Unidos que funciona como
proveedor principal de datos de calidad sobre las personas y la economía a nivel nacional.
Orden de operaciones: Uso de paréntesis para agrupar los valores de la hoja de cálculo a fin de aclarar el orden en el que
deben realizarse las operaciones.
Ordenación: El proceso de organizar los datos en un orden significativo para que sea más fácil entenderlos, analizarlos y
visualizarlos.
Organización Mundial de la Salud: Organización cuya función principal es la de controlar y coordinar la salud a nivel
internacional dentro del sistema de las Naciones Unidas.
P
Panel: Herramienta que monitorea los datos entrantes en vivo.
Pensamiento analítico: El proceso de identificar y definir un problema, para luego resolverlo mediante el uso de datos de
manera organizada, paso a paso.
Pensamiento estructurado: El proceso de reconocer el problema o la situación actuales, organizar la información disponible,
revelar déficits y oportunidades, e identificar opciones.
Píxel: En imágenes digitales, es un área pequeña de iluminación en una pantalla de visualización que, cuando se combina con
otras áreas adyacentes, forma una imagen digital.
Población: En el análisis computacional de datos, todos los valores posibles en un conjunto de datos.
Pregunta específica: Pregunta simple, significativa y enfocada en un solo tema o en algunas ideas estrechamente
relacionadas entre sí.
Pregunta injusta: Pregunta en la que se hacen suposiciones o que es difícil de responder honestamente.
Pregunta principal: Pregunta que orienta a las personas hacia cierta respuesta.
Pregunta relevante: Pregunta que tiene importancia para el problema que se debe resolver.
Privacidad de los datos: Preservación de la información sobre los datos de una persona cada vez que ocurre una transacción
de datos.
Proceso de análisis de datos: Las seis fases de preguntar, preparar, procesar, analizar, compartir y actuar cuyo propósito es el
de obtener conocimiento que propicie la toma de decisiones informada.
PROMEDIO: Función de una hoja de cálculo que muestra el resultado de un promedio de los valores de un rango
seleccionado.
Propiedad: El aspecto de la ética de datos que presupone que cada persona es dueña de los datos sin procesar que
proporciona y que tiene control primordial sobre su uso, procesamiento y uso compartido.
R
Rango: Conjunto de dos o más celdas en una hoja de cálculo.
Redes sociales: Sitios web y aplicaciones en los que los usuarios crean y comparten contenido o interactúan entre sí.
Referencia de celda: Una celda o un rango de celdas en una hoja de cálculo que se utiliza generalmente en las fórmulas y
funciones.
Reformulación: Proceso de replantear un problema o desafío, que se redirecciona luego hacia una posible resolución.
Registro: Conjunto de datos relacionados en una tabla de datos, generalmente sinónimo de “fila”.
Reglamento General de Protección de Datos de la Unión Europea (GDPR): Organismo formulador de políticas en la Unión
Europea, creado para ayudar a proteger a las personas y sus datos.
Retorno de la inversión (ROI): Fórmula que utiliza las métricas de inversión y ganancias para evaluar el éxito de una inversión.
S
SELECCIONAR: Sección de una consulta que indica el subconjunto de un conjunto de datos.
Sesgo de confirmación: La tendencia de buscar o interpretar la información de manera que confirma creencias preexistentes.
Sesgo de los datos: Cuando una preferencia a favor o en contra de una persona, un grupo de personas o una cosa sesga
sistemáticamente los resultados del análisis de datos en una cierta dirección.
Sesgo del investigador: Tendencia de distintas personas a observar las cosas de forma diferente (Ver “Sesgo del observador”).
Sesgo del muestreo: Representar en mayor o en menor medida a ciertos miembros de una población debido a que se trabaja
con una muestra que no representa a la población en su totalidad.
Sesgo del observador: Tendencia de distintas personas a observar las cosas de forma diferente (también se denomina “sesgo
del investigador”).
Sesgo: Preferencia consciente o no a favor o en contra de una persona, un grupo de personas o una cosa.
SUMA: Función de una hoja de cálculo que suma los valores de un rango de celdas seleccionadas.
T
Tabla dinámica: Herramienta de resumen de datos que se utiliza para clasificar, reorganizar, agrupar, contar, totalizar o
promediar datos.
Tarea empresarial: La pregunta o el problema que el análisis de datos resuelve para un negocio.
Tasa de rotación: Ritmo en el que los empleados abandonan voluntariamente una empresa.
Tipo de datos de texto: Secuencia de caracteres y puntuación que contiene información textual (también denominado “tipo
de datos de cadena”).
Tipo de datos en cadena: Secuencia de caracteres y puntuación que contiene información textual (también denominado
“tipo de datos de texto”).
Tipo de datos: Atributo que describe los datos según sus valores, su lenguaje de programación o las operaciones que puede
realizar.
Tipos de problemas: Distintos problemas a los que se enfrenta el analista de datos, que incluyen categorizar elementos,
descubrir conexiones, hallar patrones, identificar temas, hacer predicciones y detectar algo inusual.
Toma de decisiones basada en datos: Uso de datos para guiar la estrategia empresarial.
Toma de decisiones inspirada en datos: Exploración de diferentes fuentes de datos para descubrir qué tienen en común.
Transparencia de la transacción: Aspecto de la ética de datos que presupone que se deben explicar todas las actividades de
procesamiento de datos y los algoritmos a la persona que proporciona los datos y que también presupone que esta persona
debe comprenderlos.
V
Vigencia: El aspecto de la ética de datos que presupone que las personas deben conocer las transacciones financieras
resultantes del uso de sus datos personales y la magnitud de esas transacciones.
CUESTIONARIO SEMANA 3
Pregunta 1
Las bases de datos relacionales muestran las relaciones entre las tablas. ¿Qué campos representan la
conexión entre estas tablas? Selecciona todas las opciones que correspondan.
1. Claves relacionales
2. Claves secundarias
3. Claves primarias
4. Claves externas
Correcto. Las claves primarias y externas representan la conexión entre las tablas en una base de datos relacional.
Pregunta 2
Los metadatosson datos sobre los datos. ¿Qué tipos de información pueden ofrecer los metadatos acerca de
un conjunto de datos en particular? Selecciona todas las opciones que correspondan.
1. Qué análisis se deben realizar en los datos
2. Qué tipo de datos contiene. Correcto. Los metadatos ayudan a los analistas de datos a identificar el tipo de
dato, si está limpio y es confiable, y cómo se puede combinar con otro conjunto de datos.
3. Si los datos están limpios y son confiables. Correcto. Los metadatos ayudan a los analistas de datos a
identificar el tipo de dato, si está limpio y es confiable, y cómo se puede combinar con otro conjunto de datos.
4. Cómo combinar los datos con otro conjunto de datos. Correcto. Los metadatos ayudan a los analistas de datos
a identificar el tipo de dato, si está limpio y es confiable, y cómo se puede combinar con otro conjunto de datos.
Pregunta 3
Piensa en los datos como si estuvieras conduciendo un taxi. En esta metáfora: ¿Cuáles de los siguientes son
ejemplos de metadatos? Selecciona todas las opciones que correspondan.
1. Empresa propietaria del taxi. Correcto. El número de la placa de matrícula, la marca y el modelo del taxi, y la
empresa propietaria del taxi representan los metadatos estructurales.
2. Marca y modelo del taxi. Correcto. El número de la placa de matrícula, la marca y el modelo del taxi, y la
empresa propietaria del taxi representan los metadatos estructurales.
3. Pasajeros que subió el taxista. Esto no debería estar seleccionado
4. Número de la placa de matrícula
Pregunta 4
Completa el espacio en blanco: Gobierno de datosover es el proceso que garantiza que los _____ de una
empresa se gestionen de manera formal.
1. ingenieros de datos
2. tareas empresariales
3. recursos de datos
4. estrategias empresariales
Correcto. Gobierno de datos es el proceso que garantiza que los recursos de datos de una empresa se gestionen de
manera formal.
Pregunta 5
¿En qué circunstancias podría un analista de datos elegir no utilizar datos externos en sus análisis?
1. No se puede confirmar que los datos sean confiables.
2. Los datos son gratuitos y cualquier persona puede acceder a ellos.
3. Los datos son demasiado minuciosos.
4. Los datos representan distintas perspectivas.
Incorrecto
6.
Pregunta 6
Un analista de datos analiza una base de datos nacional de visualizaciones de salas de cine. Desea buscar las
primeras películas que se vieron en San Francisco en 2001. ¿Cómo puede organizar los datos para mostrar
resultados de las primeras 10 películas que se muestran en la parte superior de la lista? Selecciona todas las
opciones que correspondan.
1. Filtrar las visualizaciones fuera de San Francisco.
2. Ordenar por fecha en orden ascendente.
3. Filtrar visualizaciones que no pertenezcan a 2001.
4. Ordenar por fecha en orden descendente.
7.
Pregunta 7
Al escribir una consulta, es necesario que el nombre del conjunto de datos este dentro de las dos comillas
simples para que la consulta se ejecute adecuadamente.
1. Verdadero
2. Falso
Correcto. Al escribir una consulta, el nombre del conjunto de datos puede estar dentro de las dos comillas simples o no,
y aun así la consulta se ejecutará adecuadamente.
Pregunta 8
Estás trabajando con una tabla de una base de datos que contiene datos del cliente. La columna city incluye la
ciudad donde se encuentra cada cliente. Deseas averiguar qué clientes se encuentran en Berlín.
Escribes la consulta SQL a continuación. Agrega una cláusula WHERE que mostrará resultados solo de
clientes que se encuentren en Berlín.
SELECT
city
FROM
EjecutarRestablecer
+--------+
| city |
+--------+
| Berlin |
| Berlin |
+--------+
¿Cuántos clientes se encuentran en Berlín?
1. 2
2. 9
3. 7
4. 12
Correcto. La cláusula WHERE city = 'Berlin' mostrará los resultados solo de los clientes que se encuentran en Berlín. La
consulta completa es SELECT * FROM customer WHERE city = 'Berlin'. La cláusula WHERE filtra los resultados que
cumplen con ciertas condiciones. La cláusula WHERE incluye el nombre de la columna, un signo de igual y el valor o
los valores para incluir en la columna. Coloca comillas para encerrar los valores de texto. Hay dos clientes que se
encuentran en Berlín.
MODULO 4
Organiza los datos de manera efectiva:
VIDEO: Confía en tus datos
Hola, qué bueno tenerte de vuelta. Hasta ahora, nos concentramos en preparar tus datos para el proceso y el análisis. En
estos videos, exploraremos otra gran parte de ese proceso: organizar y proteger tus datos. Mantener tus datos organizados es
importante por varias razones: hace más fácil la búsqueda y el uso, te ayuda a evitar cometer errores durante tu análisis y
ayuda a protegerlos. A continuación, hablaremos de los aspectos básicos de organizar los datos para el uso personal y
profesional, y para las convenciones de nomenclatura de archivos. Luego, también veremos algunas funciones de seguridad
para las hojas de cálculo. Al final de estos videos, podrás hacer todas estas cosas y podrás explicar estos pasos a los
interesados, para que se sientan confiados de que sus prácticas de datos son seguras. Cuando estés listo para comenzar, pasa
al siguiente video. Allí comenzaremos con la organización de datos para uso personal.
VIDEO: Organicémonos
Hola de nuevo. Ya sea que estés organizando tus datos personales para tu uso propio o que organices los datos del proyecto
para el trabajo, hay ciertos procedimientos que debes seguir para asegurarte de que tus datos se encuentren y usen
fácilmente. En este video, hablaremos de prácticas recomendadas de organización y veremos algunas maneras diferentes de
organizar los datos del proyecto. Hay muchas prácticas recomendadas que puedes usar al organizar datos, entre ellas,
convenciones de nomenclatura, sistema de carpetas, y archivado de archivos antiguos.
Antes ya hablamos de la nomenclatura de archivos, que también se conoce como convenciones de nomenclatura. Son
pautas uniformes que describen el contenido, la fecha o la versión de un archivo en su nombre. Básicamente, esto significa
que quieres usar nombres descriptivos y lógicos para que tus archivos sean fáciles de encontrar y de usar.
Hablando de encontrar cosas fácilmente, organizar tus archivos en carpetas ayuda a tener los archivos relacionados del
proyecto juntos en un solo lugar. Esto se llama sistema de carpetas. Por ejemplo, todos los archivos relacionados con tu plan
de vacaciones deberían ir en la carpeta Vacaciones2025. Luego podrías dividir más esa carpeta creando subcarpetas de
itinerario o fotos, por ejemplo, según a qué otras cosas quieras tener acceso fácilmente.
También es útil mover proyectos antiguos a una ubicación aparte para crear un archivo y reducir el desorden. Es mucho más
fácil encontrar y usar mis archivos cuando les pongo un nombre significativo que permita buscarlos y cuando los organizo en
carpetas. Hace que mis datos estén más accesibles y sean más útiles.
Además de estas tres prácticas recomendadas, hay otras dos cosas que deberás tener en cuenta cuando organices los
datos para usar en el trabajo.
Primero, muchas personas podrían tener acceso a los datos del proyecto que usarás para trabajar y usarlos. Es importante
alinear tus prácticas de nomenclatura y almacenamiento con las de tu equipo para evitar confusiones. Tu equipo también
podría desarrollar prácticas de metadatos, como crear un archivo que describa las convenciones de nomenclatura del
proyecto para facilitar la referencia. Hablaremos en más detalle sobre las convenciones de nomenclatura para archivos del
trabajo más adelante.
En segundo lugar, piensa con qué frecuencia haces copias de los datos y las guardas en distintos lugares. Y lo más importante,
porque si los datos se almacenan en muchas bases de datos u hojas de cálculo distintas, pueden contradecirse y producir
errores en el futuro. Además, almacenar datos en distintos lugares consume mucho espacio. Las bases de datos relacionales
pueden ayudarte a evitar la duplicación de datos y a almacenar tus datos de manera más eficiente. Puedes usar estas
prácticas para organizar los datos de distintas maneras según tu proyecto. Veamos algunos ejemplos de la organización de los
datos. Tengo unas carpetas de proyecto de muestra aquí, cada una organizada de manera un poco distinta. Abrámoslas y
veamos cómo son. Empezaremos con la carpeta de alto nivel Finanzas. La carpeta Finanzas se ha organizado por categorías.
Hay subcarpetas, como Presupuesto, Facturas y Nómina, que representan distintas categorías. Hagamos clic en "Facturas"
para ver qué hay dentro. En la carpeta Facturas, puedes ver que tenemos otro conjunto de subcarpetas rotuladas por año,
2014, 2015... Parece que están en orden cronológico. A veces, la forma en que se organizan los archivos nos dice cómo se
organizan también los datos que están en los archivos. Abramos un archivo para ver si es así. En la subcarpeta 2014, hay un
archivo con facturas desde junio.
Si la abrimos, podemos ver que se organizaron por fecha, igual que las carpetas. Hay distintas maneras de organizar los datos,
según para qué los necesites.
La organización por categorías de las subcarpetas y de las finanzas me facilita ir directamente a las facturas, pero la
organización cronológica de la subcarpeta de facturas puede ayudarnos a encontrar datos financieros desde la fecha exacta
que estamos buscando.
También hay otras maneras de organizar los datos: en orden de importancia o por ubicación. Por ejemplo, una empresa
podría usar la organización jerárquica para que los datos de los empleados reflejen la estructura de la organización de los
empleados. O una empresa que trabaja con datos geográficos podría decidir organizar por ubicación. Es buena idea tomarse
un tiempo al inicio de un proyecto para pensar cuáles serán los mejores métodos de organización que deben seguir tú y tu
equipo. Esta es otra forma de pensarlo.
Tener datos desorganizados es como tener una habitación desordenada. Es abrumador, es difícil encontrar algo y todo
empeora cuanto más evitas hacer la limpieza. Pero al asegurarte, desde un primer momento, que sabes dónde pusiste tus
archivos, puedes mantener tus datos de trabajo organizados, fáciles de encontrar y sin errores. Ahora que sabes lo
importante que es mantener tus datos organizados para el uso personal y laboral, analizaremos más en detalle las
convenciones de nomenclatura de archivos y cómo pasar eso a nuestras bases de datos. Nos vemos en el siguiente video.
Pautas de organización
Esta lectura resume las prácticas recomendadas para la nomenclatura, la organización y el almacenamiento de
archivos.
Decide las convenciones de nomenclatura de archivos al inicio de un proyecto a fin de evitar tener que cambiar
el nombre de los archivos una y otra vez.
Alinea tus convenciones de nomenclatura de archivos con las que tu equipo o empresa ya aplican.
Asegúrate de que los nombres de los archivos sean significativos; ten en cuenta incluir información como el
nombre del proyecto y cualquier otra cosa que te ayude a identificar (y a usar) rápidamente el archivo para el
propósito adecuado.
Incluye la fecha y el número de versión en los nombres de los archivos; los formatos comunes son AAAAMMDD
para las fechas y v## para las versiones (o revisiones).
Crea un archivo de texto como archivo de muestra, con contenido que describa (desglose) la convención de
nomenclatura de archivos y un nombre de archivo que se aplique.
Evita los espacios y los caracteres especiales en los nombres de los archivos. En cambio, usa guiones, guiones
bajos o letras mayúsculas. Los espacios y los caracteres especiales pueden producir errores en algunas
aplicaciones.
Prácticas recomendadas para mantener los archivos organizados
Recuerda estos consejos para mantener tu organización cuando trabajas con archivos:
Crea carpetas y subcarpetas en una jerarquía lógica para que los archivos relacionados se almacenen juntos.
Separa el trabajo en curso del ya completado para que sea más fácil encontrar los archivos de los proyectos
actuales. Archiva los archivos más antiguos en otra carpeta o en una unidad de almacenamiento externo.
Si no se hace una copia de seguridad automática de tus archivos, deberás hacer una manualmente con
frecuencia para no perder el trabajo importante.
VIDEO: Todo con respecto a la nomenclatura de los archivos:
Me escuchaste hablar de la idea de usar nombres de archivo lógicos y significativos para que puedas organizar tus datos. Pero
usar nombres de archivo coherentes también puede optimizar o, incluso, automatizar tu proceso de análisis, lo que te ahorra
tiempo y energía en el largo plazo. Cuando usas pautas uniformes que describen el contenido, la fecha o la versión de un
archivo y su nombre, estás usando convenciones de nomenclatura de archivos. Como ya hemos visto, estas convenciones de
nomenclatura de archivos nos ayudan a organizar, acceder, procesar y analizar nuestros datos. Aquí damos algunos consejos
generales sobre cómo crear convenciones de nomenclatura de archivos que sean lógicas y funcionales. Algunos consejos
rápidos para la nomenclatura de archivos. Decide tus convenciones al principio para evitar tener que pasar mucho tiempo
rehaciendo todo después. Alinea tu nomenclatura de archivos con la de tu equipo y asegúrate de que los nombres de tus
archivos sean significativos y que mencionen el nombre del proyecto, la fecha de creación, la versión de la revisión o
cualquier otra información útil que se necesite para entender qué hay en ese archivo. Hay otras cosas simples que puedes
hacer para asegurarte de que tus convenciones de nomenclatura de archivos sean exactas. En primer lugar, usa nombres
breves y agradables para tus archivos. Se supone que son puntos de referencia rápidos que te dicen qué hay en un archivo.
Por los videos anteriores, sabemos que queremos incluir fechas y números de revisión en los nombres de nuestros archivos.
Recomiendo usar el formato de año, mes y día porque sigue el estándar de fecha internacional. Los países tienen distintas
convenciones de fechas, ten eso en cuenta. Cuando incluyas números de revisiones en el nombre de un archivo, empieza con
cero para que, si tienes revisiones de dos dígitos, ya se integren en tus convenciones. Otra buena regla es usar guiones,
guiones bajos o letras mayúsculas, en lugar de usar espacios. Los espacios y los caracteres especiales podrían no ser
reconocidos por tu software. Además, evitar los espacios hace que sea más fácil trabajar en SQL. Mi último consejo: crea un
archivo de texto con todas tus convenciones de nomenclatura para un proyecto. Es muy útil si alguien se suma a tu equipo o
si necesitas tener un recordatorio rápido mientras estás trabajando en algo. Hablamos de esto antes cuando tratamos los
metadatos, que son datos sobre los datos. Ayuda a explicar qué datos hay y cómo se organizan. Cuando uses convenciones de
nomenclatura uniformes y significativas durante todo tu proyecto, podrás encontrar y usar tus datos fácilmente y también
podrás ahorrarte mucho tiempo. A continuación, seguiremos analizando las hojas de cálculo y hablaremos sobre las
funciones de seguridad y cómo puedes usarlas para proteger tus datos ahora que están organizados. Nos vemos ahí.
Descripción general
Antes de empezar a pensar en qué tipo de convenciones y patrones de nomenclatura usarías en tus proyectos, tómate
un momento y repasa las prácticas recomendadas para la estructura de archivos y las convenciones de nomenclatura.
Al crear una estructura de archivos y un patrón de convenciones de nomenclatura para un proyecto, siempre debes
hacer lo siguiente:
Decidir las convenciones al inicio de tu proyecto. Cuanto antes empieces, más organización tendrás.
Alinear las convenciones de nomenclatura de archivos con las de tu equipo. Las convenciones son más útiles
cuando todos las siguen.
Asegurarte de que los nombres de los archivos sean significativos. Mantener un patrón constante que contenga
la información más útil que se necesita.
Usar nombres de archivo cortos y específicos.
Esto incluye entender la estructura esperada de las carpetas y de los archivos de un proyecto. ¿Dónde se encuentran
tus datos? ¿Y tus hojas de cálculo? ¿Y tus visualizaciones de datos? Poder recorrer tus carpetas de manera sencilla
significa que el proyecto está bien estructurado.
Recuerda que hay opciones estilísticas que deberás elegir para las convenciones de los nombres de archivos. Sin
embargo, también sigue habiendo prácticas recomendadas que deberás seguir aquí:
Enlace a la plantilla de registro de aprendizaje: Revisa la estructura de archivos y las convenciones de nomenclatura
Si no tienes una cuenta de Google, puedes descargar la plantilla directamente desde el siguiente archivo adjunto.
Reflexión
En tu plantilla de registro de aprendizaje, escribe 2 o 3 oraciones (de 40 a 60 palabras) para responder a cada una de
las preguntas sobre la estructura de archivos y las convenciones de nomenclatura que aparecen a continuación:
¿Por qué son tan importantes la estructura de los archivos y las convenciones de nomenclatura? ¿Qué
consecuencias puede tener una mala organización en el trabajo para los analistas de datos?
¿Cómo estructurarías las carpetas y los archivos? ¿Qué convenciones de nomenclatura usarías?
¿Qué te gusta más de estas opciones?
Te recomendamos que guardes todos los registros de aprendizaje en una carpeta y que incluyas una fecha en el nombre del archivo
para ayudarte a mantenerte organizado. La información importante, como el número de curso, el título, y el nombre de la actividad
que ya está incluida. Una vez que hayas terminado el registro de aprendizaje, puedes volver a leer tus respuestas más adelante para
entender cómo han cambiado tus opiniones sobre diferentes temas a lo largo de los cursos.
Para revisar las instrucciones detalladas sobre cómo completar esta actividad, regresa a Coursera: Registro de aprendizaje: Revisa la
estructura de archivos y las convenciones de nomenclatura.
Revisa las Al crear una estructura de archivos y un patrón de convenciones de nomenclatura para un
prácticas proyecto, siempre debes hacer lo siguiente:
recomendadas
● Decidir las convenciones al inicio de tu proyecto. Cuanto antes empieces, más
organización tendrás.
● Alinear las convenciones de nomenclatura de archivos con las de tu equipo. Las
convenciones son más útiles cuando todos las siguen.
● Asegurarte de que los nombres de los archivos sean significativos. Mantener un
patrón constante que contenga la información más útil que se necesita.
● Usar nombres de archivo cortos y específicos.
Recuerda que hay opciones estilísticas que deberás elegir para las convenciones de los
nombres de archivos. Sin embargo, también sigue habiendo prácticas recomendadas que
deberás seguir aquí:
Convenci Ejemplo
ón de
formato
Usa el SalesRep
formato ort20201
de fecha 125
‘aaaamm
dd’
Usa SalesRep
guiones, ort_2020
guiones _11_25_
bajos o v02
letras
mayúscu
las
Reflexión: Escribe 2 o 3 oraciones (de 40 a 60 palabras) para responder a cada una de las preguntas
sobre la estructuración de archivos y las convenciones de nomenclatura que aparecen a
continuación:
Preguntas y
respuestas:
● ¿Por qué son tan importantes la estructura de los archivos y las convenciones de
nomenclatura? ¿Qué consecuencias puede tener una mala organización en el
trabajo para los analistas de datos?
Escribe tu respuesta aquí.
CUESTIONARIO:
Pregunta 1
Los analistas de datos usan pautas para describir la versión, el contenido y la fecha de creación de un archivo.
¿Cómo se llaman estas pautas?
1. Verificaciones de nomenclatura
2. Atributos de nomenclatura
3. Convenciones de nomenclatura
4. Referencias de nomenclatura
Correcto. Las convenciones de nomenclatura son pautas que describen el contenido, la fecha o la versión de un
archivo.
Pregunta 2
¿Los analistas de datos usan el sistema de carpetas para lograr qué metas? Selecciona todas las opciones que
correspondan.
1. Para transferir archivos de un lugar a otro
2. Para tener juntos los archivos relacionados con el proyecto. Correcto. Los analistas de datos usan el sistema de
carpetas para tener juntos los archivos relacionados con el proyecto y organizarlos en subcarpetas.
3. Para organizar los archivos en subcarpetas. Correcto. Los analistas de datos usan el sistema de carpetas para
tener juntos los archivos relacionados con el proyecto y organizarlos en subcarpetas.
4. Para asignar metadatos sobre las carpetas
Pregunta 3
Completa el espacio en blanco: Para separar el trabajo actual del trabajo anterior y reducir el desorden, los
analistas de datos crean _____. Esto implica mover archivos de proyectos completados a otra ubicación.
1. archivos
2. copias de seguridad
3. copias
4. estructuras
Correcto. Para separar el trabajo actual del trabajo anterior y reducir el desorden, los analistas de datos crean archivos.
Pregunta 4
¿Cuál es el proceso de estructurar las carpetas de manera general en la parte superior y luego desglosarlas en
temas más específicos?
1. Hacer una copia de seguridad
2. Desarrollo de metadatos
3. Crear una jerarquía
4. Asignar convenciones de nomenclatura
Correcto. El proceso de estructurar las carpetas de manera general en la parte superior y luego desglosarlas en temas
más específicos es crear una jerarquía.
Pregunta 5
Las convenciones de nomenclatura de archivos correctas incluyen información que sirve para intentar localizar
o actualizar un archivo. ¿Cuál de los siguientes es un nombre de archivo efectivo?
1. CampaignData_03
2. Data_519
3. May30-2019_AirportAdvertisingCampaignResults_Terminals3
5_InclCustSurveyResponses_PLUS_IdeasforJune
4. AirportCampaign_2013_10_09_V01
Correcto. AirportCampaign_2013_10_09_V01 es un nombre de archivo efectivo porque tiene una longitud adecuada y
menciona el nombre del proyecto, la fecha de creación y la versión.
Para esto, las empresas deben encontrar formas de equilibrar sus medidas de seguridad de datos con sus necesidades
de acceso a los datos.
Seguridad de datos Acceso a los datos
Por suerte, hay algunas medidas de seguridad que pueden ayudar a las empresas a lograr eso. Las dos de las que
hablaremos aquí son el cifrado y la tokenización.
El cifrado usa un algoritmo único para alterar los datos y hacer que los usuarios y las aplicaciones que no conocen el
algoritmo puedan usarlos. Este algoritmo se guarda como una “clave” que puede usarse para revertir el cifrado; por lo
tanto, si tienes la clave, puedes usar los datos en su forma original.
La tokenización reemplaza los elementos de datos que quieres proteger con datos generados aleatoriamente que se
denominan “token”. Los datos originales se almacenan en otra ubicación y se asignan en los tokens. Para acceder a los
datos originales completos, el usuario o la aplicación debe tener permiso para usar los datos tokenizados y la
asignación del token. Esto significa que, si se piratean los datos tokenizados, los datos originales siguen estando
seguros en otra ubicación.
El cifrado y la tokenización son algunas de las opciones de seguridad de datos que existen. Hay muchas otras, como
los dispositivos de autenticación para la tecnología de inteligencia artificial (IA).
Como analista de datos junior, probablemente, no tendrás la responsabilidad de crear estos sistemas. Muchas
empresas tienen equipos completos dedicados a la seguridad de datos o contratan empresas externas que se
especializan en seguridad de datos para crear estos sistemas. Pero es importante saber que todas las empresas tienen
la responsabilidad de mantener los datos seguros y de entender algunos de los posibles sistemas que el futuro
empleador podría usar.
1.
Pregunta 1
Descripción general
Ahora que aprendiste sobre la importancia de la seguridad de los datos, puedes detenerte un momento y pensar en lo
que estás aprendiendo. En esta autorreflexión, tendrás en cuenta tus ideas sobre la privacidad de los datos, la
colaboración y el control de las versiones, y luego, responderás unas preguntas breves.
Esta autorreflexión te ayudará a desarrollar conceptos sobre tu propio aprendizaje y te preparará para aplicar tus
conocimientos sobre la privacidad de los datos a tu experiencia con Kaggle. A medida que respondas las preguntas, y
plantees tus propias preguntas, tendrás en cuenta los conceptos, las prácticas y los principios que te ayudarán a refinar
tu comprensión y reforzar tu aprendizaje. Ya hiciste el trabajo duro, así que asegúrate de sacarle el máximo provecho:
¡Esta reflexión te ayudará a fijar tus conocimientos!
Privacidad
En Kaggle, puedes cargar tus propios conjuntos de datos y mantenerlos privados. Esto significa solo tú los ves y tienes
acceso a ellos. También tienes la opción de agregar colaboradores a tu conjunto de datos, a los que puedes agregar
como visualizadores o editores. Los visualizadores pueden ver tu conjunto de datos privado, y los editores pueden
hacer cambios en él.
Puedes compartir el enlace a tu conjunto de datos privados para que cualquiera que tenga el enlace pueda verlo. Si no
quieres esta función, puedes desactivarla en la pestaña Configuración de tu conjunto de datos.
Nota: Si tienes un conjunto de datos privado en Kaggle y decides hacerlo público, no podrás volver a ponerlo como
conjunto de datos privado. La única opción que tendrías es eliminar el conjunto de datos de Kaggle por completo.
Colaboración
En forma predeterminada, cualquier bloc de notas que creas en Kaggle es privado. Al igual que en los conjuntos de
datos, puedes agregar colaboradores como visualizadores o editores. También puedes hacer que un bloc de notas sea
público, lo que hará que se comparta con toda la comunidad de Kaggle.
Si agregas colaboradores en tu bloc de notas de Kaggle, ellos pueden hacer cambios en él. Debes asegurarte de
comunicarte y coordinar con tus colaboradores, ya que la última persona que guarde el bloc de notas sobrescribirá todo
el trabajo anterior. Si quieres tener un control más detallado de los cambios en tu código, un sistema como GitHub
ofrece un mejor control de las versiones.
En cuanto al control de las versiones, Kaggle tiene su propio estilo para dejarte conservar los registros de tu progreso.
Puedes leer todos los detalles en esta publicación, pero piensa en cuando hiciste tu trabajo en un bloc de notas de
Kaggle e hiciste clic en el botón Guardar versión.
Cuando hiciste clic en este botón y luego hiciste clic en Guardar, lo hiciste sin cambiar nada. Pero también tienes la
opción de agregar una breve nota sobre los cambios que realizaste.
Esto puede ser útil cuando realizaste cambios en tu bloc de notas, pero quieres volver a una versión anterior. Para esto,
ve al modo Editar y haz clic en el número que está junto al texto Guardar versión en la parte superior de tu bloc de
notas.
Esto abrirá una barra de navegación a la derecha de la pantalla, donde se enumerarán todas las versiones de tu bloc
de notas. Cuando hagas clic en las distintas versiones de tu bloc de notas, la izquierda de la pantalla se llenará con el
código y el texto de esa versión.
Luego, una vez ejecutada la versión, tu pantalla se verá así:
Desde esta pantalla, también puedes abrir la versión en el modo Visualizador, anclar una versión como predeterminada
o, incluso, cambiar el nombre de la versión. Anclar una versión como la predeterminada puede ser útil cuando tienes
una versión de trabajo de tu bloc de notas disponible en la comunidad de Kaggle, pero quieres hacer cambios y
actualizaciones que podrían no funcionar la primera vez que los implementes. Esto te permite hacer cambios de
manera segura detrás de escena, mientras compartes con la comunidad de Kaggle la versión de trabajo más reciente
de tu bloc de notas.
Reflexión
¿Cuáles son los casos en los que deberías usar las funciones de privacidad, colaboración y control de
versiones de Kaggle?
¿Qué otras situaciones se te ocurren en las que podrías querer anclar una versión de tu bloc de notas que no
sea la más reciente?
Ahora, escribe 2 o 3 oraciones (de 40 a 60 palabras) en respuesta a cada una de estas preguntas. Escribe tu respuesta
en el cuadro de texto que aparece a continuación.
1 / 1 punto
Correcto
¡Gran trabajo que refuerza tu aprendizaje con una autorreflexión seria! Una buena reflexión sobre este tema incluiría
cómo y cuándo deberías aplicar tu conocimiento sobre privacidad de datos y control de las versiones cuando trabajas
en Kaggle.
Entender cómo mantener la privacidad y registrar tu progreso con el control de las versiones son habilidades
fundamentales para el trabajo de los analistas de datos, en los que se espera que colabores con otros analistas.
Conocer los estándares de privacidad y saber cómo garantizar una colaboración efectiva impedirán que expongas
datos importantes o que pierdas tu valioso trabajo. En adelante, puedes aplicar tu conocimiento sobre seguridad de
datos a otras plataformas o proyectos futuros.
CUESTIONARIO:
Pregunta 1
Completa el espacio en blanco: La seguridad de datos implica usar _____ para proteger los datos contra el acceso no
autorizado o contra la corrupción.
1. validación de datos
2. metadatos
3. sistema de carpetas
4. medidas de seguridad
Correcto. La seguridad de datos implica usar medidas de seguridad para proteger los datos contra el acceso no autorizado o contra
la corrupción.
Pregunta 2
Cuando se usan medidas de seguridad de datos, los analistas pueden elegir entre proteger toda una hoja de cálculo o solo
ciertas celdas que están dentro de la hoja de cálculo.
1. Verdadero
2. Falso
Correcto. Cuando se usan medidas de seguridad de datos, los analistas pueden elegir entre proteger toda una hoja de cálculo o
solo ciertas celdas que están dentro de la hoja de cálculo. La seguridad de datos puede usarse para proteger toda una hoja de
cálculo, partes específicas de una hoja de cálculo o, incluso, solo una celda.
Pregunta 3
¿Qué herramientas pueden usar los analistas de datos para controlar quién tiene acceso a una hoja de cálculo o quién puede
editarla? Selecciona todas las opciones que correspondan.
1. Cifrado. Correcto.Los analistas de datos usan el cifrado y los permisos para compartir con el fin de controlar
quién tiene acceso a una hoja de cálculo o quién puede editarla.
2. Pestañas
3. Filtros
4. Permisos para compartir. Correcto. Los analistas de datos usan el cifrado y los permisos para compartir con el
fin de controlar quién tiene acceso a una hoja de cálculo o quién puede editarla.
Glosario
Análisis computacional de datos
Términos y definiciones
A
Agenda: Una vista de las citas programadas.
Alcance del trabajo (SOW): Un esquema acordado de las tareas a realizar durante un proyecto.
Análisis de datos: La recopilación, transformación y organización de los datos para sacar conclusiones, hacer predicciones e
impulsar una toma de decisiones fundamentada.
Análisis de déficits: Método para examinar y evaluar el estado actual de un proceso con el fin de identificar las
oportunidades de mejora en el futuro.
Analista de datos: Alguien que recopila, transforma y organiza los datos para sacar conclusiones, hacer predicciones e
impulsar la toma de decisiones fundamentada.
Anonimización de datos: El proceso de proteger los datos privados o confidenciales de las personas eliminando información
que pueda asociarse a ellas.
Apertura: El aspecto de la ética de datos que promueve el acceso libre a los datos, su uso y también el uso compartido.
Archivo CSV (archivo de valores separados por coma): Archivo de texto delimitado que utiliza una coma para separar los
valores.
Archivo de audio: Almacenamiento en audio digitalizado generalmente en MP3, AAC u otro formato comprimido.
Archivo de vídeo: Conjunto de imágenes, archivos de audio y otros datos generalmente codificados en un formato
comprimido, por ejemplo, MP4, MV4, MOV, AVI o FLV.
Atributo: Característica o calidad de los datos que se usa para etiquetar una columna en una tabla.
B
Base de datos normalizada: Base de datos en la que solo se almacenan datos relacionados en cada tabla.
Base de datos relacional: Base de datos que contiene una serie de tablas que se pueden conectar para formar relaciones.
Bloc de notas: Entorno de programación interactivo y editable para generar informes de datos y mostrar destrezas en el uso
de datos.
Bordes: Líneas que se pueden agregar alrededor de dos o más celdas en una hoja de cálculo.
C
Campo: Información de una fila o columna de una hoja de cálculo; en una tabla de datos, suele ser una columna de la tabla.
Ciclo de vida de los datos: Secuencia de etapas por las que pasan los datos, que incluye planificar, capturar, gestionar,
analizar, archivar y destruir.
Ciencia de datos: Campo de estudio que utiliza datos sin procesar para crear nuevas formas de modelar y entender lo
desconocido.
Clave externa: Campo en una tabla de una base de datos que constituye una clave primaria en otra tabla (Ver “Clave
primaria”).
Clave primaria: Identificador en una base de datos que hace referencia a una columna en la que cada valor es único (Ver
“Clave externa”).
Conjunto de datos: Una colección de datos que pueden ser manipulados o analizados como una unidad.
Consentimiento: Aspecto de la ética de datos que presupone el derecho de una persona a conocer cómo y por qué se
utilizarán sus datos personales antes de aceptar proporcionarlos.
CONTAR: Función de la hoja de cálculo que cuenta el número de celdas en un rango que cumplen con un criterio específico.
Control de acceso: Funciones como la protección de contraseñas, permisos de usuario y cifrado que se usan para proteger
una hoja de cálculo.
Controlador de relleno: Cuadro en la esquina inferior derecha de una celda seleccionada de una hoja de cálculo que se
puede arrastrar pasando por celdas vecinas para seguir una instrucción.
Convenciones de nomenclatura: Pautas uniformes para el nombre de un archivo que describen el contenido, la fecha de
creación y la versión.
Cookie: Pequeño archivo almacenado en una computadora que contiene información acerca de sus usuarios.
D
Datos abiertos: Datos que están disponibles para el público.
Datos booleanos: Tipo de datos con solo dos valores posibles, generalmente verdadero o falso.
Datos continuos: Datos que se miden y que pueden tener casi cualquier valor numérico.
Datos de primera fuente: Datos recopilados por una persona o por un grupo por medio de sus propios recursos.
Datos de segunda fuente: Datos que recopila un grupo directamente de su audiencia y que, luego, se venden.
Datos de terceros: Datos proporcionados de fuentes externas que no los recopilaron directamente.
Datos en formato ancho: Conjunto de datos en el que cada tema tiene una sola fila con varias columnas para describir los
valores de los distintos atributos del tema.
Datos en formato largo: Conjunto de datos en el que cada fila constituye un punto en el tiempo por tema, es decir que cada
tema tiene datos en varias filas.
Datos estructurados: Datos organizados de cierta forma, por ejemplo, en filas y columnas.
Datos externos: Los datos que se alojan y generan fuera de una organización.
Datos no estructurados: Datos que no se organizan de forma que sea fácil identificarlos.
Datos nominales: Tipo de datos cualitativos que se categorizan sin un orden establecido.
DESDE: Sección de una consulta que indica el origen de los datos seleccionados.
Destrezas analíticas: Cualidades y características asociadas al uso de hechos para resolver problemas.
Dominio del problema: Área de análisis que abarca cada actividad que afecta a un problema o se ve afectada por él.
DÓNDE: La sección de una consulta que especifica los criterios que deben cumplir los datos solicitados.
E
Ecosistema de datos: Los distintos elementos que interactúan entre sí para producir, gestionar, almacenar, organizar, analizar
y compartir datos.
Ecuación: Cálculo que implica suma, resta, multiplicación o división (también se denomina expresión matemática).
Encabezado: La primera fila en una hoja de cálculo que hace referencia al tipo de datos en cada columna.
Equidad: Cualidad del análisis de datos que no genera sesgos ni los reafirma.
Estrategia de datos: La gestión de las personas, los procesos y las herramientas que se usan en el análisis de datos.
Ética de datos: Normas justificadas respecto de lo que está bien y lo que está mal a la hora de recopilar, compartir y usar
datos.
Ética: Normas justificadas respecto de lo que está bien y lo que está mal. Por lo general, presuponen lo que deben hacer los
seres humanos, usualmente en términos de derechos, obligaciones, beneficios para la sociedad, equidad o virtudes
específicas.
Expresión matemática: Cálculo que implica suma, resta, multiplicación o división (también denominada “ecuación”).
F
Filtrado: Proceso que muestra solo los datos que cumplen con un criterio específico mientras oculta el resto.
Fórmula: Conjunto de instrucciones que se utilizan para realizar un cálculo utilizando los datos de una hoja de cálculo.
Foto digital: Una imagen electrónica o computarizada, generalmente en formato BMP o JPG.
Fuente de datos correctos: Fuente de datos confiable, original, integral, actual y citada (ROCCC).
Fuente de datos erróneos: Fuente de datos que no es confiable, original, integral, actual ni citada (ROCCC).
Función matemática: Función que se utiliza como parte de una fórmula matemática.
Función: Comando preestablecido que realiza automáticamente un proceso o tarea especificado utilizando los datos de una
hoja de cálculo.
G
Geolocalización: La ubicación geográfica de una persona o dispositivo mediante información digital.
Gobierno de datos: Proceso para garantizar la gestión formal de los recursos de datos de una empresa.
Gráfico dinámico: Gráfico creado a partir de los campos de una tabla dinámica.
H
Hoja de cálculo: Una hoja de cálculo digital.
I
Informe: Recopilación estática de datos que se entrega periódicamente a los interesados.
Interesados: Personas que invierten tiempo y recursos en un proyecto y se interesan por su resultado.
Interoperabilidad de los datos: La capacidad de integrar datos de varias fuentes y un factor clave en el uso satisfactorio de los
datos abiertos entre las empresas y los gobiernos.
L
Lenguaje de consulta estructurado: Lenguaje de programación informática utilizado para comunicarse con una base de
datos.
Lenguaje de consulta: Lenguaje de programación informática utilizado para comunicarse con una base de datos.
M
Macrodatos: Conjuntos de datos grandes y complejos que, generalmente, se recopilan durante largos períodos y que
permiten que los analistas de datos aborden los problemas comerciales de gran alcance.
MAX: Función de la hoja de cálculo que muestra el valor numérico mayor de un rango de celdas.
Mentalidad técnica: La capacidad de dividir las cosas en pasos o piezas más pequeñas y trabajar con ellas de forma ordenada
y lógica.
Metadatos descriptivos: Metadatos que describen datos y que se pueden utilizar para identificarlos más adelante.
Metadatos estructurales: Metadatos que indican cómo se organizan ciertos datos y si forman parte de una recopilación de
datos o de varias.
Metadatos: Datos sobre datos; en la gestión de bases de datos, ayudan a los analistas de datos a interpretar el contenido de
los datos dentro de una base de datos.
Metodología SMART: Herramienta para determinar la eficacia de una pregunta según sea específica, mensurable, orientada a
la acción, pertinente y con plazos determinados.
Microdatos: Puntos de datos pequeños, específicos, que generalmente involucran un breve período y que son útiles para
tomar decisiones diarias.
MIN: Función de la hoja de cálculo que muestra el valor numérico menor de un rango de celdas.
Modelo de datos: Herramienta para organizar los elementos de datos y la forma en que se relacionan entre ellos.
Muestra: En el análisis computacional de datos, segmento de una población que la representa toda.
O
Objetivo medible: Objetivo medible establecido por una empresa y evaluado mediante métricas.
Observación: Los atributos que describen una pieza de datos contenida en una fila de una tabla.
Oficina del Censo de los Estados Unidos: Agencia del Departamento de Comercio de los Estados Unidos que funciona como
proveedor principal de datos de calidad sobre las personas y la economía a nivel nacional.
Orden de operaciones: Uso de paréntesis para agrupar los valores de la hoja de cálculo a fin de aclarar el orden en el que
deben realizarse las operaciones.
Ordenación: El proceso de organizar los datos en un sistema de clasificación significativo para que sean más fáciles de
entender, analizar y visualizar
Organización Mundial de la Salud: Organización cuya función principal es la de controlar y coordinar la salud a nivel
internacional dentro del sistema de las Naciones Unidas.
P
Panel: Herramienta que monitorea los datos entrantes en vivo.
Pensamiento analítico: El proceso de identificar y definir un problema, para luego resolverlo mediante el uso de datos de
manera organizada, paso a paso.
Pensamiento estructurado: El proceso de reconocer el problema o la situación actuales, organizar la información disponible,
revelar déficits y oportunidades, e identificar opciones.
Píxel: En imágenes digitales, es un área pequeña de iluminación en una pantalla de visualización que, cuando se combina con
otras áreas adyacentes, forma una imagen digital.
Población: En el análisis computacional de datos, todos los valores posibles en un conjunto de datos.
Pregunta específica: Pregunta simple, significativa y enfocada en un solo tema o en algunas ideas estrechamente
relacionadas entre sí.
Pregunta injusta: Pregunta en la que se hacen suposiciones o que es difícil de responder honestamente.
Pregunta principal: Pregunta que orienta a las personas hacia cierta respuesta.
Pregunta relevante: Pregunta que tiene importancia para el problema que se debe resolver.
Privacidad de los datos: Preservación de la información sobre los datos de una persona cada vez que ocurre una transacción
de datos.
Proceso de análisis de datos: Las seis fases de preguntar, preparar, procesar, analizar, compartir y actuar cuyo propósito es el
de obtener conocimiento que propicie la toma de decisiones informada.
PROMEDIO: Función de una hoja de cálculo que muestra el resultado de un promedio de los valores de un rango
seleccionado.
Propiedad: El aspecto de la ética de datos que presupone que cada persona es dueña de los datos sin procesar que
proporciona y que tiene control primordial sobre su uso, procesamiento y uso compartido.
R
Rango: Conjunto de dos o más celdas en una hoja de cálculo.
Redes sociales: Sitios web y aplicaciones en los que los usuarios crean y comparten contenido o interactúan entre sí.
Referencia de celda: Una celda o un rango de celdas en una hoja de cálculo que se utiliza generalmente en las fórmulas y
funciones.
Reformulación: Proceso de replantear un problema o desafío, que se redirecciona luego hacia una posible resolución.
Registro: Conjunto de datos relacionados en una tabla de datos, generalmente sinónimo de fila.
Reglamento general de protección de datos de la Unión Europea (GDPR): Organismo formulador de políticas en la Unión
Europea, creado para ayudar a proteger a las personas y sus datos.
Retorno de la inversión (ROI): Fórmula que utiliza las métricas de inversión y ganancias para evaluar el éxito de una inversión.
S
Seguridad de datos: Emplear medidas de seguridad para proteger los datos contra el acceso no autorizado o contra la
corrupción.
Sesgo de confirmación: Tendencia a buscar o interpretar la información de manera que confirme creencias preexistentes.
Sesgo de los datos: Cuando una preferencia a favor o en contra de una persona, un grupo de personas o una cosa sesga
sistemáticamente los resultados del análisis de datos en una cierta dirección.
Sesgo del investigador: Tendencia de distintas personas a observar las cosas de forma diferente (Ver “Sesgo del observador”).
Sesgo del muestreo: Representar en mayor o en menor medida a ciertos miembros de una población debido a que se trabaja
con una muestra que no representa a la población en su totalidad.
Sesgo del observador: Tendencia de distintas personas a observar las cosas de forma diferente (también se denomina “sesgo
del investigador”).
Sesgo: Preferencia consciente o no a favor o en contra de una persona, un grupo de personas o una cosa.
SUMA: Función de una hoja de cálculo que suma los valores de un rango de celdas seleccionadas.
T
Tabla dinámica: Herramienta de resumen de datos que se utiliza para clasificar, reorganizar, agrupar, contar, totalizar o
promediar datos.
Tarea empresarial: La pregunta o el problema que el análisis de datos resuelve para un negocio.
Tasa de rotación: Ritmo en el que los empleados abandonan voluntariamente una empresa.
Tipo de datos de texto: Secuencia de caracteres y puntuación que contiene información textual (también denominado “tipo
de datos de cadena”).
Tipo de datos en cadena: Secuencia de caracteres y puntuación que contiene información textual (también denominado
“tipo de datos de texto”).
Tipo de datos: Un atributo que describe cierto dato según sus valores, su lenguaje de programación o las operaciones que
puede realizar.
Tipos de problemas: Distintos problemas a los que se enfrenta el analista de datos, que incluyen categorizar elementos,
descubrir conexiones, hallar patrones, identificar temas, hacer predicciones y detectar algo inusual.
Toma de decisiones basada en datos: Uso de datos para guiar la estrategia empresarial.
Toma de decisiones inspirada en datos: Exploración de diferentes fuentes de datos para descubrir qué tienen en común.
Transparencia de la transacción: Aspecto de la ética de datos que presupone que se deben explicar todas las actividades de
procesamiento de datos y los algoritmos a la persona que proporciona los datos y que también presupone que esta persona
debe comprenderlos.
V
Vigencia: El aspecto de la ética de datos que presupone que las personas deben conocer las transacciones financieras
resultantes del uso de sus datos personales y la magnitud de esas transacciones.
CUESTIONARIO SEMANA 4:
Pregunta 1
¿Qué aspectos de un archivo suelen describir las convenciones de nomenclatura de archivos? Selecciona
todas las opciones que correspondan.
1 / 1 punto
1. Fecha de creación. Correcto. Las convenciones de nomenclatura de archivos describen el contenido, la fecha
de creación y el número de versión de un archivo.
2. Número de la versión. Correcto. Las convenciones de nomenclatura de archivos describen el contenido, la
fecha de creación y el número de versión de un archivo.
3. Colaboradores
4. Contenido. Correcto. Las convenciones de nomenclatura de archivos describen el contenido, la fecha de
creación y el número de versión de un archivo.
Pregunta 2
Un equipo de análisis computacional de datos usa datos sobre los datos para indicar convenciones de
nomenclatura uniformes para un proyecto. ¿Qué tipo de datos se usa en esta situación?
1. Datos agregados
2. Metadatos
3. Macrodatos
4. Datos en formato largo
Correcto. Los metadatosson los datos sobre los datos. Las prácticas de metadatos pueden ayudar a los equipos de
análisis a crear prácticas uniformes de convenciones de nomenclatura y de almacenamiento para sus archivos.
Pregunta 3
Una analista de datos crea un archivo en el que se enumeran las personas que donaron a la campaña para
recaudar fondos de su organización. Un nombre efectivo para el archivo es FundDriveDonors_20210216_V01.
1. Verdadero
2. Falso
Pregunta 4
¿Los analistas de datos pueden usar el sistema de carpetas para organizar las carpetas en qué?
1. Tablas
2. Bases de datos
3. Subcarpetas
4. Versiones
Correcto. Los analistas de datos pueden usar el sistema de carpetas para organizar las carpetas en subcarpetas.
Pregunta 5
Los analistas de datos usan el archivado para copiar archivos importantes y conservar copias de seguridad de
ellos. Estas copias de seguridad se usan si se pierden los archivos originales.
1. Verdadero
2. Falso
Correcto. Los analistas de datos usan el archivado para separar el trabajo actual del anterior. Esto implica mover
archivos de proyectos completados a otra ubicación.
Pregunta 6
Los analistas de datos crean jerarquías para organizar sus carpetas. ¿Cómo se estructuran las jerarquías de las
carpetas?
1. Los temas generales a la derecha y los más específicos a la izquierda
2. Los temas generales en la parte superior y los más específicos debajo
3. Los temas generales a la izquierda y los más específicos a la derecha
4. Los temas específicos en la parte superior y los temas generales debajo
Correcto. Las jerarquías de carpetas se estructuran con los temas generales en la parte superior y los más específicos
debajo.
Pregunta 7
Pregunta 8
Para reducir el desorden, un analista de datos oculta celdas que contienen fórmulas largas y complejas. Para
volver a ver las fórmulas, el analista deberá modificar la configuración de cifrado y uso compartido de la hoja
de cálculo.
1. Verdadero
2. Falso
Correcto. Las celdas ocultas pueden mostrarse fácilmente mediante la función Mostrar. Ocultarlas no protege los datos.
MÓDULO 5:
Crear o mejorar tu presencia en línea:
VIDEO: Gestionar tu presencia como analista de datos
Hola, es genial tenerte de vuelta. Hasta ahora, hemos cubierto todo desde el uso de SQL hasta aspectos clave de la ética de
datos. Desarrollaste muchísimas destrezas que te ayudarán en tu carrera profesional en el análisis computacional de datos.
Pero no tienes que hacer todo por tu cuenta. Como analista de datos, formas parte de una comunidad de datos que crece
cada día más. Si generas una presencia coherente y profesional en línea, podrás conectarte con otras personas que trabajan
en el mismo sector y ampliar tu red de contactos. A continuación, aprenderás cómo puedes empezar a generar tu presencia
en línea. Si ya formas parte de la comunidad, aprenderás a ampliar aún más tu red de contactos en línea. El trabajo remoto y
en línea se está volviendo moneda corriente, y lo mismo pasa con los contactos en redes. Esto significa que crear y mantener
una buena presencia en línea, podría generarte muchas oportunidades nuevas. Me ha pasado de contactarme con personas
con las que trabajé a lo largo de mi carrera, solo para estar en contacto, hacerles preguntas acerca de su experiencia, y ver
también qué cosas interesantes están haciendo. Eso solo es posible porque mantengo mis redes activas. Nos vemos en el
siguiente video para empezar a generar tu presencia en línea y conectarte con otros.
Hola de nuevo. Hoy en día, muchos de nosotros pasamos mucho tiempo vinculándonos con otras personas en línea. Estamos
en contacto con familiares y amigos a quienes no vemos todos los días, o publicamos algo que estamos haciendo, comiendo o
mirando, en fin... Compartimos cosas en redes sociales. Pero nuestra presencia en línea no solo tiene que ver con el ámbito
personal. Construir una presencia en línea que sea coherente y profesional es importante para ir haciendo carrera en el
análisis computacional de datos. La presencia profesional en línea es importante por varias razones clave. Primero, ayuda a
que posibles empleadores te encuentren. Segundo, te permite contactarte con otros analistas de datos que trabajan en el
mismo sector, aprender hallazgos sobre datos y compartirlos, ¡hasta puedes participar en distintos eventos de la comunidad!
No te olvides de que, hoy en día, hacemos muchos contactos en línea. Si no actualizas tu presencia en línea, puede que estés
perdiéndote buenas oportunidades sin siquiera saberlo. Hay muchos tipos de sitios web para profesionales que puedes
explorar para empezar a generar tu presencia en línea. Por ahora, nos enfocaremos en LinkedIn y GitHub. LinkedIn se diseñó
específicamente para ayudar a que las personas se contactaran con otras en su sector de trabajo. Es excelente para estar al
tanto de las tendencias de la industria, aprender de líderes del sector, e interactuar con una comunidad más amplia de
profesionales. Además, si estás buscando un trabajo nuevo, LinkedIn tiene paneles de trabajo para que hagas tu búsqueda.
Hasta puedes acotar la búsqueda por ubicación para ver quién está contratando cerca de ti. Además, los reclutadores suelen
usar LinkedIn para encontrar posibles analistas de datos para nuevos proyectos. Siempre es una buena idea mantener el
perfil de LinkedIn actualizado con tus datos del CV. Es posible que te llamen para contratarte. LinkedIn también te permite
conectarte con otras personas y generar una red de contactos. Puedes compartir lo que te esté pasando en tu vida
profesional y estar al tanto de dónde están tus contactos. Nunca sabes cuándo puedes llegar a trabajar con alguien de nuevo.
Con LinkedIn, puedes recibir la aprobación de otros por tener ciertas habilidades de trabajo y también puedes aprobar a los
demás. Si alguien en un trabajo anterior quedó contento con tu desempeño, puede contarles a otras personas lo increíble
que es trabajar contigo. GitHub, el otro sitio web que mencioné antes, es un poco distinto. GitHub se divide en dos: una parte
para compartir códigos, otra para redes sociales. Tiene una comunidad activa que trabaja en equipo y comparte información
para generar recursos. Puedes hablar con otros usuarios de GitHub en el foro, usar las wikis gestionadas por la comunidad, y
hasta usar el sitio para gestionar proyectos en equipo. GitHub también organiza eventos de la comunidad para conocer a
otras personas del sector y aprender cosas nuevas. GitHub tiene muchas funciones para que explores. La mejor forma de
aprender sobre GitHub es usar el sitio y ver todo con tus propios ojos. Más adelante en el programa, hablaremos un poco
más sobre GitHub. A veces, si buscas un giro en tu carrera profesional, puede ser bueno encontrar a alguien que tenga algo
en común contigo, que comparta tus intereses o haya nacido en el mismo lugar, y contactarlo. Quizá, una conversación breve
de 15 minutos con alguien puede ayudarte a dar el giro que necesitas, ya sea en un sitio para hacer contactos profesionales
como LinkedIn o en un evento de la comunidad organizado por GitHub. Hoy en día, LinkedIn es uno de los sitios de redes
sociales más usados a nivel profesional, así que es un buen punto de partida para generar tu presencia en línea. GitHub
ofrece muchísimas herramientas increíbles para los analistas de datos en la comunidad. Si todavía no tienes una cuenta en
estos sitios, un buen desafío puede ser registrarte y empezar a configurarlas. Contáctate con otras personas. Comparte
información sobre tu trabajo actual. Y si ya usas LinkedIn y GitHub, tengo excelentes noticias: vamos a hablar un poco más
sobre cómo mejorar tu presencia en línea la próxima. Nos vemos pronto.
Introducción a LinkedIn
Registrarse en LinkedIn
Registrarse en LinkedIn es simple. Solo tienes que seguir estos pasos fáciles:
1. Dirígete a linkedin.com.
2. Haz clic en Unirme ahora o Unirme con mi CV.
Si hiciste clic en Unirme ahora:
1. Ingresa tu dirección de correo electrónico y tu contraseña, y haz clic en Aceptar y unirme (también puedes hacer
clic en Unirme con Google para vincular una cuenta de Google).
2. Ingresa tu nombre y apellido y haz clic en Continuar.
3. Ingresa el país o la región donde vives, el código postal y la ubicación más exacta (así, LinkedIn te ayuda a
encontrar oportunidades laborales cerca de ti).
4. Ingresa tu puesto más reciente o selecciona Soy estudiante.
5. En caso de que hayas ingresado tu puesto más reciente, selecciona el tipo de trabajo e ingresa el nombre de la
empresa.
6. Si seleccionaste “Autónomo” o “Freelance”, LinkedIn te preguntará en qué industria trabajas.
7. Haz clic para confirmar tu dirección de correo electrónico. Recibirás un correo electrónico de LinkedIn.
8. Para confirmar la dirección de correo electrónico, haz clic en Aceptar y confirmar en tu casilla de correo.
9. Luego, LinkedIn te preguntará si estás buscando trabajo. Haz clic en la opción que quieras. Si seleccionaste Sí,
entonces LinkedIn te ayudará a buscar oportunidades laborales.
Si hiciste clic en Unirme con mi CV:
Elige una imagen que te represente: Tu objetivo es que tu perfil te represente lo mejor posible, y eso incluye una
foto. Quieres que algún posible contacto o empleador te reconozca por tu foto de perfil si alguna vez se ven
cara a cara.
Usa tu industria como ejemplo: Si no sabes bien qué sería adecuado para una foto de perfil, explora otros
perfiles en la misma industria u otras empresas que te interesen. Así, podrás saber mejor qué deberías hacer.
Elige una imagen de alta resolución: A mejor resolución, mejor primera impresión. Así que asegúrate de que tu
imagen no esté borrosa. El tamaño ideal para tu foto de perfil en LinkedIn es 400 x 400 píxeles. Usa una foto en
la que tu rostro ocupe, al menos, el 60% del espacio.
Recuerda sonreír: Tu foto de perfil es como un resumen de quién eres, así que puedes estar serio. Pero, si
sonríes, tus posibles contactos y empleadores se sentirán más a gusto.
Agregar contactos
Los contactos son una excelente forma de estar al día con excompañeros de trabajo, colegas, compañeros de clase y
hasta empresas con las que quisieras trabajar. El mundo es un lugar enorme y hay muchísimas personas. Así que te
brindamos algunos consejos para dar tus primeros pasos.
Formadores de opinión más populares en LinkedIn “Top Voices” de LinkedIn 2020: Ciencia de datos & IA
Una buena forma de aumentar la cantidad de contactos que tienes es invitar a tus compañeros de clase, a tus amigos,
a tus docentes o, incluso, a miembros de algún club u organización de los que formes parte. LinkedIn también te
sugiere otros contactos según la información de tu perfil. A continuación, verás un ejemplo (plantilla) que puedes usar
para contactarte con un excompañero de trabajo:
Cuando hablamos de “solicitudes espontáneas”, nos referimos a invitar a personas que no conoces personal o
profesionalmente a que se contacten contigo en LinkedIn. Cuando empiezas a construir tu red de contactos, es mejor
contactarte con quienes conozcas. Sin embargo, las solicitudes espontáneas pueden llegar a ser la única forma de
contactarte con personas que trabajan en empresas que te interesan. Puedes obtener mucha información sobre la
cultura de una empresa y las vacantes laborales si hablas con empleados que trabajan allí. Una buena práctica es
enviar solicitudes espontáneas de vez en cuando, solo cuando no tienes otra forma de contactarte.
Ponte en contacto con distintas personas para ofrecer una visión integral de quién eres: supervisores, colegas,
personas a tu cargo, socios y clientes.
Personaliza la solicitud de recomendación con un mensaje tuyo.
En tu solicitud, sugiere ciertas fortalezas o habilidades que pueden destacar.
Muéstrate dispuesto a escribir una recomendación a cambio.
Lee bien la recomendación antes de publicarla en tu perfil.
A veces, la parte más difícil de obtener una recomendación es escribir la solicitud correcta. A continuación, verás un
ejemplo (plantilla) que puedes usar para solicitar una recomendación:
Pídeles a algunos contactos que te recomienden y que destaquen por qué deberías obtener el puesto que buscas. Las
recomendaciones ayudan a posibles empleadores a saber mejor quién eres y a conocer la calidad de tu trabajo.
En resumen
Cuando haces publicaciones serias y respondes a otras de forma honesta, las personas de tu red de contactos e,
incluso, las que no forman parte de tu red aún son más propensas a ayudarte durante tu búsqueda laboral.
1.
Pregunta 1
Descripción general
Ahora que ya conoces la plataforma de Kaggle, puedes hacer una pausa y aplicar todo lo que estás aprendiendo. En
esta autorreflexión, pensarás acerca de tu presencia en línea y responderás unas breves preguntas.
Esta autorreflexión te ayudará a desarrollar conocimientos sobre tu propio aprendizaje y te preparará para relacionar
todo lo que aprendiste sobre Kaggle con los objetivos que estableciste respecto de tu presencia en línea. A medida
que respondas las preguntas, y plantees tus propias preguntas, tendrás en cuenta los conceptos, las prácticas y los
principios que te ayudarán a refinar tu comprensión y reforzar tu aprendizaje. Ya hiciste el trabajo duro, así que
asegúrate de sacarle el máximo provecho: ¡Esta reflexión te ayudará a fijar tus conocimientos!
A medida que conoces más sobre las opciones de trabajo disponibles para los analistas de datos, te vas dando cuenta
de que es importante estar activo en línea. Si interactúas con la comunidad de datos en línea, puedes hacer
preguntas, aprender nuevas destrezas y demostrar tus logros a posibles empleadores.
Ya aprendiste distintas formas de aumentar tu presencia en línea, desde LinkedIn hasta GitHub, pasando por
Medium. Para crear un vínculo más estrecho con la comunidad de datos e interactuar con otros profesionales de los
datos y también aficionados, puedes generar presencia en línea usando Kaggle.
Además de conjuntos de datos, Kaggle te ofrece cursos breves, competencias, foros y una gran comunidad de
usuarios. Gracias al Sistema de progreso de Kaggle, puedes realizar un seguimiento de tu evolución y tu crecimiento
en la plataforma, y demostrar todas tus destrezas y tu conocimiento sobre datos a empleadores y colegas.
Características de tu perfil
El primer paso en Kaggle es crear tu perfil. Tu página de perfil en Kaggle te permite recopilar todo tu trabajo y tus
logros en la plataforma. Mira este ejemplo de una página de perfil y explora cómo puedes usar tu perfil para
compartir información: Cara o cruz
A medida que exploras la página de perfil que armó Cara o cruz en Kaggle, también puedes ver todo el trabajo que
hicieron para obtener muy buenas calificaciones en cada categoría. Fíjate que incluyen enlaces. Por ejemplo,
incluyeron un enlace que lleva a la audiencia de la página desde su perfil al blog personal y a distintos videos. Así,
pueden compartir su perfil en Kaggle con posibles empleadores y destacar sus habilidades y su progreso.
Ahora bien: lleva tiempo crear tu perfil en Kaggle o en cualquier otra red social. Si eres paciente con tu progreso e
interactúas con constancia, más personas prestarán atención a tu trabajo.
Antes de pasar a la próxima sección, tómate unos minutos para mirar distintos perfiles en Kaggle, y piensa en
ciertas cosas que te inspiren. Si encuentras el perfil de alguien cuyo trabajo te gustaría seguir, haz clic en el botón
Seguir usuario en su perfil.
Cómo empezar
Para que sea más fácil dar tus primeros pasos en Kaggle, repasa cómo funciona la comunidad de Kaggle. Para ello,
puedes leer las Pautas de la comunidad y también ver la lista de reproducción en YouTube sobre Primeros pasos en
Kaggle. Luego, lee algunas publicaciones y pasa algo de tiempo en los foros. Cuando estés listo para empezar,
intenta responder algunas preguntas e interactúa en algunas publicaciones en las que alguien comparta algo útil o
interesante.
Reflexión
Piensa acerca de las características de la comunidad de Kaggle y cómo puedes usar las redes tú mismo:
¿Cómo puedes aprovechar los blocs de notas interactivos de Kaggle y la comunidad de datos para promover
tu carrera profesional?
¿Cómo puedes usar Kaggle para mejorar tu impacto en las redes sociales y cumplir tus objetivos
profesionales?
Imagina cómo sería tu presencia ideal en las redes sociales como analista de datos. ¿Qué te gustaría incluir
en tu perfil? ¿Qué tipo de interacción te gustaría recibir de otras personas?
Piensa acerca de tus objetivos profesionales en redes sociales y cómo puedes usar Kaggle para construir tu presencia
en línea.
Ahora, escribe 2 o 3 oraciones (de 40 a 60 palabras) en respuesta a cada una de estas preguntas. Escribe tu respuesta
en el cuadro de texto que aparece a continuación.
1 / 1 punto
Correcto
¡Gran trabajo al reforzar tu aprendizaje con una autorreflexión seria! Una buena reflexión sobre este tema debería
incluir la forma en que construirás tu presencia en línea según las características de Kaggle o las de cualquier otra
plataforma.
Para perfeccionar tus habilidades y obtener un trabajo como analista de datos, es vital que tomes las riendas de tu
presencia en línea y dejes registro de todo el trabajo que estás haciendo. Ahora, puedes leer ciertas publicaciones de
debate que te interesen en Kaggle o en cualquier otro foro sobre ciencia de datos. Interactúa en los foros: agrega
comentarios o preguntas de seguimiento para mejorar tu presencia en línea y aprender nuevas habilidades sobre datos.
Es posible que haya restricciones a las reuniones en persona debido a la pandemia global de COVID-19. Si
decides asistir a una reunión en persona, respeta las pautas estipuladas por las autoridades de salud locales.
Esperamos que las reuniones en persona puedan volver a celebrarse de forma segura pronto.
Los enlaces que te brindamos en este artículo son solo ejemplos y están sujetos a modificaciones. Google no
los patrocina ni respalda específicamente.
Contactos en línea
Si todos los días pasas algunas horas en redes sociales, es posible que te sientas cómodo haciendo contactos con
otros analistas de datos en línea. Pero, ¿por dónde empezarías a buscar si no conocieras a ningún analista de datos?
Aunque no tengas redes sociales y hayas creado tu perfil en LinkedIn hace muy poco, puedes usar tu presencia en
línea para encontrar a otros analistas de datos y hacer contacto con ellos.
La clave es saber dónde buscar. A continuación, te damos algunas sugerencias para empezar en línea:
Suscríbete a boletines como Data Elixir. No solo recibirás pequeñas gemas de información de forma regular,
sino que aprenderás los nombres de expertos en ciencia de datos a quienes puedes seguir o, incluso, con
quienes puedes ponerte en contacto si tienes una buena razón para hacerlo.
Participa de hackatones (competencias) como las que patrocina Kaggle, una de las comunidades más grandes
de ciencia de datos y aprendizaje automático en el mundo. Ten en cuenta que no a todo el mundo le gustan los
hackatones. De todas formas, una vez que te unes a la comunidad, sueles tener acceso a foros en los que
puedes conversar con otros analistas de datos y conectarte con ellos.
Las reuniones en línea suelen organizarse según tu ubicación geográfica. Puedes buscar “reuniones de ciencia
de datos cerca de mí” a ver qué resultados obtienes. Por lo general, hay una agenda con reuniones futuras para
que te conectes con otros analistas de datos de forma virtual. Obtén más información sobre reuniones virtuales
en todo el mundo.
Usa plataformas como LinkedIn o Twitter. Usa el buscador en cualquier plataforma para encontrar hashtags
sobre ciencia de datos o analistas de datos para seguir. También puedes publicar tus propias preguntas o
artículos para generar respuestas y hacer contacto de esa forma. Cuando escribimos este artículo, el hashtag
#dataanalyst (analista de datos) en LinkedIn tenía 11,842 seguidores, el hashtag #dataanalytics (análisis de
datos) tenía 98,412 seguidores, y el hashtag #datascience (ciencia de datos), 746,945 seguidores. Muchos de
estos hashtags también funcionan en Twitter e, incluso, en Instagram.
Participa de webinars: es posible que, en estas sesiones que suelen grabarse para poder mirarlas cuando
quieras y cuantas veces quieras, haya un panel de oradores. Puedes ver quién forma parte del panel de
oradores y seguirlos también. Además, muchos webinars son gratuitos. Una opción interesante es la serie de
webinars de Tableau on Tableau. En ellos, podrás descubrir cómo Tableau usó Tableau en sus departamentos
internos.
Reuniones en persona (fuera de línea)
Las reuniones en persona son súper valiosas en el mundo digital de hoy. Son una forma excelente de conocer
personas. Muchas veces, conoces a alguien en una reunión en persona y sigues el contacto en línea una vez que
vuelves a casa. Muchas organizaciones que patrocinan reuniones anuales también ofrecen reuniones y recursos
virtuales el resto del año.
Si asistes a una conferencia, seguramente escuches ideas y temas innovadores. El precio puede variar, y
algunas conferencias son bastante costosas. Sin embargo, muchas conferencias ofrecen descuentos a
estudiantes y otras, como la de Mujeres en la analítica, apuntan a aumentar la cantidad de personas que forman
parte de grupos poco representados en el sector. Las empresas líderes en investigación y consultoría, como
Gartner, también patrocinan conferencias sobre datos y analíticas. También puedes consultar la lista de
KDNuggets sobre eventos en línea y reuniones sobre IA, analítica, macrodatos, ciencia de datos y aprendizaje
automático.
Las asociaciones o sociedades convocan miembros para promover cierto sector, como el de ciencia de datos.
Muchas membresías son gratuitas. La Asociación de Analítica Digital (Digital Analytics Association) es un buen
ejemplo. La lista de KDNuggets sobre sociedades y grupos de analítica, minería de datos, ciencia de datos y
descubrimiento del conocimiento es muy útil.
Las comunidades de usuarios y los congresos ofrecen eventos para quienes usan herramientas de análisis de
datos y son una buena opción para aprender de los mejores. ¿Ya exploraste la comunidad de Tableau?
En algunas ocasiones, las organizaciones sin fines de lucro que promocionan el uso ético de la ciencia de datos
organizan eventos para el desarrollo profesional de sus miembros. Un buen ejemplo es la Asociación de Ciencia
de Datos (Data Science Association).
Conclusiones clave
Tus contactos te ayudarán a mejorar tu conocimiento y tus habilidades. Es importante hacer contactos y mantenerlos,
aunque ya trabajes en el sector del análisis computacional de datos. Así que busca comunidades en línea que
promuevan distintas herramientas de análisis de datos o hagan progresar la ciencia de datos. Si hay reuniones donde
vives, búscalas para conectarte con más personas cara a cara. Aprovecha ambas opciones para tener lo mejor de los
dos mundos. Cuando estás con alguien en persona, es más fácil conversar e intercambiar información, pero la ventaja
clave de los contactos en línea es que no se limitan solo al área donde vives. Es posible que la comunidad en línea te
ponga en contacto con personas de otros países.
CUESTIONARIO
1.
Pregunta 1
Durante los últimos seis meses, trabajaste en una empresa de consultoría de análisis computacional de datos. Tu
equipo trabaja con restaurantes para que utilicen sus datos a fin de entender mejor las preferencias de los clientes e
identificar oportunidades para ser más rentables.
Con esos objetivos en mente, tu equipo analiza los comentarios de los clientes para mejorar el rendimiento de los
restaurantes. Usas datos para que los restaurantes tomen mejores decisiones sobre la dotación de personal y fidelicen
a sus clientes. Con tu análisis, hasta puedes rastrear el número de veces que un cliente solicita un nuevo plato o
ingrediente y, así, revisar los menús.
En este momento, estás trabajando con un restaurante de sándwiches vegetarianos llamado “Garden”. El propietario
quiere que la entrega de comida sea más eficiente y rentable. Para cumplir con este objetivo, tu equipo utilizará los
datos de la entrega para comprender mejor cuándo salen los pedidos de Garden, cuándo llegan al cliente y qué tan
satisfechos están los clientes con los pedidos en general.
Antes de iniciar el proyecto, participas de una sesión de presentación con el vicepresidente de experiencia del cliente
de Garden. Él te brinda información para que tu equipo comprenda mejor los objetivos comerciales y del proyecto.
Como seguimiento, te envía un correo electrónico con conjuntos de datos.
DOCX File
XLSX File
DeliveryTimes_DistanceData_SPA
XLSX File
Cuando revisas los datos, puedes describir cómo los utilizarás para lograr los objetivos de tu cliente. Primero, observas que
todos los datos son datos de primera fuente. ¿Qué significa esto?
1 / 1 punto
2.
Pregunta 2
Escenario 1, continuación
Luego, revisas los datos de la encuesta de satisfacción del cliente. Si quieres usar la plantilla para los datos de la
encuesta de satisfacción del cliente, haz clic en el enlace a continuación y selecciona "Usar plantilla".
Si no tienes una cuenta de Google, descarga el archivo CSV directamente haciendo clic en el adjunto a continuación.
XLSX File
Notas que, en la columna E, hay un ejemplo de datos booleanos. ¿Cómo llegaste a esa conclusión?
1 / 1 punto
Pregunta 3
Escenario 1, continuación
Ahora, revisas los datos sobre los tiempos de entrega y la distancia entre los clientes y el restaurante.
Para utilizar la plantilla del conjunto de datos, haz clic en el enlace de abajo y selecciona “Usar plantilla”.
Si no tienes una cuenta de Google, descarga el archivo CSV directamente haciendo clic en el adjunto a continuación.
DeliveryTimes_DistanceData_SPA
XLSX File
Los datos de la columna E muestran cuánto tardan las entregas de Garden a sus clientes. ¿Qué tipo de datos es este?
Selecciona todas las opciones que correspondan.
0.5 / 1 punto
1. Datos continuos. Esto no debería estar seleccionado. Si necesitas hacer un repaso, vuelve a ver el video sobre
formatos de datos.
2. Datos cualitativos
3. Datos discretos
4. Datos cuantitativos. Correcto. Este es un ejemplo de datos discretos, que son datos contabilizables y tienen un
número limitado de valores. También son datos cuantitativos: datos específicos que miden hechos numéricos.
Pregunta 4
Escenario 1, continuación
Ahora, revisas el archivo que contiene imágenes de la entrega de sándwiches durante un período de 30 días. Este es un
ejemplo de datos estructurados.
1 / 1 punto
1. Verdadero
2. Falso
Correcto. Este es un ejemplo de datos no estructurados, es decir, datos que no están organizados de una manera fácil
de identificar.
Pregunta 5
Escenario 1, continuación
Ahora que estás familiarizado con los datos, quieres generar cierta confianza con el equipo de Garden.
¿Qué medidas empleas para resguardar la seguridad de los datos? Selecciona todas las opciones que correspondan.
0.5 / 1 punto
1. Hago copias de los archivos del cliente para mi propio uso. Esto no debería estar seleccionado. Si necesitas
hacer un repaso, vuelve a leer las secciones sobre organización y protección de datos.
2. Modifico las convenciones de nomenclatura de los archivos. Esto no debería estar seleccionado. Si necesitas
hacer un repaso, vuelve a leer las secciones sobre organización y protección de datos.
3. Agrego una contraseña a los archivos. Correcto. Para generar confianza con tu cliente, puedes demostrarle que
mantienes sus datos protegidos usando contraseñas y permisos para usuarios.
4. Asigno permisos para usuarios en los archivos. Correcto. Para generar confianza con tu cliente, puedes
demostrarle que mantienes sus datos protegidos usando contraseñas y permisos para usuarios.
Pregunta 6
Ya finalizaste este programa y, ahora, estás por presentarte a una entrevista para el puesto de científico junior de datos
en una empresa que se llama “Servicios Financieros Sewati”.
PDF File
Por ahora, pasaste con éxito la primera entrevista con el reclutador. Entonces, conciertan una segunda entrevista con el
equipo de Servicios Financieros Sewati.
Haz clic a continuación para leer el correo electrónico que te envió el director de Recursos Humanos:
DOCX File
Llegas a la entrevista 15 minutos antes. Enseguida te acompañan hasta la sala de conferencias donde conoces a Kai
Harvey, gerente senior de estrategia. Después de darte la bienvenida, comienza la entrevista conductual.
Considera y responde la siguiente pregunta. Selecciona todas las opciones que correspondan.
Nuestro equipo de análisis computacional de datos suele entrevistar clientes para conocer su opinión. Si formaras parte del
equipo, ¿cómo garantizarías que, durante el proceso, no se generen posibles sesgos?
1 / 1 punto
1. En la muestra, incluyo clientes con discapacidad. Correcto. La forma en que redactamos las preguntas, el
tiempo que les damos a los participantes para que respondan cada pregunta y la inclusión de distintos
participantes pueden generar sesgos.
2. Les doy a los participantes el tiempo necesario para que respondan cada pregunta de la encuesta.
Correcto. La forma en que redactamos las preguntas, el tiempo que les damos a los participantes para que
respondan cada pregunta y la inclusión de distintos participantes pueden generar sesgos.
3. Me aseguro de que la redacción de las preguntas de la encuesta no incite una respuesta específica de parte de
los participantes. Correcto. La forma en que redactamos las preguntas, el tiempo que les damos a los
participantes para que respondan cada pregunta y la inclusión de distintos participantes pueden generar
sesgos.
4. Les indico a los participantes que incluyan su nombre y su información de contacto.
Pregunta 7
Escenario 2, continuación
Considera y responde la siguiente pregunta. Selecciona todas las opciones que correspondan.
Nuestro equipo de análisis computacional de datos suele usar datos externos. ¿Dónde puedes obtener datos externos útiles?
0.5 / 1 punto
Pregunta 8
Escenario 2, continuación
Nuestros analistas suelen trabajar en la misma hoja de cálculo, pero para diferentes propósitos. ¿Cómo ayudaría filtrar
datos en esta situación?
1 / 1 punto
Escenario 2, continuación
Ahora, el entrevistador quiere ahondar un poco en tu conocimiento sobre comandos básicos de SQL. Entonces, te
pregunta: Imagina que usamos la tabla de Clientes de nuestra base de datos, ¿cómo escribirías una consulta para recuperar
solamente información sobre personas que trabajan en Boise?
0 / 1 punto
1.
2. ESTE
3. NO
4.
Incorrecto
Si necesitas hacer un repaso, vuelve a leer el artículo sobre las mejores prácticas de SQL.
Pregunta 10
Escenario 2, continuación
En la última pregunta, el entrevistador te explica que Servicios Financieros Sewati se preocupa por la privacidad de los
datos. La empresa necesita generar confianza con sus clientes, y esa es una responsabilidad importante del equipo de análisis
computacional de datos.
Entonces, te pregunta: ¿Qué implica la privacidad de los datos? Selecciona todas las opciones que correspondan.
1 / 1 punto