Curso 3 Analisis de Datos

CURSO 3: Preparar datos para la exploración
Exploración de datos
VIDEO: Introducción a la exploración de datos
Imagínate esto: Te encuentras trabajando en un proyecto. Ya has formulado todas las preguntas correctas, has aplicado el
pensamiento estructurado y te encuentras en completa sincronización con los interesados. Estás listo para un gran comienzo.
Pero existe otro paso en el proceso: preparar los datos correctamente. Aquí es donde hay que comprender los diferentes
tipos de datos y las estructuras de datos. Al conocer esto, puedes imaginar qué tipo de datos son correctos para la pregunta
que estás respondiendo. Además, adquirirás habilidades prácticas sobre cómo extraer, utilizar organizar y proteger los datos.
Hola, mi nombre es Hallie y soy directora de análisis de datos en Google. Trabajo con empresas de la industria del cuidado de
la salud. Es un gran gusto darte la bienvenida a este curso. Han estado trabajando en sus habilidades para el análisis de datos
en diversas formas hasta ahora. Han aprendido cómo formular las preguntas correctas, definir el problema y presentar su
análisis de modo tal que coincida con las necesidades de los interesados. En otras palabras, han aprendido a contar una
historia utilizando datos.
Ahora van a aprender más acerca de los datos que necesitan para contar la mejor historia posible. Pero antes de eso, quiero
contarles mi historia. Utilizo el análisis computacional de datos para ayudar a las empresas de salud a desarrollar soluciones
de marketing digital que robustezcan a las empresas y a sus marcas comerciales. Mi equipo y yo buscamos empresas y
oportunidades en los medios de comunicación basadas en las informaciones más recientes de la industria y los datos. He
trabajado en el área de salud por unos cinco años y es maravilloso. Realmente disfruto de poder utilizar los datos para iniciar
un cambio en una industria tan importante. Como descubrirás en este curso, los datos pueden ser el personaje principal en
una historia muy poderosa. Realmente amo utilizar el análisis para contar la historia de un modo convincente e informativo.
Aquí tenemos un ejemplo de la vida real sobre cómo he utilizado los datos para contar una historia. En mi trabajo, analizamos
los datos de afiliación a Medicare a través del tiempo y realizamos conexiones sobre cómo las personas buscan los planes de
Medicare en Google. Las personas de 65 años de edad o más se convierten en decisores informados en cuanto a su salud,
entonces yo utilizo los datos para saber si existe un incremento en las afiliaciones a Medicare y qué rol juegan las búsquedas
en Google si hay un incremento en la demanda. Es muy importante que me asegure de que los datos sean importantes y
válidos. También hay que prestar atención a las preguntas acerca del acceso y equidad mientras se respeta la privacidad de
los que realizan las búsquedas. El final feliz de mi historia es que los datos en mis hallazgos son útiles para los profesionales
médicos y sus pacientes. Existen muchos datos útiles disponibles y estás desarrollando las habilidades necesarias para
encontrar y utilizar los datos correctos de la mejor forma posible. En este curso, continuarás afinando esas habilidades. De
modo que ya escuchaste mucho acerca de los pasos del proceso del análisis de datos: preguntar, preparar, procesar, analizar,
compartir y actuar. Ahora, es momento de aprender cómo preparar los datos. Aprenderás a identificar cómo se generan y se
recolectan los datos y explorarás diferentes formatos, tipos y estructuras de datos. Nos aseguraremos de que sepas cómo
elegir y utilizar los datos que te ayudarán a comprender y responder a un problema empresarial. Y como no todos los datos
satisfacen cada necesidad, aprenderás cómo analizar los datos para buscar el sesgo y la credibilidad. También exploraremos
qué significa datos limpios. Pero espera, hay más. También tendrás un acercamiento personal a las bases de datos.
Hablaremos sobre qué son y cómo las utilizan los analistas. Hasta podrás extraer tus propios datos de una base de datos
utilizando un par de herramientas con las que ya estás familiarizado: hojas de cálculo y SQL.
La clave aquí es la paciencia. Como todo lo que vale la pena hacer, esto toma tiempo y práctica. Y estaré contigo en cada paso
del camino. ¿Me sigues? Excelente. Las últimas pocas cosas de las que hablaremos son las bases de la organización de datos y
el proceso de protección de datos. Los datos funcionan mejor cuando están organizados. Y si estás organizando tus datos,
querrás protegerlos. Te mostraré cómo hacer ambas cosas y aplicarlo a tu propio análisis. Me complace mucho ayudarte a
escribir tu propia historia personal a medida que continuamos explorando el mundo del análisis computacional de datos. Así
que, manos a la obra.
Programa del curso:

1. Aspectos básicos: Datos, datos, en todas partes
2. Formula preguntas para tomar decisiones basadas en datos
3. Prepara datos para la exploración (este curso)
4. Procesa datos para pasarlos en limpio
5. Analiza datos para responder preguntas
6. Comparte datos a través del arte de la visualización
7. Análisis de datos con programación en R
8. Google Data Analytics Capstone: completa un caso práctico
¡Bienvenido al tercer curso del Certificado de análisis computacional de datos de Google! Hasta ahora, te has
introducido en el campo del análisis computacional de datos y has descubierto cómo los analistas de datos pueden
utilizar sus habilidades para responder a preguntas de negocio.
Como analista de datos, debes ser un experto en estructurar, extraer y asegurarte de que los datos con los que trabajas
son confiables. Para ello, siempre es mejor desarrollar una idea general de cómo se generan y recogen todos los datos,
ya que cada organización estructura los datos de forma diferente. Así, sea cual sea la estructura de datos a la que te
enfrentes en tu nuevo puesto, te sentirás seguro trabajando con ella.
Pronto descubrirás que cuando se extraen los datos, no son perfectos. Pueden ser sesgados en lugar de creíbles, o
estar sucios en lugar de depurados. Tu objetivo es aprender a analizar los datos en busca de sesgos y credibilidad y
entender lo que significan los datos depurados. También te acercarás a las bases de datos e incluso podrás extraer tus
propios datos de una base de datos utilizando hojas de cálculo y SQL. Los últimos temas tratados son los fundamentos
de la organización de datos y el proceso de protección de ellos.
Además, aprenderás a identificar los diferentes tipos de datos que pueden utilizarse para entender y responder a un
problema empresarial. En esta parte del programa, explorarás diferentes tipos de datos y estructuras de datos. Y lo
mejor de todo es que seguirás ampliando tu caja de herramientas de analista de datos. Desde la extracción y el uso de
datos, hasta su organización y protección, estas habilidades clave te serán útiles independientemente de lo que hagas
en tu carrera como analista de datos.
Contenido del curso

Curso 3 – Preparar datos para la exploración
1. Entender los tipos y las estructuras de datos: Todos generamos muchos datos en nuestra vida cotidiana. En esta
parte del curso, comprobarás cómo generamos datos y cómo los analistas deciden qué datos recoger para su
análisis. También aprenderás sobre los datos estructurados y no estructurados, los tipos de datos y los formatos
de datos mientras empiezas a pensar en cómo preparar tus datos para la exploración.
2. Entender el sesgo, la credibilidad, la privacidad, la ética y el acceso: Cuando los analistas de datos trabajan con
datos, siempre verifican que los datos sean imparciales y creíbles. En esta parte del curso, aprenderás cómo
identificar distintos tipos de sesgos en los datos y cómo garantizar la credibilidad de tus datos. También
explorarás los datos abiertos y la relación que existe entre la importancia de la ética de datos y la privacidad de
datos.
3. Bases de datos: Donde viven los datos: Cuando analices datos, accederás a gran parte de los datos de una base
de datos. Es donde viven los datos. En esta parte del curso, aprenderás todo sobre las bases de datos, incluso
la forma de acceder a ellas y de extraer, filtrar y ordenar los datos que contienen. También le echarás un vistazo
a los metadatos para descubrir los diferentes tipos y cómo los usan los analistas.
4. Organizar y proteger tus datos: Tener un buen nivel de organización es una parte importante de la mayoría de
los trabajos, y el análisis computacional de datos no es diferente. En esta parte del curso, aprenderás las
prácticas recomendadas para organizar los datos y mantenerlos seguros. También aprenderás cómo los
analistas usan las convenciones de nomenclatura de archivos para poder mantener su trabajo organizado.
5. Participar en la comunidad de datos (opcional): Tener una fuerte presencia en línea puede ser de gran ayuda
para los solicitantes de empleo de todo tipo. En esta parte del curso, explorarás cómo gestionar tu presencia en
línea. También descubrirás los beneficios de la creación de redes con otros profesionales del análisis
computacional de datos.
6. Completar el Desafío del curso: Al final de este curso, podrás poner en práctica todo lo que has aprendido con el
Desafío del curso. El Desafío del curso te hará preguntas sobre los conceptos clave y luego te dará la
oportunidad de ponerlos en práctica a través de dos escenarios.
Qué esperar
Esta parte del programa está diseñada para que te familiarices con diferentes estructuras de datos y para mostrarte
cómo recopilar, aplicar, organizar y proteger los datos. Todas estas habilidades formarán parte de tus tareas diarias
como analista de datos de nivel inicial. Trabajarás en una amplia gama de actividades que son similares a las tareas de
la vida real que los analistas de datos se encuentran a diario.
Este curso tiene cinco módulos o semanas, y cada uno tiene varias lecciones incluidas. Dentro de cada lección,
encontrarás contenidos como:
 Videos de instructores enseñando nuevos conceptos y demostrando el uso de herramientas.

 Preguntas en el video que surgen durante o al final del video para verificar tu aprendizaje.
 Material de lectura que presentará nuevas ideas y ampliará los conceptos presentados en los videos.
 Foros de debate para debatir, explorar y reforzar nuevas ideas para un mejor aprendizaje.
 Temas de debate para promover el pensamiento y la participación en los foros de debate.
 Actividades prácticas para presentar situaciones del mundo real en el trabajo y las herramientas y tareas para
completar las asignaciones.
 Cuestionarios de práctica a fin de prepararte para los cuestionarios con calificación.
 Cuestionarios con calificación para medir tu progreso y recibir correcciones útiles.
Las actividades prácticas promueven oportunidades adicionales para desarrollar tus habilidades. Trata de sacarles el
mayor provecho posible. Las evaluaciones se basan en el enfoque adoptado por el curso para ofrecer una amplia
variedad de materiales y actividades didácticas que refuerzan las habilidades importantes. Los cuestionarios con y sin
calificación te ayudarán a ahondar en el contenido. Los cuestionarios de práctica sin calificación son una oportunidad
para prepararte para los cuestionarios con calificación. Ambos tipos de cuestionarios se pueden realizar más de una
vez.
Como recordatorio rápido, este curso está diseñado para todo tipo de estudiantes, sin necesidad de un título o
experiencia previa. Todos aprenden de manera diferente, por lo que el Certificado de análisis computacional de datos
de Google se diseñó teniendo eso en cuenta. Los plazos personalizados son solo una guía, así que siéntete libre de
trabajar a tu propio ritmo. No se penalizan las entregas tardías de las tareas. Si lo prefieres, puedes ampliar los plazos
volviendo a Descripción general en el panel de navegación y haciendo clic en Cambiar sesión. Si no cumpliste con plazos
anteriores, haz clic en Restablecer mis plazos.
Si deseas revisar el contenido anterior u obtener un adelanto del próximo contenido, puedes usar los enlaces de
navegación en la parte superior de esta página para ir a otro curso del programa. Cuando apruebes todas las
asignaciones requeridas, estarás en camino de obtener tu certificado.
Vía rápida opcional para aquellos con experiencia en análisis computacional de datos
El Certificado de análisis computacional de datos de Google proporciona instrucciones y comentarios para los alumnos
que esperan obtener un puesto como analista de datos de nivel básico. Si bien muchos alumnos serán completamente
nuevos en el mundo del análisis computacional de datos, es probable que otros estén familiarizados con el campo y
simplemente quieran repasar ciertas habilidades.
Si crees que este curso será principalmente un repaso para ti, te recomendamos que realices el cuestionario de
diagnóstico de práctica que se ofrece esta semana. Te permitirá determinar si debes seguir la vía rápida, que es una
oportunidad para continuar con el Curso 4 después de haber tomado cada uno de los desafíos semanales del Curso 3 y
el Desafío del curso. Los alumnos que obtengan una puntuación del 100% en el cuestionario de diagnóstico pueden
considerar los videos, las lecturas y las actividades del Curso 3 como opcionales. Los alumnos que sigan la vía rápida
igual podrán obtener el certificado.
Consejos
 Haz lo posible por completar todos los elementos en orden. Toda la información nueva se basa en lo aprendido
anteriormente.
 Trata cada tarea como si fuera una experiencia del mundo real. Piensa que estás trabajando en una empresa o
en una organización como analista de datos. Esto te ayudará a aplicar lo que aprendes en este programa en el
mundo real.
 Aunque no se califiquen, es importante completar todos los elementos de práctica. Te ayudarán a construir una
base sólida como analista de datos y te prepararán mejor para las evaluaciones calificadas.
 Aprovecha todos los recursos adicionales proporcionados
 Cuando encuentres enlaces útiles en el curso, recuerda agregarlos a tus marcadores para que puedas consultar
después la información y estudiarla o revisarla.
VIDEO: Hallie: Datos fascinantes:

El cuidado de la salud es un área fascinante en los Estados Unidos. Es una industria realmente increíble para trabajar porque
es tan tradicional históricamente y las empresas de salud, a diferencia de otras empresas de tecnología, no han utilizado
realmente los datos para tomar decisiones basadas en la información. Cuando estaba en la universidad, tenía un profesor que
no quería que tuviéramos libros de texto porque decía que la industria del cuidado de la salud cambiaba muy rápidamente y,
por lo tanto, un libro de texto no tenía sentido ya que solo se trata de un texto estático mientras las cosas se encuentran en
constante evolución. Así que diría que el cuidado de la salud, los datos y ambos juntos forman un concepto más novedoso
utilizando macrodatos, utilizando aprendizaje automático e inteligencia artificial para ayudar a las industrias del cuidado de la
salud. Comencé a analizar grandes cantidades de datos de pacientes. Fue la primera vez que realmente trabajé con conjuntos
de datos tan enormes y encontré realmente fascinante que podamos tomar todos esos conjuntos de datos y sintetizarlos
para realmente permitirnos obtener algunas informaciones y tendencias interesantes para nuestros sistemas hospitalarios.
Fue la primera vez que comencé a pensar en el análisis de datos el análisis computacional de datos, como una posible carrera
para mí. Ello fue lo que realmente me trajo hasta este puesto de directora del análisis de datos en Google donde pude aplicar
mis conocimientos y conjunto de habilidades para analizar los conjuntos de datos a diario, de manera que cada conversación
que mantuviera con el cliente fuera una conversación basada en datos concretos. Trabajo dentro de la vertical del cuidado de
la salud. Tenemos empresas que utilizan comercialmente nuestras plataformas, tales como Google Search y YouTube. Las
ayudamos a comprender la industria del cuidado de la salud, de modo que puedan llegar mejor, comercialmente hablando, al
público que están intentando alcanzar. Cuando eres un asegurador de la industria de la salud o si eres un proveedor de
servicios de salud, puede ser un sistema hospitalario, las necesidades son diferentes respecto de cómo llegar al público
utilizando las plataformas de Google. Los ayudamos a optimizar su gasto en marketing, pero también realizamos mucha
investigación en la industria del cuidado de la salud. Algo de investigación sobre el usuario, algo de comprensión sobre cómo
realmente los usuarios están buscando en Google para darles un sondeo de lo que realmente está ocurriendo en la industria
y cómo pueden ser más eficientes comercialmente. Diría que mis habilidades técnicas con el análisis computacional de datos
se desarrolló con el tiempo. La habilidad más importante que encontré, que también llegó con el tiempo y fue creciendo
conmigo, es justamente el lado creativo del análisis de datos. Quiero decir, se puede aprender realmente mucho de las
habilidades de SQL y R y sé que algo de esto se incluye en el curso. Pero realmente, el lado creativo es algo que solo se
consigue con la experiencia. Cuando observamos un conjunto de datos, podemos mirarlos de una manera y analizarlos de
una manera y luego lo mira otra persona, o lo volvemos a mirar una semana después, y de pronto esa tendencia que
estábamos observando es completamente diferente. Hay que tomar todas esas piezas de información, esos bocaditos, como
me gusta llamarlos, y unirlos para formar una hermosa narración utilizando los datos. Esa habilidad es algo que he aprendido
cuando trabajaba en consultoría. y, la he trasladado a Google, donde realmente pude pulir muchas de esas habilidades y
algunas otras habilidades más técnicas. El costado técnico y creativo es el que he llegado a amar. Mi nombre es Hallie. Soy
directora de análisis de datos en Google y trabajo específicamente con la vertical del sistema de salud.
Decidir si tomar la vía rápida

En esta lectura se proporciona una descripción general de la vía rápida que ofrecemos a aquellos que están familiarizados
con el análisis computacional de datos.
Si eres nuevo en el análisis computacional de datos, puedes omitir el cuestionario de diagnóstico después de esta lectura y
pasar directamente a la siguiente actividad: Recopilación de datos en nuestro mundo.
El Certificado de análisis computacional de datos de Google es un programa para cualquier persona. No es necesario
contar con conocimientos previos sobre el análisis de datos, pero puede que ya tengas experiencia. Si eres este tipo de
alumno, hemos diseñado una vía rápida para este curso. Los alumnos que opten por la vía rápida pueden repasar los
temas básicos y completar cada uno de los desafíos semanales y el Desafío del curso más rápido.
Para ayudarte a decidir si te conviene tomar la vía rápida de este curso:
1. Realiza el cuestionario de diagnóstico opcional.

2. Consulta la guía de puntuación para determinar si te conviene tomar la vía rápida. Para la vía rápida, el objetivo
es una puntuación del 90% o más.
3. Según tu puntuación individual, sigue las recomendaciones de la guía de puntuación para los próximos pasos.
Recordatorio importante: aunque seas elegible para la vía rápida, deberás, de todas formas, completar todas las
actividades con calificación. Para obtener tu certificado, necesitarás una puntuación general del 80% o más en todo el
material con calificación del programa.
Marcar como completo
Me gusta
No me gusta
Informar de un problema
Recopilar Datos:
VIDEO: Recopilar datos en nuestro mundo
Justo ahora se están generando datos en todo el mundo y hablamos de toneladas de datos. Cada minuto de cada día millones
de textos son enviados y cientos de millones de correos electrónicos. Además de eso, se realizan millones de búsquedas en
línea y se miran millones de videos y esos números van en aumento. Son muchos datos. Aprendamos más acerca de cómo se
hacen y se utilizan. En este video, hablaremos sobre las formas en que los datos pueden generarse y cómo las industrias
recopilan datos por su propia cuenta. Cada pieza de información es un dato. Todos los datos se generan usualmente como
resultado de nuestra actividad en el mundo. Hoy en día, pasamos mucho tiempo en línea. Con las redes sociales y los
dispositivos móviles millones y millones de personas están agregando enormes cantidades de datos todos y cada uno de los
días. Piénsalo así. Cada foto digital en línea es una pieza de información. Cada foto en sí misma contiene todavía más datos,
desde la cantidad de píxeles hasta los colores que contiene cada uno de esos píxeles. Pero ese no es el único modo en que se
generan los datos. También se pueden generar datos al recolectar información. Esta generación de datos y su recolección
traen aparejadas algunas cosas más en que pensar. Necesita ser realizado teniendo en cuenta la ética, de modo de mantener
los derechos y la privacidad de las personas. Aprenderemos más al respecto más adelante. Por ahora, veamos un ejemplo del
mundo real. La Oficina del Censo de los Estados Unidos utiliza formularios para recolectar datos acerca de la población del
país. Estos datos son utilizados por distintas razones, como financiar escuelas, hospitales y cuarteles de bomberos. La Oficina
también recolecta información sobre otras cosas como las empresas estadounidenses, y crean sus propios datos en el
proceso. Lo mejor acerca de esto es que otros pueden utilizar los datos para sus propias necesidades, incluyendo el análisis.
La encuesta anual de empresas se utiliza para conocer las necesidades de las empresas y cómo brindarles los recursos
necesarios para ayudarlas a tener éxito. En realidad, yo genero datos en el análisis computacional de datos que realizo para la
industria de cuidado de la salud. Realizamos muchas encuestas para conocer cómo los pacientes se sienten acerca de ciertas
cosas relacionadas con el cuidado de su salud. Por ejemplo, una encuesta les preguntó a los pacientes cómo se sentían acerca
de la telemedicina comparada con las visitas en persona al médico. Los datos recolectados ayudaron a las empresas con las
que trabajamos a que mejorasen el cuidado que reciben los pacientes. Los datos de la encuesta son solo un ejemplo. Existen
todo tipos de datos que se generan todo el tiempo, y existen muchos modos diferentes de recolectarlos. Incluso algo tan
simple como una entrevista puede ayudar a alguien a recolectar datos. Imagínate que estás en una entrevista de trabajo. Para
impresionar al gerente de contrataciones, quieres compartir información acerca de ti mismo. El gerente de contrataciones
recolecta los datos y los analiza para que lo ayuden a decidir si te contratará o no. Es un camino de ida y vuelta. Tú también
recolectas tus propios datos acerca de la empresa para que te ayude a decidir si es la empresa que mejor se adapta a tus
necesidades. O puedes utilizar los datos recolectados para pensar preguntas más profundas que desees hacerle al
entrevistador. Los científicos también generan datos. Utilizan muchas observaciones en su trabajo. Por ejemplo, pueden
recolectar datos al estudiar el comportamiento animal u observando bacterias bajo el microscopio. Antes hablamos de los
formularios que la Oficina del Censo de los Estados Unidos utiliza para recolectar datos. Formularios, cuestionarios y
encuestas son formas usuales de recolectar y generar datos. Una cosa para destacar: los datos que son generados en línea no
siempre ocurren directamente. ¿Alguna vez se han preguntado por qué algunos avisos en línea parecen realizar sugerencias
realmente precisas o cómo algunos sitios web recuerdan tus preferencias? Esto se realiza utilizando cookies, que son
pequeños archivos guardados en computadoras que contienen información de los usuarios. Las cookies pueden ayudar a
informar a los publicitarios acerca de sus intereses personales y sus hábitos basándose en la navegación en línea, sin
identificarlos personalmente. Como analista del mundo real, tienes todo tipo de datos justo en la punta de los dedos y son
realmente abundantes. Saber cómo se han generado puede ayudar a agregar contexto a los datos, y saber cómo recopilarlos
puede hacer que el proceso de análisis de datos sea más eficiente. A continuación, aprenderás cómo decidir qué datos
recolectar para tu análisis. Mantente atento.
VIDEO: Determinar qué datos recoger

Hemos hablado mucho acerca de los datos que existen en el mundo. Pero como analista de datos, deberás decidir qué tipos
de datos recolectar y utilizar para cada proyecto. Con casi una cantidad infinita de datos disponibles, esto puede ser un
dilema de datos, pero hay buenas noticias. En este video aprenderás qué factores considerar al recolectar datos. Usualmente,
tendrás una ventaja al buscar los datos correctos para el trabajo porque los datos que necesitas te serán dados o tu problema
o tarea empresarial hará que tus opciones se reduzcan. Comencemos con una pregunta como ¿qué está causando mayor
caudal de vehículos en la hora pico en tu ciudad? Primero, debes saber cómo se recolectan los datos. Debes utilizar sus
observaciones acerca de los patrones de tráfico para contar la cantidad de autos en las calles de la ciudad durante horas
determinadas. Notas que los automóviles se quedan atascados en una calle específica. Esto nos lleva al origen de los datos.
En nuestro ejemplo sobre el tráfico, tus observaciones pueden ser datos de primera fuente. Estos datos son recolectados por
una persona o por un grupo por medio de sus propios recursos. Recopilar datos de primera fuente es típicamente el método
de preferencia porque sabes exactamente de dónde provienen. También puede haber datos de segunda fuente, que son
datos recolectados por un grupo directamente de su público y que, luego, se venden. En nuestro ejemplo, si no puedes
recopilar tus propios datos, puedes comprarlos de alguna organización que haya realizado estudios de patrones de tráfico en
tu ciudad. Estos datos no comenzaron contigo, pero aun así son confiables porque provienen de una fuente que tiene
experiencia en análisis de tráfico. No se puede decir siempre eso de datos de terceros o datos recolectados de fuentes
externas que no los recopilaron directamente. Estos datos pueden provenir de un amplio número de fuentes diferentes antes
de que los investigues. Pueden no ser tan confiables, pero no quiere decir que no puedan ser útiles. Quieres asegurarte de
controlar su su precisión, sesgo y credibilidad. En realidad, no importa qué tipo de datos utilices, deben ser controlados
respecto de la precisión y confiabilidad. Aprenderemos más sobre este proceso más tarde. Por ahora, solo recuerda que los
datos que elijas deben aplicarse a tus necesidades y deben estar aprobados para su uso. Como analista de datos, es tu
trabajo decidir qué datos utilizar y eso significa elegir los datos que puedan ayudarte a encontrar las respuestas que buscas y
resolver los problemas sin distraerte con otros datos. En nuestro ejemplo sobre el tráfico, los datos financieros
probablemente no serían tan útiles, pero los datos existentes acerca de los horarios de alto volumen de tráfico pueden serlo.
Ahora hablemos acerca de cuántos datos hay que recopilar. En el análisis computacional de datos, una población se refiere a
todos los valores de datos posibles en un cierto conjunto de datos. Si estás analizando datos acerca del tráfico vehicular en
una ciudad, tu población sería todos los automóviles en esa área. Pero recopilar datos de toda la población puede ser un gran
desafío. Por eso una muestra puede ser útil. Una muestra es una parte de la población que es representativa de la población.
Puedes recopilar una muestra de datos acerca de un lugar en la ciudad y analizar el tráfico en ese lugar, o puedes extraer una
muestra al azar de todos los datos existentes en la población. La forma de elegir la muestra dependerá de tu proyecto.
Cuando recopiles los datos, también querrás asegurarte de elegir el tipo correcto de datos. Para los datos sobre tráfico, el tipo
de datos adecuados podrían ser los datos de registro de tráfico archivados en formato de fecha. Las fechas te pueden ayudar
a ver qué días de la semana hay más posibilidades de un mayor volumen de tráfico en el futuro. Exploraremos este tema en
mayor detalle pronto. Para finalizar, debes determinar lo siguiente: el marco temporal para la recopilación de datos. En
nuestro ejemplo, si necesitas una respuesta inmediata, debes utilizar los datos históricos, es decir datos preexistentes. Pero
digamos que debes rastrear los patrones de tráfico en un período de tiempo extenso. Esto puede afectar las otras decisiones
que tomes durante la recolección de datos.
Ahora sabes más sobre las diferentes consideraciones sobre la recopilación de datos que utilizarás como analistas de datos,
Debido a ello, podrás encontrar los datos correctos cuando comiences a recopilarlos por ti mismo. Y todavía hay más para
aprender acerca de la recopilación de datos, así que mantente en sintonía.
Seleccionar los datos adecuados:

A continuación se exponen algunas consideraciones sobre la recopilación de datos que hay que tener en cuenta para el
análisis:
Cómo se recogerán los datos

Decide si vas a recopilar los datos con tus propios recursos o si los vas a recibir (y posiblemente comprar) de otra parte.
Los datos que tú mismo recoges se denominan datos de primera fuente.
Fuentes de datos:
Si no recoges los datos con tus propios recursos, puedes obtenerlos de proveedores de datos de segunda mano o de
terceros. Los datos de segunda fuente son recogidos directamente por otro grupo y luego vendidos. Los datos de terceros
son vendidos por un proveedor que no ha recogido los datos por sí mismo. Los datos de terceros pueden proceder de
distintas fuentes.
Resolver el problema empresarial:

Los conjuntos de datos pueden mostrar mucha información interesante. Pero asegúrate de elegir datos que realmente
puedan ayudar a resolver tu problema. Por ejemplo, si estás analizando tendencias a lo largo del tiempo, asegúrate de
utilizar datos de series temporales, es decir, datos que incluyan fechas.
Cuántos datos hay que recoger:

Si estás recogiendo tus propios datos, toma decisiones razonables sobre el tamaño de la muestra. Una muestra
aleatoria de los datos existentes puede estar bien para algunos proyectos. Otros proyectos pueden necesitar una
recogida de datos más estratégica para centrarse en determinados criterios. Cada proyecto tiene sus propias
necesidades.
Marco temporal:
Si estás recopilando tus propios datos, decide cuánto tiempo necesitarás para recopilarlos, especialmente si estás
haciendo un seguimiento de las tendencias durante un largo periodo de tiempo. Si necesitas una respuesta
inmediata, puede que no tengas tiempo para recoger datos nuevos. En este caso, tendrás que utilizar los datos
históricos que ya existen.
Utiliza el siguiente diagrama de flujo si la recogida de datos depende en gran medida del tiempo que tengas:
CUESTIONARIO:
Pregunta 1
¿Qué método de recopilación de datos es el más utilizado por los científicos?

1. Encuestas
2. Observaciones
3. Cuestionarios
4. Entrevistas
Correcto. La observación es el método de recopilación de datos más utilizado por los científicos.
Pregunta 2
Organizaciones como los Centros para el Control de Enfermedades (CDC) de EE. UU. suelen utilizar datos
recopilados en hospitales. ¿Qué tipo de datos utilizan los CDC si son recopilados por los hospitales y luego
vendidos a los CDC para su propio análisis?
1. Datos de primera fuente
2. Datos de múltiples fuentes
3. Datos de segunda fuente
4. Datos de terceros
Correcto.Los datos recopilados por los hospitales y luego recogidos por los CDC son un ejemplo de datos de segunda
fuente.
Pregunta 3
Completa el espacio en blanco: En el análisis computacional de datos, un/a _____ se refiere a todos los valores
de datos posibles en un determinado conjunto de datos.
1. Población
2. Fuente
3. Representación
4. Muestra
Correcto. En el análisis computacional de datos, una población se refiere a todos los valores de datos posibles en un
determinado conjunto de datos.
Diferenciar entre formatos y estructuras de datos:

Descubrir los formatos de datos:
No sé qué te sucede a ti, pero cuando estoy eligiendo una película para ver, algunas veces me quedo frenada entre un par de
películas posibles. Si estoy de humor para emoción o suspenso puede ser que elija una de misterio y suspenso, pero si me
quiero reír con ganas, elegiré una comedia. Cuando no puedo decidirme entre dos películas, hasta puedo utilizar algunas de
mis habilidades de análisis de datos y así compararlas o contrastarlas. Piensa en ello, que realmente necesitamos más
películas sobre analistas de datos. La miraría, pero como no disponemos de películas acerca de los datos, al menos no
todavía, haremos algo mucho mejor: ¡miraremos los datos acerca de las películas! Vamos a observar esta hoja de cálculo con
datos sobre películas. Sabemos que podemos comparar diferentes películas y géneros. Y resulta que podemos hacer lo
mismo con datos y formatos de datos. Usemos la hoja de cálculo con datos de películas para comprender cómo funciona.
Comenzaremos con los datos tanto cuantitativos como cualitativos, Si miramos la columna A, encontraremos los títulos de las
películas. Estos datos son cualitativos porque se pueden contar, medir o expresarse fácilmente con números. Los datos
cualitativos son colocados normalmente en listados como un nombre, una categoría o una descripción. En nuestra hoja de
cálculo, los títulos de las películas y los miembros del elenco son datos cualitativos. A continuación vemos los datos
cuantitativos, que pueden medirse o contarse y luego expresarse como un número. Este dato cuenta con una cierta cantidad,
monto o rango. En nuestra hoja de cálculo aquí, las dos últimas columnas muestran el presupuesto de las películas y la
recaudación de taquilla. Los datos en estas columnas se expresan en dólares, que pueden contarse, de modo que sabemos
que es un dato cuantitativo. Podemos profundizar en los datos cuantitativos y desglosarlos en datos discretos o continuos.
Veamos primero los datos discretos. Estos son datos que se cuentan y tienen una cantidad de valores limitada. Volviendo a la
hoja de cálculo, veremos el presupuesto de cada película y la recaudación de taquilla en las columnas M y N. Estos son dos
ejemplos de que los datos discretos pueden ser contados y tienen una cantidad de valores limitada. Por ejemplo, la cantidad
de dinero que puede recaudar una película puede ser solo representada con exactamente dos dígitos después del decimal
para representar los centavos. No puede haber nada entre uno y dos centavos. Los datos continuos pueden medirse
utilizando un cronómetro y su valor se puede mostrar como un decimal con varias posiciones. Imaginemos una película sobre
analistas de datos de la que seré la protagonista definitivamente algún día. Podemos expresar que la película dura 110.0356
minutos. Hasta se podrían agregar datos fraccionarios luego de la coma del decimal de ser necesario. También existen datos
nominales y ordinales. Los datos nominales son un tipo de datos cualitativos que se categorizan sin ningún orden
establecido. En otras palabras, estos datos no tienen una secuencia. Aquí va un ejemplo rápido. Digamos que estás reuniendo
datos sobre películas. Le preguntas a la gente si han visto una determinada película. Sus respuestas irían en el formulario de
datos nominales. Pueden responder "sí", "no" o "no estoy seguro". Estas opciones no tienen un orden en particular. Por otro
lado, los datos ordinales son un conjunto de datos cualitativos con un orden o escala preestablecidos. Si le preguntan a un
grupo de gente que califiquen la película del 1 a 5 algunos la calificarán con 2, otros con 4 y así. Estas calificaciones indican
cuánto le gustó la película a cada persona.
Ahora, hablemos de los datos internos. que son los datos que viven dentro de los propios sistemas de una empresa. Por
ejemplo, si un estudio cinematográfico ha compilado todos los datos en la hoja de cálculo utilizando su propio método de
recolección, entonces serían sus datos internos. Lo importante de los datos internos es que por lo general son más confiables
y fáciles de recolectar, pero en esta hoja de cálculo hay más posibilidades de que el estudio cinematográfico deba utilizar
datos propios o compartidos por otros estudios y fuentes porque incluyen películas que ellos no han filmado. Esto significa
que estarían recolectando datos externos. Los datos externos son, ya lo adivinaron, datos alojados y generados fuera de una
organización. Los datos externos se tornan especialmente valiosos cuando tus análisis dependen de todas las fuentes
disponibles posibles. Algo importante acerca de estos datos es que son estructurados. Los datos estructurados son datos que
se organizan en un formato determinado, como filas y columnas. Las hojas de cálculo y las bases de datos relacionales son
dos ejemplos de software que pueden almacenar datos de modo estructurado. Podrás recordar nuestra exploración anterior
sobre el pensamiento estructurado, que colabora sumando un framework al problema de modo que puede resolverse de
modo organizado y lógico. Puedes pensar en los datos estructurados del mismo modo. Con un framework para los datos, los
datos son fácilmente rastreables y están más preparados para el análisis. Como analista de datos, trabajarás con muchos
datos estructurados, que usualmente vendrán en forma de tabla, hoja de cálculo o base de datos relacional, pero a veces te
encontrarás con datos no estructurados. Estos datos no están organizados de una forma fácilmente identificable. Los
archivos de audio y video son ejemplos de datos no estructurados porque no hay un modo claro para identificar y organizar el
contenido. Los datos no estructurados pueden contar con una estructura interna, pero los datos no se ubican prolijamente en
filas y columnas como los datos estructurados.
¡Ahí lo tienes! Espero que ahora estés más familiarizado con los formatos de datos y cómo puedes usarlos en tu trabajo. En
breve, continuarás explorando los datos estructurados y aprenderás aún más de los datos que utilizarás más frecuentemente
como analista. Próximamente en el cine más cercano a ti.
Los formatos de datos en la práctica
Cuando se piensa en la palabra "formato", pueden venir a la mente muchas cosas. Piensa en un anuncio de tu tienda
favorita. Podrías encontrarlo en forma de anuncio impreso, en una valla publicitaria o incluso en un comercial. La
información se presenta en el formato que mejor te convenga para asimilarla. El formato de un conjunto de datos es
muy parecido, y la elección del formato adecuado te ayudará a gestionar y utilizar tus datos de la mejor manera posible.
Ejemplos de formatos de datos

Como ocurre con la mayoría de las cosas, es más fácil que las definiciones encajen cuando podemos emparejarlas con
ejemplos de la vida real. Revisa primero cada definición y luego utiliza los ejemplos para afianzar tu comprensión de
cada formato de datos.
Primarios vs secundarios
la siguiente tabla destaca las diferencias entre los datos primarios y secundarios y los ejemplos de cada uno de ellos
Clasificación del
Definición Ejemplos
formato de datos
Recogidos por un investigador - Datos de una entrevista que has realizado - Datos de una encuesta
Datos primarios a partir de fuentes de primera realizada a 20 participantes - Datos de cuestionarios que has recibido
mano de un grupo de trabajadores
Recogidos por otras personas - Datos que compró de los perfiles de clientes de una empresa local d
Datos secundarios o a partir de otras análisis computacional de datos - Datos demográficos recogidos por
investigaciones una universidad - Datos del censo recogidos por el gobierno federal
Internos versus externos
la siguiente tabla destaca las diferencias entre los datos internos y externos y los ejemplos de cada uno de ellos
Clasificación del
formato de datos
Datos alojados en los -Salarios de los empleados de las distintas unidades de negocio
Datos internos sistemas propios de una controlados por RR. HH. - Datos de ventas por ubicación de la tienda -
empresa Niveles de inventario de productos en los centros de distribución
Datos que viven fuera de
- Salarios medios nacionales para los distintos puestos de su organización
Datos externos una empresa u
- Informes de crédito de los clientes de un concesionario de automóviles
organización
Continuos versus discretos
la siguiente tabla destaca las diferencias entre los datos continuos y discretos y los ejemplos de cada uno de ellos
Clasificación del
formato de datos
Datos que se miden y que pueden - Altura de los niños en las clases de tercer grado (52,5 pulgadas
Datos continuos tener casi cualquier valor 65,7 pulgadas) - Marcadores de tiempo de ejecución en un video
numérico - Temperatura
Datos discretos Datos que se cuentan y tienen un - Cantidad de personas que visitan un hospital a diario (10, 20,
Clasificación del
formato de datos
200) - Capacidad máxima permitida de la sala - Entradas
número limitado de valores
vendidas en el mes en curso
Cualitativos versus cuantitativos
la siguiente tabla destaca las diferencias entre los datos cualitativos y cuantitativos y los ejemplos de cada uno de ellos
Clasificación del
formato de datos
- Actividad física que más se disfruta - Marcas favoritas de
Medidas subjetivas y explicativas
Cualitativos los clientes más fieles - Preferencias de moda de los adultos
de cualidades y características
jóvenes
- Porcentaje de médicos certificados que son mujeres -
Medidas específicas y objetivas de
Cuantitativos Población de elefantes en África - Distancia de la Tierra a
hechos numéricos
Marte
Nominal versus Ordinal
la siguiente tabla destaca las diferencias entre los datos nominales y ordinales y los ejemplos de cada uno de ellos
Clasificación del
formato de datos
Un tipo de datos cualitativos que - Cliente nuevo, cliente que vuelve, cliente habitual - Nuevo
Nominales no se categoriza con un orden solicitante de empleo, solicitante existente, solicitante interno -
establecido Nuevo listado, listado de precio reducido, ejecución hipotecaria
Un tipo de datos cualitativos - Calificaciones de películas (cantidad de estrellas: 1 estrella, 2
Ordinales con un orden o escala estrellas, 3 estrellas) - Selecciones de votación por orden (1º, 2º, 3º)
preestablecidos Nivel de ingresos (ingresos bajos, ingresos medios, ingresos altos)
Estructurados versus no estructurados
la siguiente tabla destaca las diferencias entre los datos estructurados y no estructurados y los ejemplos de cada uno
de ellos
Clasificación del formato

de datos
Datos organizados de cierta forma, por - Informes de gastos - Declaraciones de
Datos estructurados
ejemplo, en filas y columnas impuestos - Inventario de tiendas
Datos que no se organizan de forma que sea - Mensajes de redes sociales - Correos
Datos no estructurados
fácil identificarlos electrónicos - Videos
VIDEO: Entender los datos estructurados

¡Qué bueno volver a verte! Anteriormente, comparamos algunos formatos de datos, incluyendo datos estructurados y datos
no estructurados. La mayoría de los datos que se están generando ahora mismo son en realidad no estructurados. Archivos
de audio, video, correos electrónicos, fotografías y redes sociales son todos ejemplos de datos no estructurados. Esto puede
ser difícil de analizar en su formato no estructurado. Pero hay buenas noticias: vas a trabajar con datos estructurados la
mayor parte del tiempo. Por ejemplo, si necesitas analizar datos de los datos no estructurados en correos electrónicos,
fotografías y sitios de redes sociales, estarán seguramente estructurados para su análisis aun antes de que llegues a ellos.
Debido a eso, quisiera explorar un poco más los datos estructurados. Como un repaso rápido, los datos estructurados son
datos organizados en un formato de filas y columnas. Pero definitivamente no se limitan a eso. Los datos estructurados
trabajan muy bien dentro de un modelo de datos, que es un modelo utilizado para organizar los elementos de datos y la
forma en que se relacionan entre ellos. ¿Qué son los elementos de datos? Son piezas de información, tales como nombres de
personas, números de cuentas y direcciones. Los modelos de datos contribuyen a mantener la coherencia de los datos y
brindan un mapa de cómo se organizan esos datos. Esto hace que sea más fácil para los analistas y otros interesados
encontrar sentido a sus datos y utilizarlos con propósitos empresariales. Además de trabajar bien con modelos de datos, los
datos estructurados también son útiles para las bases de datos. Esto facilita la tarea de los analistas de ingresar, consultar y
analizar los datos dondequiera que lo necesiten. También contribuye a la visualización de los datos en forma más sencilla, ya
que los datos estructurados pueden aplicarse directamente a las tablas, los gráficos, mapas térmicos, paneles y la mayoría de
las representaciones visuales de los datos. Entonces bien, sabemos que las hojas de cálculo y las bases de datos que
almacenan los conjuntos de datos son fuentes frecuentes de datos estructurados. Luego de explorar otras estructuras de
datos, observarás más tipos de datos utilizando una hoja de cálculo. ¡La aventura continúa!
La estructura de los datos

Los datos están en todas partes y pueden almacenarse de muchas maneras. Las categorías de datos generales son
dos:
 Datos estructurados: Datos organizados de cierta forma, por ejemplo, en filas y columnas
 Datos no estructurados: No organizados de ninguna manera fácil de identificar.
Por ejemplo, cuando calificas tu restaurante favorito en línea, estás creando datos estructurados. Pero cuando utilizas
Google Earth para ver una imagen por satélite de la ubicación de un restaurante, estás utilizando datos no
estructurados.
A continuación, te recordamos las características de los datos estructurados y no estructurados:
Datos estructurados Datos no estructurados

Tipos de datos definidos Tipos de datos variados
Datos más a menudo
Datos más a menudo cuantitativos
cualitativos
Fáciles de organizar Difíciles de buscar
Fáciles de buscar Proporcionan más libertad de análisis
Almacenados en lagos de datos, almacenes de datos y bases de datos
Fáciles de analizar
NoSQL
Almacenados en bases de datos relacionales y
No se pueden poner en filas y columnas
almacenes de datos
Ejemplos: Mensajes de texto, comentarios en redes sociales,
Contenidos en filas y columnas transcripciones de llamadas telefónicas, diversos archivos de registro,
imágenes, audio, video
Ejemplos: Excel, Google Sheets, SQL, datos de
clientes, registros telefónicos, historial de
transacciones
Datos estructurados
Como hemos descrito anteriormente, los datos estructurados se organizan en un formato determinado. Esto facilita su
almacenamiento y consulta para las necesidades de la empresa. Si los datos se exportan, la estructura va junto con los
datos.
Datos no estructurados
Los datos no estructurados no pueden ser organizados de una manera fácil de identificar. Y en el mundo hay muchos
más datos no estructurados que estructurados. Los archivos de video y audio, los archivos de texto, el contenido de las
redes sociales, las imágenes por satélite, las presentaciones, los archivos PDF, las respuestas a encuestas abiertas y
los sitios web son todos ellos tipos de datos no estructurados.
El problema de la equidad
La falta de estructura hace que los datos no estructurados sean difíciles de buscar, gestionar y analizar. Pero los
recientes avances en inteligencia artificial y algoritmos de aprendizaje automático están empezando a cambiar esta
situación. Ahora, el nuevo reto al que se enfrentan los científicos de datos es asegurarse de que estas herramientas
sean inclusivas e imparciales. De lo contrario, ciertos elementos de un conjunto de datos estarán más ponderados y/o
representados que otros. Y como estás aprendiendo, un conjunto de datos no equitativo no representa con exactitud a
la población, causando resultados sesgados, bajos niveles de precisión y análisis poco fiables.
Niveles y técnicas de modelado de datos

Esta lectura presenta el modelado de datos y los diferentes tipos de modelos de datos. Los modelos de datos ayudan a
mantener la consistencia de los datos y permiten a las personas trazar un mapa de cómo se organizan. Una
comprensión básica facilita a los analistas y a otros interesados dar sentido a sus datos y utilizarlos de forma correcta.
Nota importante: Como analista de datos junior, no se te pedirá que diseñes un modelo de datos. Pero es posible que
te encuentres con modelos de datos existentes en tu organización.
¿Qué es el modelado de datos?

El modelado de datos es el proceso de creación de diagramas que representan visualmente cómo se organizan y
estructuran los datos. Estas representaciones visuales se llaman modelos de datos. Se puede pensar en el modelado de
datos como en el plano de una casa. En un momento dado, puede haber electricistas, carpinteros y fontaneros
utilizando ese plano. Cada uno de estos constructores tiene una relación diferente con el plano, pero todos lo necesitan
para entender la estructura general de la casa. Los modelos de datos son similares; los distintos usuarios pueden tener
necesidades de datos diferentes, pero el modelo de datos les permite comprender la estructura en su conjunto.
Niveles de modelado de datos:

Cada nivel de modelado de datos tiene un nivel de detalle diferente.
Los tres tipos más comunes de modelado de datos:
1. El modelado conceptual de datos ofrece una visión de alto nivel de la estructura de datos, como la forma en que
los datos interactúan en una organización. Por ejemplo, un modelo de datos conceptual puede utilizarse para
definir los requisitos comerciales de una nueva base de datos. Un modelo de datos conceptual no contiene
detalles técnicos.
2. El modelo de datos lógico se centra en los detalles técnicos de una base de datos, como las relaciones, los
atributos y las entidades. Por ejemplo, un modelo de datos lógico define cómo se identifican los registros
individuales en una base de datos. Pero no detalla los nombres reales de las tablas de la base de datos. Ese es
el trabajo de un modelo de datos físico.
3. El modelo de datos físico describe el funcionamiento de una base de datos. Un modelo de datos físico define
todas las entidades y atributos utilizados; por ejemplo, incluye los nombres de las tablas, los nombres de las
columnas y los tipos de datos de la base de datos.
Se puede encontrar más información en esta comparación de modelos de datos.
Técnicas de modelado de datos
Hay muchos enfoques a la hora de desarrollar modelos de datos, pero dos métodos comunes son el Diagrama de
Relación de Entidades (ERD) y el diagrama del Lenguaje Unificado de Modelado (UML). Los ERD son una forma visual
de entender la relación entre las entidades del modelo de datos. Los diagramas UML son diagramas muy detallados
que describen la estructura de un sistema mostrando las entidades, los atributos, las operaciones y las relaciones del
sistema. Como analista de datos junior, tendrás que entender que existen diferentes técnicas de modelado de datos,
pero en la práctica, probablemente utilizarás la técnica existente en tu organización.
Puedes leer más sobre ERD, UML y diccionarios de datos en este artículo sobre técnicas de modelado de datos.
Análisis de datos y modelado de datos

El modelado de datos puede ayudarte a explorar los detalles de alto nivel de tus datos y cómo se relacionan en los
sistemas de información de la organización. El modelado de datos a veces requiere un análisis de datos para entender
cómo se reúnen los datos; de esta manera, se sabe cómo mapear los datos. Por último, los modelos de datos facilitan
la comprensión de los datos por parte de todos los miembros de la organización y la colaboración con ellos. ¡Esto es
importante para ti y para todos los miembros de tu equipo!
CUESTIONARIO:
Pregunta 1
Completa el espacio en blanco: El tiempo de duración de una película es un ejemplo de datos _____.
1. discretos
2. continuos
3. cualitativos
4. nominales
Correcto. Los tiempos de duración de las películas son un ejemplo de datos continuos, que se miden y pueden tener
casi cualquier valor numérico.
Pregunta 2
¿Cuáles son las características de los datos no estructurados? Selecciona todas las opciones que
correspondan.
0.75 / 1 punto
 Tienen una estructura claramente identificable

 Pueden tener una estructura interna
 Se ajustan perfectamente a las filas y columnas
 No están organizados. Correcto. Los datos no estructurados no están organizados, aunque pueden tener una
estructura interna.
No seleccionaste todas las respuestas correctas
Pregunta 3
Los datos estructurados permiten agrupar los datos para formar relaciones. ¿Esto facilita a los analistas hacer
qué con los datos? Selecciona todas las opciones que correspondan.
Buscar .Correcto. Los datos estructurados que se agrupan para formar relaciones permiten a los analistas almacenar,
buscar y analizar los datos más fácilmente.
Reescribir
Almacenar. Correcto. Los datos estructurados que se agrupan para formar relaciones permiten a los analistas
almacenar, buscar y analizar los datos más fácilmente.
Analizar. Correcto. Los datos estructurados que se agrupan para formar relaciones permiten a los analistas almacenar,
buscar y analizar los datos más fácilmente.
Pregunta 4
¿Cuál de los siguientes es un ejemplo de datos no estructurados?

1. Contacto guardado en un teléfono
2. Mensaje de correo electrónico
3. Ubicación GPS
4. Valoración de un restaurante local favorito
Correcto. Un ejemplo de datos no estructurados es un mensaje de correo electrónico. Otros ejemplos de datos no
estructurados son los archivos de video y el contenido de las redes sociales.
Explorar los tipos de datos, campos y valores:

VIDEO: Conocer el tipo de datos con el que trabajas
Hasta ahora han aprendido mucho acerca de los datos. Desde datos generados, pasando por datos recopilados hasta formato
de datos, es bueno saber todo lo posible acerca de los datos que utilizarás para el análisis. En este video, hablaremos sobre
otro modo en que se pueden describir los datos: el tipo de dato. Un tipo de dato es una clase específica de atributo de datos
que nos dice qué tipo de valor tiene ese dato. En otras palabras, un tipo de datos te indica con qué clase de datos estás
trabajando. Los tipos de datos pueden ser diferentes dependiendo del lenguaje de consulta que estás utilizando. Por ejemplo,
SQL permite tipos diferentes de datos dependiendo de la base de datos que utilices. Sin embargo, por ahora nos
concentraremos en los tipos de datos que utilizarás en las hojas de cálculo. Para ayudarnos, utilizaremos una hoja de cálculo
que ya esté completa con datos. La llamaremos "Interés mundial en los dulces a través de las búsquedas en Google". Bien, un
tipo de dato en una hoja de cálculo puede ser una de tres cosas: un número, un texto o cadena o datos booleanos. Podrán
encontrar programas para hojas de cálculo que los clasifica de forma algo diferente o incluye otros tipos, pero esos tipos de
valores cubren casi todos los datos que encontrarán en una hoja de cálculo. Veremos todo esto en un momento. Si miramos
las columnas B, D y F encontraremos tipos de datos numéricos. Cada número representa el interés en la búsqueda del
término "pastelillo", "helado" y "caramelo" para una semana específica. Cuanto más cerca está un número de 100, más
popular fue ese término de búsqueda durante esa semana. Cien representa el pico de popularidad. Recuerden que en este
caso, 100 es un valor relativo, no la cantidad real de búsquedas. Representa el número máximo de búsquedas durante un
cierto tiempo. Piensa en ello como un porcentaje en una prueba. Todas las otras búsquedas se valúan también respecto de
100. Puedes notar esto en otros conjuntos de datos también. ¡Estrella de oro para el 100! Si es necesario, puedes cambiar los
números a porcentajes y otros formatos, como moneda. Todos estos son ejemplos de tipos de datos numéricos. En la
columna H, los datos muestran la delicia más popular para cada semana, según los datos de búsqueda. Así es como
encontraremos que en la celda H4 para la semana que comienza el 28 de julio de 2019, la delicia más popular fue el helado.
Esto es un ejemplo de un tipo de dato de texto, o un tipo de datos en cadena, que es una secuencia de caracteres y
puntuación que contiene información textual. En este ejemplo, esa información serían las delicias y los nombres de las
personas. También se pueden incluir números como números telefónicos o números en las direcciones. Pero esos números
no se utilizarían para los cálculos. En este caso, se tratan como texto y no como número. En las columnas C, E y G, parece que
tenemos algo de texto. Pero el texto aquí no es un tipo de dato de texto o cadena. Por el contrario, es un tipo de dato
booleano. Un tipo de dato booleano es un tipo de datos con solo dos valores posibles, verdadero o falso. Las columnas C, E y
G muestran datos booleanos por si el interés de búsqueda para cada semana es menor a 50 de 100. Así es como funciona.
Para obtener estos datos, hemos creado una fórmula que calcula si el dato de interés de búsqueda en las columnas B, D y F es
50 o mayor. En la celda B4, el interés de búsqueda es 14. En la celda C4, encontramos la palabra falso porque, para esta
semana de datos, el interés de búsqueda es menor a 50. Para cada celda en las columnas C, E, y G, los dos únicos valores
posibles son verdadero o falso. Podríamos cambiar la fórmula de manera que aparezcan otras palabras en esas celdas, pero
aun así serían datos booleanos. Podrás leer más sobre datos booleanos muy pronto. Hablemos de un tema común que la
gente encuentra en las hojas de cálculo: confundir tipos de datos con valores de celdas. Por ejemplo, en la celda B57,
podemos crear una fórmula para calcular datos en otras celdas. Esto nos dará un promedio de los intereses de búsqueda en
pastelillos en todas las semanas del conjunto de datos, que es aproximadamente 15. La fórmula funciona porque hemos
calculado usando un tipo de dato numérico. Pero si tratáramos con un tipo de dato de texto o cadena, como el dato en la
columna C, nos daría error. Los valores de error ocurren normalmente si el error se da cuando se ingresan los valores en las
celdas. Cuanto más sepas de tus tipos de datos y cuáles utilizar, se reducirán los errores. Así es, hay un tipo de dato para cada
uno. Pero aún no hemos terminado. A continuación, profundizarás en la relación entre tipos de datos, campos y valores. Nos
vemos pronto.
Entender la lógica booleana:

En esta lectura, explorarás los fundamentos de la lógica booleana y aprenderás a usar múltiples condiciones en una
expresión booleana. Estas condiciones se crean con operadores booleanos, incluyendo Y, O y NO. Estos
operadores son similares a los operadores matemáticos y pueden utilizarse para crear expresiones lógicas que filtren
los resultados. Los analistas de datos utilizan las expresiones booleanas para realizar una amplia gama de tareas de
análisis de datos, como la creación de consultas para búsquedas y la comprobación de condiciones al escribir código
de programación.
Ejemplo de lógica booleana
Imagina que estás comprando unos zapatos, y estás considerando ciertas preferencias:
 Comprarás los zapatos solo si son rosas y grises

 Comprarás los zapatos si son totalmente rosas o totalmente grises, o si son rosas y grises
 Comprarás los zapatos si son grises, pero no si tienen algo de rosa
A continuación hay diagramas de Venn que ilustran estas preferencias. Y es el centro del diagrama de Venn, donde se
superponen dos condiciones. O incluye cualquiera de las dos condiciones. NO incluye solo la parte del diagrama de
Venn que no contiene la excepción.
El operador Y:
Tu condición es “Si el color del zapato tiene cualquier combinación de gris y rosa, lo comprarás”. La expresión booleana
descompondría la lógica de esa declaración para filtrar sus resultados por ambos colores. Diría “SI (Color=“Gris”) Y
(Color=“Rosa”) entonces cómpralos”. El operador Y le permite acumular múltiples condiciones.
A continuación se muestra una tabla de verdad simple que resume la lógica booleana en el trabajo en esta expresión.
En la columna Color es Gris, hay dos pares de zapatos que cumplen la condición de color. En la columna Color es Rosa,
hay dos pares de zapatos que cumplen tal condición. Pero en la columna Si es Gris Y Rosa, solo hay un par de zapatos
que cumple ambas condiciones. Por lo tanto, según la lógica booleana de la declaración, solo hay un par marcado
como verdadero. En otras palabras, hay un par de zapatos que puedes comprar.
Color es Gris Color es Rosa Si es Gris Y Rosa, entonces comprar Lógica booleana
Gris/verdadero Rosa/verdadero Verdadero/comprar Verdadero Y verdadero = Verdadero
Gris/verdadero Negro/falso Falso/No comprar Verdadero Y Falso = Falso
Rojo/Falso Rosa/verdadero Falso/No comprar Falso Y Verdadero = Falso
Rojo/Falso Verde/Falso Falso/No comprar Falso Y Falso = Falso
El operador O
El operador O te permite avanzar si se cumple una de tus dos condiciones. Tu condición es “Si los zapatos son grises o
rosas, los comprarás”. La expresión booleana sería “SI (Color=“Gris”) O (Color=“Rosa”) entonces cómpralos”. Observa
que cualquier zapato que cumpla la condición Color es Gris o Color es Rosa es marcado como verdadero por la lógica
booleana. Según la tabla de verdad de abajo, hay tres pares de zapatos que puedes comprar.
Color es Gris Color es Rosa Si es Gris O Rosa, entonces comprar Lógica booleana
Rojo/Falso Negro/falso Falso/No comprar Falso O Falso = Falso
Negro/falso Rosa/verdadero Verdadero/comprar Falso O Verdadero = Falso
Gris/verdadero Verde/Falso Verdadero/comprar Verdadero O Falso = Verdadero
Gris/verdadero Rosa/verdadero Verdadero/comprar Verdadero O Verdadero = Verdadero
El operador NO
Por último, el operador NO te permite filtrar restando condiciones específicas de los resultados. Tu condición es
"Comprarás cualquier zapato gris excepto los que tengan algún rastro de rosa". La expresión booleana sería “SI
(Color="Gris") Y (Color=NO “Rosa”) entonces cómpralos”. Ahora, todos los zapatos grises que no son rosas son
marcados como verdaderos por la lógica booleana para la condición NO Rosa. Los zapatos rosas son marcados como
falsos por la lógica booleana para la condición NO Rosa. Solo un par de zapatos está excluido en la tabla de verdad de
abajo.
Lógica booleana para Si es Gris Y (NO Rosa), entonces

Color es Gris Color es Rosa Lógica booleana
NO Rosa comprar
Verdadero Y verdadero =
Gris/verdadero Rojo/Falso No Falso = Verdadero Verdadero/comprar
Verdadero
Lógica booleana para Si es Gris Y (NO Rosa), entonces
Color es Gris Color es Rosa Lógica booleana
NO Rosa comprar
Gris/verdadero Negro/falso No Falso = Verdadero Verdadero/comprar
Verdadero
Gris/verdadero Verde/Falso No Falso = Verdadero Verdadero/comprar
Verdadero
Gris/verdadero Rosa/verdadero No Verdadero = Falso Falso/No comprar Verdadero Y Falso = Fals
El poder de las condiciones múltiples:
Para los analistas de datos, el verdadero poder de la lógica booleana proviene de la posibilidad de combinar múltiples
condiciones en una sola expresión. Por ejemplo, si quieres filtrar los zapatos grises o rosas, y que sean impermeables,
podrías construir una declaración booleana como: “SI ((Color = “Gris”) O (Color = “Rosa”)) Y
(Impermeable=“Verdadero”)”. Observa que puedes utilizar paréntesis para agrupar tus condiciones.
Ya sea que estés haciendo una búsqueda de zapatos nuevos o aplicando esta lógica a tus consultas de base de datos,
la lógica booleana te permite crear múltiples condiciones para filtrar tus resultados. Y ahora que sabes un poco más
sobre cómo se usa la lógica booleana, ¡puedes empezar a usarla!
Lectura adicional/recursos:
 Aprende sobre quién fue el pionero de la lógica booleana en este artículo histórico: Orígenes del Álgebra
Booleana en la Lógica de Clases.
 Encuentra más información sobre el uso de Y, O y NO en estos consejos para buscar con operadores
booleanos.
VIDEO: Componentes de la tabla de datos
Te traigo un acertijo. ¿Qué tienen en común una lista de reproducción, un calendario y una bandeja de entrada de correo
electrónico? Te daré una pista. No se trata de una sesión semanal de improvisación. La respuesta es que todo viene
organizado en tablas. Ve y compruébalo en tu casilla de correo o una lista de reproducción favorita o mira tu agenda
calendario. ¡Hay tablas en cada uno! Una tabla de datos, o datos tabulares, tiene una estructura muy simple. Está organizada
en filas y columnas. Puedes llamar a las filas "registros" y a las columnas "campos". Básicamente quieren decir lo mismo,
pero los registros y campos se pueden usar para cualquier tipo de tabla de datos, mientras que las filas y las columnas se
reservan usualmente para las hojas de cálculo. Cuando hablamos de bases de datos estructuradas, las personas que realizan
análisis computacional de datos suelen usar "registros" y "campos". Algunas veces, un campo también se puede referir a un
solo dato, como el valor en una celda. En todo caso, escucharás las dos versiones de esos términos en todo este programa y
en tu trabajo. Volvamos al ejemplo de la lista de reproducción. Utilizaremos los términos nuevos que acabamos de
mencionar. De modo que cada canción es un registro. Cada registro tiene los mismos campos que los otros registros y en el
mismo orden. En otras palabras, la lista de reproducción tiene la misma información acerca de cada canción.
Cada característica de la canción, como el título y el artista, es un campo. Cada campo por separado tiene el mismo tipo de
dato, pero diferentes campos pueden tener diferentes tipos. Te mostraré a qué me refiero. Para la lista de canciones, los
títulos de las canciones son un tipo de texto o cadena, mientras que la duración de la canción puede ser de tipo numérico si
lo estás utilizando para tus cálculos. O puede ser del tipo fecha y hora. La columna de favoritos es booleana, ya que tiene dos
posibles valores: favorita o no favorita. Podemos ver las hojas de cálculo del mismo modo. Los registros en una hoja de
cálculo pueden ser acerca de todo tipo de cosas: clientes, productos, facturas o cualquier otra cosa. Cada registro tiene varios
campos que revelan más acerca de los productos o facturas de los clientes. El valor en cada celda contiene un dato específico,
como la dirección de un cliente o el valor en dólares de una factura. Como analista de datos, muchos datos te llegarán y los
registros, campos y valores en las tablas de datos te ayudarán a navegar por el análisis. Comprender las estructuras de las
tablas con las que estás trabajando es una parte de ello. Y esperemos que mientras trabajas duro en tu análisis y esas tablas,
puedas divertirte un poco con una tabla de datos diferente: ¡la que tiene tu lista de reproducción favorita!
VIDEO: Conocer los datos en formato ancho y largo

Probablemente utilizas las palabras "ancho" y "largo" todo el tiempo. Utilizarías la palabra "ancho" para describir el tamaño
de algo de lado a lado, como un río ancho. Pero un río también puede viajar grandes distancias, de modo que también se lo
puede llamar "largo". ¡Espera! Antes de detener el vídeo, te aseguro que no pulsaste accidentalmente en el curso
equivocado. No estoy acá para enseñarte palabras que ya conoces. Pero las palabras "ancho" y "largo" se pueden utilizar para
describir datos también. Así que estoy aquí para ayudarte a entender los datos en formato ancho y los datos en formato
largo. Hasta ahora has tratado con datos organizados en su mayoría en un formato ancho. Con los datos en formato ancho,
cada interesado tiene una fila sola con múltiples columnas para albergar los valores de varios atributos del interesado. Existen
datos en formato ancho en una hoja de cálculo. Recordarás que hablamos de estos datos acerca de la población de países
latinos y del Caribe anteriormente. Para este conjunto de datos, cada fila brinda toda la información de la población de un
país. Cada columna muestra la población para un año diferente.
Los datos anchos permiten una fácil identificación y una rápida comparación de las diferentes columnas. En nuestro ejemplo,
los datos están organizados alfabéticamente por país, de modo que se pueden comparar las poblaciones anuales de Antigua
y Barbuda, Aruba y las Bahamas solo controlando los valores en cada columna. Los datos en formato ancho también
simplifican la búsqueda y comparación de las poblaciones de los países en períodos diferentes de tiempo. Por ejemplo, al
ordenar los datos descubrimos que Brasil tenía la mayor población de todos los países en 2010 y que la Islas Vírgenes
Británicas tenían la menor población de todos los países en 2013. Bien, exploremos ahora estos datos en formato largo. Aquí
los datos ya no están organizados en columnas por año. Todos los años están ahora en una columna con cada país, como
Argentina, que aparece en filas múltiples, una para cada año de datos. Así se ven normalmente los datos en formato largo.
Los datos en formato largo en cada fila representan un punto de tiempo único por interesado, de modo que cada interesado
tendrá datos en filas múltiples. Nuestra hoja de cálculo se formatea para mostrar cada año de datos de la población.
Aquí vemos a Antigua y Barbuda primero. Los datos en formato largo son una buena manera de almacenar datos organizados
con variables múltiples para cada sujeto en cada punto de tiempo que queremos observar. Con estos datos en formato largo,
podemos almacenar y analizar todos estos datos utilizando menos columnas. Además, si agregamos una nueva variable,
como el promedio de edad de una población, solo necesitamos una nueva columna. Si hubiéramos utilizado los datos en
formato ancho, en cambio, deberíamos haber agregado 10 columnas, una para cada año. Los datos en formato largo
mantienen todo prolijo y compacto. Si te preguntas qué formato utilizar, la respuesta simple es: "depende".
Algunas veces, debes transformar datos en formato ancho en datos en formato largo o viceversa, en otras ocasiones.
Probablemente, trabajarás con ambos formatos en tu trabajo. Y definitivamente reconsiderarás ambos formatos otra vez más
tarde en este programa. Esto me recuerda: antes definimos los datos como una recopilación de hechos. Como descubriste en
los últimos videos, esa recopilación de hechos puede tomar diferentes formatos, estructuras, tipos y más.
Aprender acerca de los modos en que pueden presentarse los datos te será de gran ayuda a lo largo de los procesos del
análisis de datos. Cuanto más trabajes con datos en todas sus formas, más rápido empezarás a reconocer qué datos utilizar y
cuándo utilizarlos.
Y en breve, utilizarás todos los datos almacenados en tu cerebro para ayudarte a realizar una evaluación. Luego, aprenderás
cómo identificar y evitar el sesgo en los datos y cómo aprovechar la credibilidad, la integridad y la ética. La aventura de los
datos avanza. ¡Y me alegra avanzar con ellos!
Transformación de datos
A woman presenting data, a hand holding a medal, two people chatting, a

ship's wheel being steered, two people high-fiving each other
Una mujer presentando datos, una mano sosteniendo una medalla, dos personas charlando, el timón de un barco
siendo dirigido, dos personas chocando las manos
En esta lectura, explorarás cómo se transforman los datos y las diferencias entre datos en formato ancho y largo. La
transformación de datos es el proceso de cambiar el formato, la estructura o los valores de los datos. Como analista de
datos, es muy probable que en algún momento necesites transformar los datos para que te resulte más fácil
analizarlos.
La transformación de datos suele implicar:
 Añadir, copiar o replicar datos

 Eliminar campos o registros
 Estandarizar los nombres de las variables
 Cambiar el nombre, mover o combinar columnas en una base de datos
 Unir un conjunto de datos con otro
 Guardar un archivo en un formato diferente. Por ejemplo, guardar una hoja de cálculo como un archivo
de valores separados por comas (CSV).
¿Por qué transformar los datos?
Los objetivos de la transformación de datos pueden ser:
 Organización de los datos: los datos mejor organizados son más fáciles de utilizar
 Compatibilidad de datos: diferentes aplicaciones o sistemas pueden entonces utilizar los mismos datos
 Migración de datos: los datos con formatos coincidentes pueden trasladarse de un sistema a otro
 Fusión de datos: los datos con la misma organización pueden fusionarse
 Mejora de datos: los datos pueden mostrarse con campos más detallados
 Comparación de datos: a continuación, se pueden realizar comparaciones de los datos entre sí
Ejemplo de transformación de datos: fusión de datos
Mario es un fontanero propietario de una empresa de fontanería. Tras años en el negocio, compra otra empresa de
fontanería. Mario quiere fusionar la información de los clientes de su nueva empresa con la suya, pero la otra empresa
utiliza una base de datos diferente. Así que Mario tiene que hacer que los datos sean compatibles. Para ello, tiene que
transformar el formato de los datos de la empresa adquirida. Luego, debe eliminar las filas duplicadas de los clientes
que tenían en común. Cuando los datos sean compatibles y estén juntos, la empresa de fontanería de Mario tendrá una
base de datos de clientes completa y fusionada.
Ejemplo de transformación de datos: organización de datos (largo a ancho)

Para facilitar la creación de gráficos, también puede ser necesario transformar los datos en formato largo en datos en
formato ancho. Considera el siguiente ejemplo de transformación de los precios de las acciones (recogidos como datos
en formato largo) a datos en formato ancho.
Los datos en formato largo son datos en los que cada fila contiene un único punto de datos para un elemento concreto. En
el ejemplo de datos en formato largo que aparece a continuación, se han recogido los precios individuales de las
acciones (puntos de datos) de Apple (AAPL), Amazon (AMZN) y Google (GOOGL) (elementos concretos) en las fechas
indicadas.
Ejemplo de datos en formato largo: Precios de las acciones
Los datos en formato ancho son datos en los que cada fila contiene múltiples puntos de datos para los elementos
particulares identificados en las columnas.
Ejemplo de datos en formato ancho: Precios de las acciones
Con los datos transformados en datos en formato ancho, puedes crear un gráfico en el que se compara la evolución de
las acciones de cada empresa en el mismo periodo de tiempo.
Puedes notar que todos los datos incluidos en el formato largo están también en formato ancho. Pero los datos en el
formato ancho son más fáciles de leer y comprender. Por eso, los analistas de datos suelen transformar los datos en
formato largo en datos en formato ancho con más frecuencia que al revés. La siguiente tabla resume cuándo se prefiere
cada formato:
Se prefieren los datos en formato ancho

Se prefieren los datos en formato largo cuando
cuando
Se crean tablas y gráficos con pocas variables Se almacenan muchas variables sobre cada tema. Por ejemplo, 60 años de
sobre cada tema tasas de interés para cada banco
Se comparan gráficos lineales sencillos Se realizan análisis estadísticos avanzados o gráficos
CUESTIONARIO:
Pregunta 1
Completa el espacio en blanco: Los motores de búsqueda de Internet son un ejemplo cotidiano de cómo se
utilizan los operadores booleanos. El operador booleano _____ amplía el número de resultados cuando se
utiliza en una búsqueda de palabras clave.
1. O
2. CON
3. NO
4. Y
Correcto. El operador booleano O amplía el número de resultados cuando se utiliza en una búsqueda de palabras
clave.
Pregunta 2
¿Cuál de las siguientes afirmaciones describe con exactitud una diferencia clave entre los datos en formato
ancho y largo?
1. Todos los sujetos de datos en formato ancho tienen una sola columna que contiene los valores de los atributos
del sujeto. Todos los sujetos de datos en formato largo tienen múltiples columnas.
2. Los sujetos de datos en formato ancho pueden tener múltiples filas que contienen los valores de los atributos
del sujeto. Los sujetos de datos en formato largo pueden tener datos en múltiples columnas.
3. Los sujetos de datos en formato ancho pueden tener datos en múltiples columnas. Los sujetos de datos en
formato largo pueden tener múltiples filas que contienen los valores de los atributos del sujeto.
4. Todos los sujetos de datos en formato ancho tienen múltiples columnas. Todos los sujetos de datos en formato
largo tienen datos en una sola columna.
Correcto. Los sujetos de datos en formato ancho pueden tener datos en múltiples columnas. Los sujetos de datos en
formato largo pueden tener múltiples filas que contienen los valores de los atributos del sujeto.
Pregunta 3
¿Qué permite la transformación de datos a los analistas de datos?

1 / 1 punto
1. Recuperar los datos más rápidamente

2. Cambiar la estructura de los datos
3. Restaurar los datos después de que se hayan perdido
4. Inspeccionar los datos para comprobar su exactitud
Correcto. La transformación de datos permite a los analistas de datos cambiar la estructura de los datos.
Glosario
Análisis computacional de datos
Términos y definiciones
A
Agenda: Una lista de citas programadas.
Alcance del trabajo (SOW): Un esquema acordado de las tareas a realizar durante un proyecto.
Algoritmo: Un proceso o conjunto de reglas a seguir para una tarea específica.
Análisis computacional de datos: La ciencia de los datos.
Análisis de datos: La recopilación, transformación y organización de los datos para sacar conclusiones, hacer predicciones e
impulsar una toma de decisiones fundamentada.
Análisis de déficits: Un método para examinar y evaluar el estado actual de un proceso con el fin de identificar las
oportunidades de mejora en el futuro.
Analista de datos: Alguien que recopila, transforma y organiza los datos para sacar conclusiones, hacer predicciones e
impulsar la toma de decisiones fundamentada.
Archivo de audio: Almacenamiento digitalizado de audio generalmente en MP3, AAC u otro formato comprimido.
Archivo de video: Conjunto de imágenes, archivos de audio y otros datos generalmente codificados en un formato
comprimido, por ejemplo, MP4, MV4, MOV, AVI o FLV.
Atributo: Característica o calidad de los datos que se usa para etiquetar una columna en una tabla.
B
Base de datos relacional: Base de datos que contiene una serie de tablas que se pueden conectar para mostrar relaciones.
Base de datos: Recopilación de datos almacenados en un sistema informático.
Bordes: Líneas que se pueden agregar alrededor de dos o más celdas en una hoja de cálculo.
C
Campo: Información de una fila o columna de una hoja de cálculo; en una tabla de datos; suele ser una columna de la tabla.
Causa raíz: La razón por la que ocurre un problema.
Ciclo de vida de los datos: Sucesión de etapas por las que pasan los datos, que incluye planificar, capturar, gestionar, analizar,
archivar y destruir.
Ciencia de datos: Un campo de estudio que utiliza datos sin procesar para crear nuevas formas de modelar y entender lo
desconocido.
Conjunto de datos: Recopilación de datos que pueden ser manipulados o analizados como una unidad.
Consulta: Solicitud de datos o información de una base de datos.
CONTAR: Función de la hoja de cálculo que cuenta el número de celdas en un rango que cumplen con un criterio específico.
Contexto: La condición en la que algo existe o sucede.
Controlador de relleno: Casilla en la esquina inferior derecha de cierta celda seleccionada de una hoja de cálculo que se
puede arrastrar pasando por celdas vecinas para seguir una instrucción.
Cookie: Pequeño archivo almacenado en una computadora que contiene información acerca de sus usuarios.
D
Datos abiertos: Datos que están disponibles para el público.
Datos booleanos: Tipo de datos con solo dos valores posibles, generalmente verdadero o falso.
Datos continuos: Datos que se miden y que pueden tener casi cualquier valor numérico
Datos cualitativos: Los datos cualitativos son una medida subjetiva y explicativa de una cualidad o característica.
Datos cuantitativos: Los datos cuantitativos son una medida específica y objetiva, como un número, cantidad o rango.
Datos de primera fuente: Datos recopilados por una persona o por un grupo por medio de sus propios recursos.
Datos de segunda fuente: Datos que recopila un grupo directamente de su audiencia y que, luego, se venden.
Datos de terceros: Datos proporcionados por fuentes externas que no recopilaron de forma directa.
Datos discretos: Datos que se cuentan y tienen un número limitado de valores
Datos en formato ancho: Conjunto de datos en el que cada tema tiene una sola fila con varias columnas para describir los
valores de los distintos atributos del tema.
Datos en formato largo: Conjunto de datos en el que cada fila constituye un punto en el tiempo por sujeto, es decir que cada
sujeto tiene datos en varias filas.
Datos estructurados: Datos organizados de cierta forma, por ejemplo, en filas y columnas.
Datos externos: Datos que se alojan y se generan fuera de una organización.
Datos internos: Datos alojados en los sistemas propios de una empresa.
Datos no estructurados: Datos que no se organizan de forma que sea fácil identificarlos.
Datos nominales: Tipo de datos cualitativos que se categoriza sin un orden establecido.
Datos ordinales: Datos cualitativos con un orden o escala establecidos.
Datos: Una colección de hechos.
Destrezas analíticas: Cualidades y características asociadas al uso de hechos para resolver problemas.
Diseño de datos: Cómo se organiza la información.
Dominio del problema: Área de análisis que abarca cada actividad que afecta a un problema o se ve perjudicada por él.
E
Ecosistema de datos: Los distintos elementos que interactúan entre sí para producir, gestionar, almacenar, organizar, analizar
y compartir datos.
Ecuación: Cálculo que implica suma, resta, multiplicación o división (también se denomina expresión matemática).
Elemento de datos: Cierta información dentro de un conjunto de datos.
Encabezado: Primera fila en una hoja de cálculo que hace referencia al tipo de datos en cada columna.
Equidad: Característica del análisis de datos que no genera sesgos ni los reafirma.
Estrategia de datos: La gestión de las personas, los procesos y las herramientas que se usan en el análisis de datos.
Expresión matemática: Cálculo que implica la suma, resta, multiplicación o división (también denominada ecuación).
F
Filtrado: Proceso que muestra solo los datos que cumplen con un criterio específico mientras oculta el resto.
Fórmula: Conjunto de instrucciones que se utilizan para realizar un cálculo al utilizar los datos de una hoja de cálculo.
Foto digital: Una imagen electrónica o computarizada, generalmente en formato BMP o JPG.
Función matemática: Función que se utiliza como parte de una fórmula matemática.
Función: Un comando preestablecido que realiza automáticamente un proceso o tarea especificado al utilizar los datos de
una hoja de cálculo.
G
Gráfico dinámico: Gráfico creado a partir de los campos de una tabla dinámica.
H
Hoja de cálculo: Una hoja de cálculo digital.
I
Informe: Conjunto estático de datos que se entrega periódicamente a interesados.
Ingresos: Cantidad total de ingresos generados por la venta de mercaderías o servicios.
Interesados: Personas que invierten tiempo y recursos en un proyecto y se interesan por su resultado.
L
La toma de decisiones inspirada en datos: Explorar diferentes fuentes de datos para descubrir qué tienen en común.
Lenguaje de consulta estructurado: Lenguaje de programación informática utilizado para comunicarse con una base de
datos.
Lenguaje de consulta: Lenguaje de programación informática utilizado para comunicarse con una base de datos.
M
Macrodatos: Conjuntos de datos grandes y complejos que generalmente se recopilan durante largos períodos y que permiten
que los analistas de datos aborden los problemas comerciales de gran alcance.
MAX: Función de la hoja de cálculo que muestra el valor numérico mayor de un rango de celdas.
Mentalidad técnica: La capacidad de dividir las cosas en pasos o piezas más pequeñas y trabajar con ellas de forma ordenada
y lógica.
Metodología SMART: Herramienta para determinar la eficacia de una pregunta según sea específica, mensurable, orientada a
la acción, pertinente y con plazos determinados.
Métrica: Tipo único y cuantificable de datos que pueden utilizarse para la medición.
Microdatos: Puntos de datos pequeños, específicos, que generalmente involucran un breve período y que son útiles para
tomar decisiones diarias.
MIN: Función de la hoja de cálculo que muestra el valor numérico menor de un rango de celdas.
Modelo de datos: Herramienta para organizar los elementos de datos y la forma en que se relacionan entre ellos.
Muestra: En el análisis computacional de datos, segmento de una población que la representa en su totalidad.
N
Nube: La nube es un lugar para mantener los datos en línea, en lugar de en el disco duro de una computadora.
O
Objetivo medible: Este objetivo métrico es un conjunto de objetivos medibles establecido por una empresa y evaluado
mediante métricas.
Observación: Los atributos que describen una pieza de datos contenida en una fila de una tabla.
Oficina del Censo de los Estados Unidos: Agencia del Departamento de Comercio de los Estados Unidos que funciona como
proveedora principal de datos de calidad sobre las personas y la economía a nivel nacional.
Operador: Símbolo que designa la operación o cálculo a realizarse.
Orden de operaciones: Uso de paréntesis para agrupar ciertos valores de la hoja de cálculo a fin de aclarar el orden en el que
deben realizarse las operaciones.
Ordenación: Es el proceso de organizar los datos en un sistema de clasificación significativo para que sean más fáciles de
entender, analizar y visualizar.
P
Panel: Herramienta que monitorea los datos entrantes en vivo.
Pensamiento analítico: El proceso de identificar y definir un problema, para luego resolverlo mediante el uso de datos de
manera organizada, paso a paso.
Pensamiento estructurado: El pensamiento estructurado es el proceso de reconocer el problema o la situación actuales,

organizar la información disponible, revelar déficits y oportunidades, e identificar las opciones.
Píxel: En imágenes digitales, es un área pequeña de iluminación en una pantalla de visualización que, cuando se combina con
otras áreas adyacentes, forma una imagen digital.
Población: En análisis computacional de datos, todos los valores de datos posibles en un conjunto de datos.
Pregunta con límite de tiempo: Pregunta que especifica un plazo a analizar.
Pregunta específica: Una pregunta simple y significativa que se centra en un solo tema o en algunas ideas estrechamente
relacionadas.
Pregunta injusta: Pregunta en la que se hacen suposiciones o que es difícil de responder honestamente.
Pregunta medible: Pregunta cuyas respuestas se pueden cuantificar y evaluar.
Pregunta orientada a la acción: Pregunta cuyas respuestas conducen al cambio.
Pregunta pertinente: Pregunta que tiene importancia para el problema que se debe resolver.
Pregunta principal: Pregunta que orienta a las personas para que indiquen tal o cual respuesta.
Proceso de análisis de datos: Las seis fases que consisten en preguntar, preparar, procesar, analizar, compartir y actuar, cuyo
objetivo es obtener conocimiento que propicie una toma de decisiones informada.
PROMEDIO: Función de una hoja de cálculo que muestra el resultado de un promedio de los valores de un rango
seleccionado.
Propiedad: El aspecto de la ética de datos que presupone que cada persona es dueña de los datos sin procesar que
proporciona y que tiene control primordial sobre su uso, procesamiento y uso compartido.
R
Rango: Conjunto de dos o más celdas en una hoja de cálculo.
Redes sociales: Sitios web y aplicaciones en los que los usuarios crean y comparten contenido o interactúan entre sí.
Referencia de celda: Una celda o un rango de celdas de una hoja de cálculo que se suelen utilizar en fórmulas y funciones.
Reformulación: Proceso de replantear un problema o desafío para dirigirse hacia una posible resolución.
Registro: Conjunto de datos relacionados en una tabla de datos, generalmente sinónimo de fila.
Retorno sobre la inversión (ROI): Fórmula que utiliza las métricas de inversión y ganancias para evaluar el éxito de una
inversión.
S
SQL: (Ver Lenguaje de consulta estructurado)
SUMA: Función de una hoja de cálculo que suma los valores de un rango de celdas seleccionadas.
T
Tabla dinámica: Una herramienta de resumen de datos utilizada para ordenar, reorganizar, agrupar, contar, totalizar o
promediar datos.
Tarea empresarial: La pregunta o problema empresarial que el análisis de datos resuelve.
Tasa de rotación: Ritmo en el que los empleados abandonan voluntariamente una empresa.
Tipo de datos de texto: Secuencia de caracteres y puntuación que contiene información textual (también denominado tipo
de datos de cadena).
Tipo de datos en cadena: Secuencia de caracteres y puntuación que contiene información textual (ver Tipo de datos de
texto).
Tipo de datos: Un atributo que describe cierto dato según sus valores, su lenguaje de programación o las operaciones que
puede realizar.
Tipos de problemas: Distintos problemas a los que se enfrenta el analista de datos, que incluyen categorizar elementos,
descubrir conexiones, hallar patrones, identificar temas, hacer predicciones y detectar algo inusual.
Toma de decisiones basada en datos: Uso de datos para guiar la estrategia empresarial.
V
Visualización de datos: La representación gráfica de los datos.
Visualización: (Ver Visualización de datos)

CUESTIONARIO MODULO 1
Pregunta 1
Un analista de datos está trabajando en un estudio de tráfico urgente. Como consecuencia del corto plazo,
¿qué tipo de datos es más probable que utilice?
1. Teóricos
2. Personales
3. Sin depurar
4. Históricos
Correcto. Debido a la brevedad del plazo, lo más probable es que utilicen datos históricos.
Pregunta 2
Los datos continuos se miden y tienen un número limitado de valores.

1. Verdadero
2. Falso
Correcto. Los datos continuos se miden pero pueden tener casi cualquier valor numérico.
Pregunta 3
¿Cuáles de las siguientes preguntas recogen datos cualitativos nominales?

1. ¿Es la primera vez que cenas en este restaurante?
2. En una escala del 1 al 10, ¿cómo calificaría el servicio de hoy?
3. ¿Con cuántas personas sueles cenar?
4. ¿Cuántas veces has cenado en este restaurante?
Correcto. “¿Es la primera vez que cenas en este restaurante?” es una pregunta que recoge datos cualitativos
nominales.
Pregunta 4
¿Por qué los datos internos se consideran más confiables y fáciles de recopilar que los datos externos?
1. Los datos internos provienen de personas que conoces.
2. Los datos internos están alojados dentro de los propios sistemas de la empresa.
3. Los datos internos tienen un tamaño de muestra mucho mayor.
4. Los datos internos sortean las restricciones de privacidad.
Correcto. Los datos internos se consideran más confiables y fáciles de recopilar que los datos externos porque están
alojados dentro de los propios sistemas de la empresa.
Pregunta 5
¿Cuál de los siguientes es un ejemplo de datos estructurados?

1. Archivo de audio
2. Base de datos relacional
3. Archivo de video
4. Foto digital
Correcto. Una base de datos relacional es un ejemplo de datos estructurados.
Pregunta 6
Un tipo de dato booleano debe tener un valor numérico.

1. Verdadero
2. Falso
Correcto. Un tipo de datos booleanos puede tener muchos tipos de valores diferentes, pero solo puede haber dos de
ellos.
Pregunta 7
En los datos en formato largo, las columnas separadas contienen los valores y el contexto de los valores,
respectivamente. ¿Qué contiene cada columna en los datos en formato largo?
0 / 1 punto
1. Un tipo de datos específico

2. Un formato único
3. Una restricción específica
4. Una variable de datos única
Incorrecto
Si necesitas hacer un repaso, vuelve a ver el video sobre datos en formato largo y ancho.
Pregunta 8
La transformación de datos puede cambiar la estructura de los datos. Un ejemplo de esto es tomar los datos
almacenados en un formato y convertirlos en otro.
1. Verdadero
2. Falso
Correcto. La transformación de datos puede cambiar la estructura de los datos. Un ejemplo de esto es tomar los datos
almacenados en un formato y convertirlos en otro.
MODULO 2:
Datos imparciales y objetivos:
VIDEO: Garantizar la integridad de los datos
¡Bienvenido nuevamente! En un curso anterior, hablamos sobre cómo preparar los datos de manera que te ayuden a
transmitir un mensaje significativo. Ahora averigüemos qué sigue. Como todas las buenas historias, la historia de tus datos
tendrá personajes, preguntas, desafíos, conflictos y esperemos que una resolución. La clave es evitar el conflicto, superar los
obstáculos y responder las preguntas. De eso trata este curso. Así es como lo haremos. Primero, aprenderás cómo analizar los
datos respecto de los sesgos y la credibilidad. Esto es muy importante porque aún los datos más sólidos pueden ser sesgados
o malinterpretados. Luego aprenderemos sobre la importancia de los datos correctos e incorrectos. Sí, como cuando éramos
niños. Pero en este caso, exploraremos las fuentes de datos correctos y aprenderemos cómo alejarnos de su némesis, los
datos incorrectos. Después, aprenderemos más sobre el mundo de la ética y la privacidad de los datos y cómo acceder a
estos. A medida que crece la disponibilidad de los datos, y los algoritmos que creamos para utilizar estos datos se tornan
cada vez más complejos y sofisticados, siguen surgiendo los problemas. Tenemos que hacernos preguntas como ¿quién es el
dueño de estos datos? ¿Cuánto control tenemos sobre la privacidad de los datos? ¿Podemos usar y reutilizar los datos como
queramos? Como analista de datos, es importante comprender la ética y la privacidad de los datos porque en tu trabajo,
tomarás un montón de decisiones basadas en el criterio sobre el uso correcto y la aplicación de los datos. Me entusiasma que
repasemos juntos algunas preguntas, respuestas, recompensas y riesgos involucrados. Empecemos el primer capítulo de esta
historia de datos, en nuestro próximo video.
VIDEO: Sesgo: De preguntas a conclusiones

Empecemos por hacer un viaje en el tiempo, bueno, en nuestras mentes al menos. Mi verdadera máquina del tiempo está en
el taller. Imagina que regresas a la escuela secundaria y has entregado un proyecto en la feria de ciencias. Trabajaste mucho
durante semanas enteras para perfeccionar cada detalle y están por anunciar a los ganadores. Cierras los ojos, respiras
profundo, y escuchas que mencionan tu nombre como ganador del segundo lugar. ¡Qué mal!, realmente querías el trofeo del
primer lugar, pero oye, te llevarás la cinta de reconocimiento. Al día siguiente te enteras que el juez era el tío de la ganadora.
¡Eso no es justo! ¿Se puede esperar realmente que elija a un ganador de forma justa cuando un miembro de su propia familia
es uno de los concursantes? Es muy probable que no sea objetivo. Tal vez su sobrina merecía ganar o quizás no. Pero la
cuestión es que resulta muy fácil plantear un caso de sesgo en ese escenario. Este es un ejemplo muy sencillo, pero la verdad
es que nos encontramos con el sesgo todo el tiempo en la vida cotidiana. Nuestros cerebros están diseñados biológicamente
para agilizar el pensamiento y hacer juicios rápidos. El sesgo ha evolucionado hasta convertirse en una preferencia a favor o
en contra de una persona, grupo de personas o elementos. Puede ser consciente o subconsciente. La buena noticia es que
una vez que sabemos y aceptamos que tenemos sesgos, podemos empezar a reconocer nuestros propios patrones de
pensamiento y aprender a manejarlos. Es importante que sepas que los sesgos también pueden filtrarse en el mundo de los
datos. El sesgo de datos es un tipo de error que sistemáticamente orienta los resultados en una determinada dirección.
Quizás las preguntas de la encuesta hayan tenido un sesgo en particular para influenciar las respuestas, o tal vez el grupo de
la muestra no era realmente representativo de la población que se analizaba. Por ejemplo, si vas a tomar la edad promedio
de la población de pacientes de los Estados Unidos que tienen seguro de salud, no usarías solo una muestra de los pacientes
de Medicare que tienen 65 años o más. El sesgo también puede ocurrir si el grupo de una muestra carece de inclusividad. Por
ejemplo, las personas con discapacidades tienden a ser subidentificadas, subrepresentadas o excluidas en la investigación de
salud general. La forma en que obtienes los datos también puede sesgar un conjunto de datos. Por ejemplo, si les das a las
personas poco tiempo para responder preguntas, sus respuestas serán apresuradas. Cuando estamos apurados, cometemos
más errores, lo cual puede afectar la calidad de nuestros datos y crear resultados sesgados. Como analista de datos, tienes
que pensar en el sesgo y la equidad desde el momento en que empiezas a recopilar datos hasta el momento en que
presentas tus conclusiones. Después de todo, esas conclusiones pueden tener serias consecuencias. Piensa en esto: es sabido
que los estudios clínicos de la salud cardíaca tienden a incluir muchos más hombres que mujeres. Eso ha llevado a que las
mujeres no logren reconocer síntomas y, en última instancia, hace que sus afecciones cardíacas no se detecten ni se traten.
Esta es solo una de las formas en que los sesgos pueden tener un impacto muy real. Si bien hemos avanzado mucho en el
reconocimiento de los sesgos, aun así te condujeron a perder contra la sobrina del juez en ese concurso de ciencias. Siguen
influenciando las decisiones empresariales, las opciones y el acceso al cuidado de la salud, el accionar gubernamental y
muchas cosas más. Así que tenemos que seguir trabajando este tema. Próximamente te mostraremos cómo identificar los
sesgos en los datos propiamente dichos, y explorar algunos escenarios en los que realmente puedes beneficiarte por ello.
VIDEO: Datos sesgados e imparciales

Hasta ahora aprendimos que los sesgos que tenemos como personas pueden terminar creando datos sesgados. Somos
influenciados por los sesgos cuando nuestras preferencias se basan en nuestras propias nociones preconcebidas o incluso
subconscientes. Cuando los datos son sesgados, pueden orientar sistemáticamente los resultados en una determinada
dirección que los torna poco confiables. Ya hablamos de este tema cuando usamos el sesgo del muestreo como ejemplo. El
sesgo del muestreo ocurre cuando una muestra no es representativa de la población en su conjunto. Puedes evitar esto si te
aseguras de elegir la muestra de forma aleatoria, para que todas las partes de la población tengan las mismas posibilidades
de ser incluidas. Si no usas el muestreo aleatorio durante la recopilación de datos, terminas favoreciendo un resultado. Aquí
mostramos una manera sencilla de hacerlo. Supongamos que hay 50 alumnos en una clase, y quieres saber si la mayoría de la
clase prefiere el frío o el calor. Decides encuestar a los primeros 10 alumnos que encuentras, y en función de sus respuestas,
determinas que toda la clase prefiere el calor. Pero espera, hay un sesgo ahí. Esas 10 primeras personas eran todas mujeres,
así que en la encuesta solo se incluyeron mujeres. Tu encuesta no fue una fiel representación de toda la clase porque no
incluyó otros identificadores en todo el espectro del género. Si hubieras usado una muestra más aleatorizada de la población
que incluyera a todos los géneros, hubieras obtenido una muestra sin sesgos. Los muestreos sin sesgos generan una muestra
que es representativa de la población que se mide. Otra muy buena forma de detectar si estás trabajando con datos no
influenciados por sesgos es dar vida a los resultados mediante visualizaciones. En el ejemplo de la clase, que acabamos de
ver, podrías visualizar la cantidad de alumnos de toda la clase, y sus identidades de género con un gráfico de barras. Después
podrías comparar eso con un gráfico de barras similar que muestre a los alumnos que encuestaste. Esto te ayudará a
identificar con facilidad cualquier desajuste con tu muestra. Muy bien, ahora que sabemos cómo se manifiesta el sesgo desde
una perspectiva de muestreo, exploremos algunos otros tipos de sesgo, y cómo reconocerlos.
VIDEO: Comprender el sesgo en los datos:

Puede ser que sea prejuicioso, pero creo que aprender sobre las características buenas y malas de los datos es algo
atrapante. A continuación, descubriremos que hay muchos tipos diferentes de sesgos de datos, además del sesgo de
muestreo que tratamos antes.
Hagamos un repaso rápido, sesgo del muestro es cuando una muestra no es representativa de la población en su conjunto.
Por ejemplo, si estás haciendo una investigación sobre cómo se trasladan las personas a su trabajo, y solo encuestas a las
personas que caminan por la acera, te perderás la opinión de las personas que van en bicicleta, conducen vehículos o viajan
en subterráneo. Necesitas todas las perspectivas de la historia para evitar el sesgo del muestreo. En este video, analizaremos
otros tres tipos más de sesgo del muestreo: sesgo del observador, sesgo de interpretación y sesgo de confirmación, y
aprenderemos cómo evitarlos.
- Empecemos por el sesgo del observador, al que a veces se llama sesgo del investigador o sesgo de investigación.
Básicamente, es la tendencia de distintas personas a observar las cosas de forma diferente. Como recordarás,
aprendimos que los científicos usan mucho las observaciones en su trabajo, como cuando observan una bacteria en
el microscopio para recabar datos. Aunque dos científicos que miren en el mismo microscopio podrían ver cosas
diferentes, eso es sesgo del observador. Otra situación en la que puede producirse el sesgo del observador es durante
las mediciones de la presión arterial. Como el tensiómetro es tan sensible, los trabajadores de la salud a menudo
obtienen resultados bastante diferentes. En general, suelen redondear al número entero más cercano para
compensar el margen de error. Pero si los médicos redondean sistemáticamente hacia arriba o hacia abajo las
mediciones de la presión arterial de sus pacientes, ciertas afecciones podrían pasar desapercibidas, y los estudios de
sus pacientes no tendrían datos precisos y exactos.
- Otro tipo común de sesgo de los datos es el sesgo de interpretación. La tendencia a interpretar siempre las
situaciones ambiguas de manera positiva o negativa. Aquí hay un ejemplo. Digamos que estás almorzando con un
amigo y recibes un correo de voz de tu jefa, que te pide que le devuelvas la llamada. Dejas el teléfono, enfadado,
seguro que está enojada y estás en la cuerda floja por algo. Pero cuando le reproduces el mensaje a tu amigo, él no
percibe el enojo en absoluto, en realidad, piensa que ella suena tranquila y directa. El sesgo de interpretación puede
hacer que dos personas vean o escuchen lo mismo de manera diferente, y lo interpreten de distintas maneras,
porque provienen de entornos diferentes, con experiencias distintas. La anécdota de tu jefa te hizo interpretar la
llamada de una manera, pero tu amigo la interpretó de otra manera porque ellos no se conocen. Traslada estas
interpretaciones al análisis de datos, y es probable que obtengas resultados sesgados.
- El último tipo de sesgo que analizaremos, me recuerda el dicho "la gente ve lo que quiere ver." Eso resume muy bien
el sesgo de confirmación. El sesgo de confirmación es la tendencia a buscar o interpretar la información de una
manera que confirma las creencias preexistentes. Alguien podría estar tan ansioso por confirmar un sentimiento
visceral, que solo nota cosas que lo confirman, e ignora todas las demás señales. Esto ocurre todo el tiempo en la
vida cotidiana. Es probable que obtengamos las noticias de un determinado sitio web porque los escritores
comparten nuestras creencias, o que socialicemos con determinadas personas porque sabemos que comparten
visiones similares. Después de todo, otros puntos de vistas diferentes podrían hacernos cuestionar nuestra visión del
mundo, lo que puede llevarnos a cambiar todo nuestro sistema de creencias, y seamos sinceros, el cambio nos
cuesta. Pero, ¿sabes qué es aún peor? Hacer un buen trabajo cuando tienes datos incorrectos; por eso, es importante
mantener el sesgo alejado.
Los cuatro tipos de sesgo de datos que analizamos: sesgo del muestreo, sesgo del observador, sesgo de interpretación y
sesgo de confirmación son todos únicos, pero tienen algo en común. Cada uno de ellos afecta la forma en que
recopilamos y damos sentido a los datos. Por desgracia, son también una pequeña muestra, un juego de palabras, de los
tipos de sesgos que puedes encontrar en tu carrera como analista de datos. Pero la buena noticia es que una vez que
conoces algunos, estarás constantemente en guardia para detectar cualquier forma de sesgo. También es importante
recordar que no importa qué tipo de datos utilices, todos deben ser inspeccionados para verificar su precisión y
confiabilidad. Pronto hablaremos más sobre este tema cuando empecemos a explorar los datos incorrectos. Hasta
pronto.
CUESTIONARIO:
Pregunta 1
¿Cuáles de los siguientes son ejemplos de sesgo del muestreo? Selecciona todas las opciones que
correspondan.
1. Un estudio clínico que incluye tres veces más hombres que mujeres. Correcto. Una encuesta de estudiantes de
secundaria que no incluye a los alumnos con escolarización en el hogar, un sondeo electoral nacional que solo
entrevista a personas con título universitario y un estudio clínico que incluye tres veces más hombres que
mujeres no son representativos de la población.
2. Una empresa de análisis computacional de datos en línea que almacena datos en una hoja de cálculo.
3. Un sondeo electoral nacional que solo entrevista a personas con título universitario.Correcto. Una encuesta de
estudiantes de secundaria que no incluye a los alumnos con escolarización en el hogar, un sondeo electoral
nacional que solo entrevista a personas con título universitario y un estudio clínico que incluye tres veces más
hombres que mujeres no son representativos de la población.
4. Una encuesta de estudiantes de secundaria que no incluye a los alumnos con escolarización en el hogar.
Correcto. Una encuesta de estudiantes de secundaria que no incluye a los alumnos con escolarización en el
hogar, un sondeo electoral nacional que solo entrevista a personas con título universitario y un estudio clínico
que incluye tres veces más hombres que mujeres no son representativos de la población.
Pregunta 2
Fill in tCompleta el espacio en blanco: Tendencia a buscar o interpretar la información de manera que valide
creencias preexistentes es un sesgo _____.
1. de confirmación
2. del observador
3. de interpretación
4. del muestreo
Correcto. Tendencia a buscar o interpretar la información de manera que valide creencias preexistentes es un sesgo de
confirmación.
Pregunta 3
¿Cuáles de los siguientes términos son también formas de describir el sesgo del observador? Selecciona todas
las opciones que correspondan.
1. Sesgo de percepción
2. Sesgo de investigación. Correcto. El sesgo del observador también se llama a veces sesgo del investigador o
sesgo de investigación.
3. Sesgo del espectador
4. Sesgo del investigador. Correcto. El sesgo del observador también se llama a veces sesgo del investigador o
sesgo de investigación.
Explorar la credibilidad de los datos:
VIDEO: Identificar fuentes de datos correctos
Hola, ¿qué es bueno o correcto? No, en serio, quiero saber: ¿Qué es bueno o correcto? Por ejemplo, si te pido que nombres
una buena canción, quizás a mí no me guste. Eso es porque “bueno” es algo subjetivo. Lo que yo pienso que es bueno o
correcto y lo que tú crees que es bueno o correcto puede variar. Entonces, ¿qué pasa con las fuentes de datos correctos?
¿También son subjetivos? En cierta forma lo son, pero afortunadamente, aplicar algunas mejores prácticas te ayudará a medir
la confiabilidad de los conjuntos de datos, antes de usarlos. Eso es lo que veremos en este video. Creo que todos
coincidiremos en que todos queremos datos correctos. Cuanto mayor sea la calidad de los datos que tenemos, mayor
confianza tendremos en nuestras decisiones. Aprendamos cómo podemos descubrir e identificar fuentes de datos correctos.
Primero lo primero, necesitamos aprender a identificarlos. Me gusta llamar a este proceso ROCCC, R-O-C-C-C. Muy bien.
Acabo de inventarlo, pero creo que los acrónimos son una muy buena forma de grabar información nueva en el cerebro.
Empecemos por la “R” de “Reliable” (confiable). Como ocurre con los buenos amigos, las fuentes de datos correctos son
confiables. Con estos datos puedes confiar en que obtendrás información precisa, completa y objetiva que ha sido verificada,
probada y es apta para usar. Muy bien. Pasemos a la “O” de “Original”. Es muy probable que descubras datos a través de una
segunda fuente o una fuente de terceros. Para corroborar que estás manejando datos correctos, asegúrate de validarlos con
la fuente original. Llegamos a la “C” de “Comprehensive” (integral). Las mejores fuentes de datos contienen toda la
información crítica que se necesita para responder una pregunta o encontrar una solución. Piénsalo así. No te gustaría
trabajar para una empresa solo porque encontraste una gran reseña en línea sobre la empresa. Investigarás cada aspecto de
la organización para asegurarte de que sea la opción adecuada. Es importante hacer lo mismo con tus análisis de datos. La
siguiente es “C” de “Current” (actual). La utilidad de los datos disminuye a medida que pasa el tiempo. Si quieres invitar a
todos los clientes actuales a un evento empresarial, no usarás una lista de clientes de hace diez años. Lo mismo ocurre con
los datos. Las mejores fuentes de datos son actuales y apropiadas para la tarea en cuestión. La última “C” es por “Cited”
(citado). Si alguna vez le comentaste a un amigo que se estaba por estrenar una nueva parte de una película, habrás citado la
fuente. Citar la fuente hace que la información que estás proporcionando sea más confiable. Cuando elijas una fuente de
datos, piensa tres cosas: ¿Quién creó el conjunto de datos? ¿Forma parte de una organización creíble? ¿Cuándo fue la última
actualización del conjunto de datos? Si obtienes datos originales de una organización confiable, y esos datos son integrales,
actuales y citados, ¡ROCCCean! Hay muchos lugares que son conocidos por tener datos correctos. Tu mejor opción es recurrir
a los conjuntos de datos públicos, documentos académicos, datos financieros y datos de entidades gubernamentales, que
sean verificados. Ahora que ya sabes cómo detectar a los datos correctos, que ROCCCean (funcionan), estás listo para
aprender sobre la montaña de datos incorrectos y cómo evitarlos. Manos a la obra.
VIDEO: ¿Qué son los datos incorrectos?

La última vez que nos encontramos, aprendimos cómo identificar y encontrar fuentes de datos correctos. Proceso que decidí
llamar ROCCC. Descubrimos que si el conjunto de datos es confiable, original integral, actual y citado, “ROCCCea” (o dicho
con seriedad: es bueno) Espero que esto refresque tu memoria. Ahora es momento de aprovechar todo lo que aprendimos
sobre datos correctos y aplicarlo en la lección de hoy: fuentes de datos incorrectos que no son ROCCC. No son confiables,
originales, integrales, actuales o citados. Y lo que es peor, pueden ser totalmente inexactos o estar plagados de errores
humanos. Empecemos nuevamente por la “R”.
“R” de la palabra inglesa “Reliable” (confiable). No se puede confiar en los datos incorrectos porque son imprecisos,
incompletos o sesgados. Podrían ser datos con selección de muestra sesgada porque no refleja la población total. O podrían
ser visualizaciones de datos y gráficos que son simplemente engañosos. Veamos estos dos gráficos de barras, por ejemplo. El
de la izquierda usa un eje Y que comienza con el valor 3.14%. Y el de la derecha, usa 0. Esto hace que parezca que las tasas de
interés se han disparado en un período de cuatro años, cuando en realidad se mantuvieron bastante bajas.
Muy bien, en la “O”. No es Original. Si no puedes ubicar la fuente de datos original y solo confías en información de segundas
fuentes o de terceros, esto indica que necesitarás tomar recaudos extra para interpretar tus datos.
Ahora “C” de la palabra inglesa “Comprehensive” (integral). Las fuentes de datos incorrectos carecen de la información
necesaria para responder una pregunta o encontrar una solución. Y aún peor, pueden contener también errores humanos.
La siguiente es “C” de la palabra inglesa “Current” (actual). Las fuentes de datos incorrectos están desactualizadas y son
irrelevantes. Muchas fuentes respetadas actualizan sus datos habitualmente y esto nos da la seguridad de que es la
información disponible más actualizada. Por ejemplo, siempre puedes confiar en Data.gov, que es la página principal de datos
abiertos del gobierno de los Estados Unidos.
La última “C” es de la palabra inglesa “Cited” (citado). Si tu fuente no ha sido citada o verificada, es peligrosa.
En resumen, los datos correctos deben ser datos originales, integrales, actuales y citados provenientes de una organización
confiable. ¡Deben “ROCCCear”! De lo contrato, son datos incorrectos. Si necesitas una gran fuente de datos confiable,
consulta la página de la Oficina de Censos de los Estados Unidos, que actualiza frecuentemente su información. Es
importante que los analistas de datos entiendan y estén atentos a los datos incorrectos porque pueden tener consecuencias
graves y duraderas. Ya sea una conclusión incorrecta que lleve a una mala decisión empresarial, o información inexacta que
obstaculice los procesos y ponga en riesgo a la población, toda buena solución implica evitar los datos incorrectos. Para
obtener datos correctos, hay que limitarse a los conjuntos de datos públicos, documentos académicos, datos financieros y de
organismos gubernamentales, verificados. Y con esto, hemos llegado al final de nuestra aventura de sesgo y credibilidad.
Después de unos pocos ejercicios más, estarás listo para lo que viene. Deseo ver tus avances.
CUESTIONARIO:
Pregunta 1
¿Cuáles de las siguientes son habitualmente fuentes de datos correctos? Selecciona todas las opciones que
correspondan.
1. Conjuntos de datos públicos verificados. Correcto. Los conjuntos de datos públicos, documentos académicos,
datos financieros y de organismos gubernamentales verificados, por lo general, son fuentes de datos correctos.
2. Documentos académicos. Correcto. Los conjuntos de datos públicos, documentos académicos, datos
financieros y de organismos gubernamentales verificados, por lo general, son fuentes de datos correctos.
3. Datos de organismos gubernamentales. Correcto. Los conjuntos de datos públicos, documentos académicos,
datos financieros y de organismos gubernamentales verificados, por lo general, son fuentes de datos correctos.
4. Sitios de redes sociales
Pregunta 2
To determUna vez que defines si la fuente de datos es citada, ¿cuáles de las siguientes preguntas debes
hacerte? Selecciona todas las opciones que correspondan.
1. ¿Quién creó este conjunto de datos? Correcto. “¿Este conjunto de datos es de una organización creíble?” y
“¿Quién creó este conjunto de datos?” son preguntas que pueden ayudarte a determinar si una fuente de datos
es citada.
2. ¿Son pertinentes estos datos para el problema que intento resolver?
3. ¿Este conjunto de datos fue limpiado correctamente?.
4. ¿Este conjunto de datos es de una organización creíble?. Correcto. “¿Este conjunto de datos es de una
organización creíble?” y “¿Quién creó este conjunto de datos?” son preguntas que pueden ayudarte a
determinar si una fuente de datos es citada.
Pregunta 3
Un analista de datos está analizando datos de ventas para detectar la versión más reciente de un producto. Usa
datos de terceros de una versión anterior del producto. ¿Por qué motivos esto es inadecuado para su análisis?
Selecciona todas las opciones que correspondan.
1. Los datos no son actuales. Correcto. Los datos de terceros sobre una versión anterior del producto son
inadecuados porque no son originales ni actuales.
2. Los datos son sesgados
3. Los datos no son precisos. Esto no debería estar seleccionado. Los datos de terceros sobre una versión
anterior del producto son inadecuados porque no son originales ni actuales.
4. Los datos no son originales
Ética y privacidad de los datos:

VIDEO: Introducción a la ética de datos:
Hola de nuevo, déjame preguntarte algo. ¿Qué te viene a la mente cuando piensas en la palabra “ética”? Para mí, es un
conjunto de principios que rigen la vida. La mayoría de las personas tienen un código de ética personal que los ayuda a
manejarse por el mundo. Cuando somos jóvenes, podría ser tan simple como nunca mientas, engañes o robes, pero a medida
que crecemos, es una lista mucho más amplia de lo que se debe y no se debe hacer. Nuestra ética personal evoluciona y se
torna más racional, nos ofrece una brújula moral para enfrentar los interrogantes, los desafíos y las oportunidades de la vida.
Cuando analizamos datos, también nos enfrentamos a interrogantes, desafíos y oportunidades, pero tenemos que confiar en
algo más que nuestro código de ética personal para abordarlos. Como aprendiste antes, todos tenemos nuestros propios
sesgos, ni que hablar de los sesgos subconscientes que hacen que la ética sea aún más difícil de transitar. Por eso tenemos la
ética de datos, un aspecto importante del análisis computacional de datos que exploraremos aquí mismo, en este video. Pero
primero, volvamos a la idea general de la ética. Aunque la definición exacta sigue siendo objeto de debate en la filosofía, una
opinión práctica es que la ética se refiere a normas justificadas sobre el bien y el mal que establecen lo que los seres
humanos deben hacer, generalmente en términos de derechos, obligaciones y beneficios para la sociedad, equidad o virtudes
específicas. Al igual que los seres humanos, los datos tienen que cumplir normas. La ética de datos se refiere a normas
justificadas sobre el bien y el mal que dictan cómo se recopilan, comparten y usan los datos. Como la capacidad de recopilar,
compartir y usar los datos en cantidades tan grandes es algo relativamente reciente, las reglas que regulan y rigen el proceso
siguen evolucionando. La importancia de la privacidad de los datos ha sido reconocida por los gobiernos de todo el mundo, y
han comenzado a crear legislación para la protección de datos que ayude a proteger a las personas y a sus datos. Se creó el
Reglamento General de Protección de Datos de la Unión Europea (GDPR) para hacer justo eso. Mientras los encargados de
formular políticas continúan con su trabajo, empresas como Google tienen la responsabilidad de liderar el esfuerzo y lo
haremos con el mismo espíritu de siempre, ofreciendo productos que hagan de la privacidad una realidad para todos. El
concepto de ética de datos y las cuestiones referidas a la transparencia y la privacidad son parte de este proceso. La ética de
datos intenta llegar a la raíz de la responsabilidad que tienen las empresas en la protección y el uso responsable de los datos
que recopilan. La ética de datos abarca muchos aspectos diferentes, pero cubriremos seis: propiedad, transparencia de las
transacciones, consentimiento, vigencia, privacidad y apertura. Más adelante exploraremos la privacidad y la apertura de los
datos. La primera de la lista es la propiedad. Esto responde a la pregunta: ¿quién es el dueño de los datos? No es la
organización que invirtió tiempo y dinero para recopilarlos, almacenarlos, procesarlos y analizarlos. Son las personas que
poseen los datos sin procesar que ellos proporcionan, y tienen el control principal sobre su uso, la forma en que se procesan
y comparten. Luego tenemos la transparencia de las transacciones, que es la idea de que todas las actividades de
procesamiento de datos y algoritmos deben ser completamente explicables y comprendidas por las personas que
proporcionan sus datos. Esto surge en respuesta a las preocupaciones sobre los sesgos de los datos, como vimos
anteriormente, es un tipo de error que sistemáticamente orienta los resultados en una determinada dirección. Los resultados
sesgados pueden conducir a consecuencias negativas. Para evitarlos, es útil proporcionar un análisis transparente,
especialmente a las personas que comparten sus datos. Esto permite a las personas juzgar si el resultado es justo y objetivo, y
plantear posibles inquietudes.
Ahora, hablemos sobre otro aspecto de la ética de datos: el consentimiento. Es un derecho de la persona conocer los detalles
explícitos sobre cómo y por qué se usarán sus datos antes de aceptar proporcionarlos. Deben conocer las respuestas a
preguntas como: ¿Por qué se recopilan los datos? ¿Cómo se usarán? ¿Durante cuánto tiempo se almacenarán? La mejor
forma de otorgar el consentimiento probablemente sea una conversación entre la persona que proporciona los datos y la
persona que los solicita. Pero con tanta actividad que sucede en línea estos días, el consentimiento solo se parece a una
casilla de verificación de términos y condiciones con enlaces a información más detallada. Aceptémoslo, no todos hacen clic
para leer esos detalles. El consentimiento es importante porque impide que se apunte injustamente a todas las poblaciones,
lo que implica un problema muy grande para los grupos marginados que suelen estar desproporcionadamente mal
representados por datos sesgados.
Luego, sigue la vigencia. Las personas deben estar al tanto de las transacciones financieras que derivan del uso de sus datos
personales y la escala de estas transacciones. Si tus datos ayudan a financiar las actividades de una empresa, debes saber a
qué se refieren todas esas actividades y deben darte la oportunidad de optar por no participar. Los últimos dos aspectos de la
ética de datos, la privacidad y la apertura, merecen un tratamiento especial en esta etapa de los datos. Pronto sabrás por
qué.
VIDEO: Repaso opcional: Alex: La importancia de la ética de datos

Hola, soy Alex. Soy científico investigador en Google. Mi equipo se llama equipo de Inteligencia Artificial Ética. Somos un
grupo de personas realmente preocupadas no solo por cómo funciona la tecnología de IA, sino también por cómo interactúa
con la sociedad y cómo podría ayudar o dañar a las comunidades marginadas. Así que cuando hablamos de ética de datos,
pensamos ¿cuál es la forma correcta e incorrecta de usar los datos? ¿Cuáles serán las formas en que vamos a usar los datos
que serán beneficiosos para las personas? En cuanto a la ética de datos, no es solo minimizar el daño, en realidad, lo que
importa es el concepto de beneficencia. ¿Cómo mejoramos realmente las vidas de las personas mediante el uso de datos?
Cuando pensamos en la ética de datos estamos pensando en ¿quién recopila los datos? ¿Por qué los recopilan? ¿Cómo los
recopilan? ¿Con qué propósito? Debido a la forma en que las organizaciones tienen la obligación de ganar dinero o reportarse
ante alguien o proporcionar algún análisis, también debemos tener muy en cuenta cómo esto realmente beneficiará a las
personas al final del día. ¿Las personas representadas en estos datos se beneficiarán con esto? Creo que eso es lo que nunca
querrás perder de vista como científico de datos o analista de datos. Creo que los aspirantes a analistas de datos deben tener
en cuenta que muchos de los datos que van a encontrar son datos que provienen de personas. De modo que al final del día,
los datos son personas. Y quieres tener una responsabilidad hacia esa gente que está representada en esos datos. En
segundo lugar, deben pensar acerca de cómo mantener los aspectos de privacidad y protección de sus datos. No queremos
atravesar nuestra práctica pensando en las instancias de datos como algo que simplemente podemos lanzar a la web. No, es
necesario tener en cuenta cómo conservar esa información y similares, como sus imágenes, sus voces o sus textos. ¿Cómo
podemos mantenerlos en privado? También debemos pensar en cómo podemos contar con mecanismos para brindarles a los
usuarios y consumidores más control sobre sus datos. No será suficiente solo con decir, recopilamos todos estos datos y
confíennos todos estos datos. Pero debemos asegurarnos de que existan formas viables mediante las cuales las personas
puedan dar su consentimiento al proporcionar esos datos y puedan solicitar que se revoquen o eliminen. Los datos siguen
creciendo y, al mismo tiempo, necesitamos capacitar a las personas para que tengan control sobre sus propios datos. El
futuro es que los datos siempre están creciendo. No hemos visto ninguna evidencia de que los datos en realidad se estén
reduciendo. Con el conocimiento de que los datos están creciendo, estos problemas se vuelven cada vez más sensibles y es
cada vez más importante pensar en ellos.
VIDEO: Introducción a la privacidad de datos:

Hemos explorado algunos aspectos importantes de la ética de datos, y una de las áreas más personales involucra a la
privacidad. La privacidad es personal. Cada uno puede definir a la privacidad a su manera, y todos tenemos derecho a ella. Ya
sea los miembros de una familia que quieren mantener su privacidad cuando comparten una computadora, el adolescente
que quiere compartir una selfie solo con algunas personas o una empresa que quiere mantener la seguridad de la
información de las tarjetas de crédito de sus clientes, a todos nos preocupa cómo se usan y comparten nuestros datos. La
privacidad de los datos es importante en la cultura actual, así que vamos a explorarla a fondo. Cuando hablamos de datos,
privacidad significa preservar la información y la actividad del sujeto de datos, cada vez que se realiza una transacción con los
datos. Esto a veces se llama privacidad de la información o protección de datos. Todo gira en torno al acceso, uso y
recopilación de datos. También incluye el derecho legal de una persona sobre sus datos. Esto significa que alguien como tú o
yo debemos tener protección ante el acceso no autorizado a nuestros datos privados, estar exentos del uso inapropiado de
nuestros datos, el derecho a inspeccionar, actualizar o corregir nuestros datos, la posibilidad de otorgar el consentimiento
para que usen nuestros datos, y el derecho legal para acceder a nuestros datos. Para las empresas, significa implementar
medidas de privacidad para proteger los datos de las personas. La privacidad de los datos es importante, aun cuando no lo
pienses en el día a día. La importancia de la privacidad de los datos ha sido reconocida por los gobiernos de todo el mundo, y
han comenzado a crear legislación para la protección de datos que ayude a proteger a las personas y a sus datos. Poder
confiar tus datos a las empresas es importante. Es lo que hace que las personas quieran usar los productos de una empresa,
compartir su información y demás. La confianza es realmente una gran responsabilidad que no puede tomarse a la ligera. El
último aspecto relacionado con la ética de datos es uno que se discute constantemente. La idea de la apertura, el libre
acceso, uso e intercambio de los datos. Abordaremos ese tema en otro video. Estás camino a convertirte en un analista de
datos ético.
Anonimización de datos:
¿Qué es la anonimización de datos?:
Has estado aprendiendo sobre la importancia de la privacidad en el análisis computacional de datos. Ahora es
momento de hablar sobre la anonimización de datos y qué tipos de datos se deben anonimizar. Información de
identificación personal, o PII, es la información que se puede usar por sí misma o con otros datos para rastrear la
identidad de una persona.
La anonimización de datos es el proceso de proteger los datos privados o confidenciales de las personas eliminando
esa clase de información. A menudo, la anonimización de datos incluye dejar en blanco, ejecutar el algoritmo hash o
enmascarar la información personal, por lo general, mediante el uso de códigos de longitud fija para representar
columnas de datos u ocultar datos con valores alterados.
Tu función en la anonimización de datos:

Las organizaciones tienen la responsabilidad de proteger sus datos y la información personal que pudieran contener los
datos. Como analista de datos, se podría esperar que comprendieras qué datos deben anonimizarse, pero en general,
no serás responsable de la anonimización propiamente dicha. Una rara excepción podría ser si trabajas con una copia
de los datos con fines de prueba o desarrollo. En este caso, se te podría exigir que anonimices los datos antes de
trabajar con ellos.
¿Qué tipos de datos se deben anonimizar?

Los datos médicos y financieros son dos de los tipos de datos más sensibles. Estas industrias dependen mucho
de las técnicas de anonimización de datos. Después de todo, hay mucho en juego. Por eso, los datos en estas dos
industrias suelen someterse a desidentificación, que es un proceso utilizado para eliminar toda la información de
identificación personal de los datos.
La anonimización de datos se utiliza en casi todas las industrias. Por eso es tan importante que los analistas de datos
comprendan los conceptos básicos. Aquí incluimos una lista de datos que a menudo se anonimizan:
 Números telefónicos
 Nombres
 Patentes de vehículos y licencias de conducir
 Números de seguro social
 Direcciones IP
 Registros médicos
 Direcciones de correo electrónico
 Fotografías
 Números de cuentas
Para algunas personas, es lógico que este tipo de datos sean anónimos. Para otros, debemos ser muy específicos
sobre qué debe ser anonimizado. Imagina un mundo en el que todos tuvieran acceso a las direcciones, números de
cuentas y otra información identificable de los demás. Eso invadiría un montón la privacidad de las personas y haría
que el mundo fuera menos seguro. La anonimización de datos es una de las formas de mantener los datos privados y
seguros.
VIDEO: Andrew: El uso ético de los datos:

Mi nombre es Andrew. Soy promotor de desarrollo principal del grupo de investigación de IA ética de Google. Como
promotor de desarrollo principal, trato de ayudar a la comunidad a construir sistemas de IA socialmente responsables. Una
consecuencia de no utilizar esta tecnología responsablemente es la posibilidad de amplificar o reforzar sesgos injustos.
Ahora, esos algoritmos, esos conjuntos de datos, a menudo se utilizan en entornos donde deciden el resultado. Cuando se
trata de curar contenido para un individuo o determinar si son elegibles para un crédito o no, todos esos diferentes procesos
de toma de decisiones dependen de los algoritmos y los conjuntos de datos que se están utilizando en ese contexto. Y de
igual modo, si se manipularan irresponsablemente, entonces, los resultados de esos sistemas podrían potencialmente dañar
a las comunidades representadas inadecuadamente o a los grupos minoritarios. Hay mucho que ese campo, la industria, la
comunidad, están aprendiendo sobre el uso responsable de datos y la IA. De modo que lo que trataré de hacer es
correlacionar todos esos elementos diferentes, ya sea que se esté trabajando con varios grupos de investigación en Google, o
con varios grupos de productos en Google, haciendo participar así a una comunidad extendida. Tenemos que ir más allá y
realmente educar a aquellos que están luchando por construir esta tecnología para el bien, pero no necesariamente cuentan
con los recursos ni la sabiduría institucional comunitaria para realmente llevar a cabo sus buenas intenciones. De modo que
la verdad del asunto es que la IA, los datos y cualquier otra tecnología que se construye en torno a eso trae muchos
beneficios. Está mejorando las vidas de las personas. Nos permite hacer cosas que no podríamos hacer normalmente. Nos
brinda oportunidades de pensar acerca de otras cosas en la vida. Y esta es la razón por la cual es tan importante que juntos,
en forma colectiva, no solo una organización sino la comunidad entera y hasta los que no se especializan en tecnología, todos
deben involucrarse. Ese es mi papel aquí tratar de ayuda a que la IA se desarrolle de forma ética en conjunto y para ello es
menester democratizar el uso responsable de la IA.
CUESTIONARIO:
Pregunta 1
Completa el espacio en blanco: _____ establece que se deben explicar cabalmente todas las actividades de
procesamiento de datos y los algoritmos a la persona que proporciona los datos y también establece que esta
persona debe comprenderlos.
1. Vigencia
2. Apertura
3. Privacidad
4. Transparencia de la transacción
Correcto. La transparencia de la transacción establece que se deben explicar cabalmente todas las actividades de
procesamiento de datos y los algoritmos a la persona que proporciona los datos y también establece que esta persona
debe comprenderlos.
Pregunta 2
Un analista de datos quita la información de identificación personal de un conjunto de datos. ¿Qué tarea
realiza?
1. Recopilación de datos
2. Ordenación de datos
3. Anonimización de datos
4. Visualización de datos
Correcto. Realiza la anonimización de datos, que es el proceso de protección de los datos privados o sensibles de las
personas mediante la eliminación de información que pueda asociarse con ellas.
Pregunta 3
Antes de completar una encuesta, la persona reconoce haber leído la información sobre cómo y por qué se
utilizarán los datos que proporcione. ¿Cómo se llama este concepto?
1. Consentimiento
2. Vigencia
3. Privacidad
4. Discreción
Correcto. Este concepto se llama consentimiento. El consentimiento es el aspecto de la ética de datos que presupone el
derecho de una persona a conocer cómo y por qué se utilizarán sus datos personales, antes de aceptar
proporcionarlos.
Comprensión de los datos abiertos:

VIDEO: Características de los datos abiertos:
Es tan liberador poder encontrar información sobre cualquier tema en Internet. ¿No recuerdas la tercera línea de tu canción
infantil favorita, te gustaría saber quién hizo más jonrones (home runs) en 1986, quieres aprender el lenguaje de señas
por tu cuenta? Solo abre tu computadora portátil, escribe el texto y listo, consigues lo que necesitas. Muchos grupos creen
que nosotros también deberíamos tener este nivel de acceso a los datos. Incluso hay un movimiento internacional que cree
que la apertura de los datos puede transformar la sociedad y la forma de tomar decisiones. Hasta ahora, hemos hablado
mucho sobre el poder de los datos y la importancia de las cuestiones referidas a la ética de datos que incluyen la propiedad,
la transparencia de las transacciones, el consentimiento, la vigencia y la privacidad. Ahora, hablemos sobre apertura. Cuando
nos referimos a los datos, apertura significa el libre acceso, uso e intercambio de los datos. A veces, nos referimos a esto
como datos abiertos, pero eso no significa que ignoremos los otros aspectos de la ética de datos que ya abordamos. Aun así,
debemos ser transparentes, respetar la privacidad, y asegurarnos de tener el consentimiento para los datos que son
propiedad de otros. Esto simplemente significa que podemos acceder, usar y compartir esos datos si cumplen estos altos
estándares. Por ejemplo, hay estándares en torno a la disponibilidad y al acceso. Los datos abiertos deben estar disponibles
en su totalidad, preferentemente mediante la descarga en Internet, en un formato cómodo y modificable. El sitio web
data.gov es un excelente ejemplo. Puedes descargar datos científicos y de investigación en una amplia gama de industrias y
en formatos de archivos simples, como una hoja de cálculo. Otro estándar se refiere a la reutilización y la redistribución. Los
datos abiertos deben suministrarse conforme a términos que permitan la reutilización y la redistribución, incluso la
posibilidad de utilizarlos con otros conjuntos de datos. Y la última área es la participación universal. Todos deben poder usar,
reutilizar y redistribuir los datos. No debería haber ninguna discriminación por áreas, personas o grupos. Nadie puede
establecer restricciones en los datos, como hacer que solo estén disponibles en una industria en particular.
Ahora, veamos un poco más por qué los datos son algo tan importante y cómo pueden ayudarte, como analista de datos.
Uno de los beneficios más importantes que ofrecen los datos abiertos es la posibilidad de usar bases de datos creíbles de
manera más generalizada. Lo más importante es que todos esos datos correctos se pueden aprovechar, compartir y combinar
con otros datos. Imagínate el impacto que tendría eso en la colaboración científica, los avances en investigación, la capacidad
analítica y la toma de decisiones. Por ejemplo, en la salud humana, la apertura nos permite acceder a diversos datos y
combinarlos para detectar las enfermedades cada vez con mayor anticipación. En el gobierno, puede ayudar a que los líderes
rindan cuentas y proporcionen un mejor acceso a los servicios ofrecidos a la comunidad. Las posibilidades y los beneficios son
casi infinitos. Pero, por supuesto, toda gran idea tiene sus desafíos. Se necesita una gran cantidad de recursos para hacer el
cambio tecnológico hacia los datos abiertos. La interoperabilidad es clave para el éxito de los datos abiertos. La
interoperabilidad es la capacidad de los sistemas y los servicios de datos para conectar y compartir datos. Por ejemplo, la
interoperabilidad de los datos es importante para los sistemas de atención médica en los que múltiples organizaciones, como
hospitales, clínicas, farmacias y laboratorios necesitan acceder a los datos y compartirlos para asegurase de que los pacientes
obtengan la atención que necesitan. Así, tu médico puede enviar tu receta directamente a la farmacia para que te entreguen
los medicamentos. Tienen bases de datos compatibles que les permite compartir información. Pero este tipo de
interoperabilidad requiere mucha cooperación. Aunque el intercambio de datos abiertos, oportunos, justos y simples ofrece
un potencial importante, su futuro dependerá de la eficacia con la que se aborden desafíos más amplios. Como analista de
datos, digo que cuanto antes, mejor. Por cierto, vamos a hablar más sobre datos abiertos y ver su uso en acción en un
próximo video. Ahora que has aprendido todo sobre ética de datos, tienes algunos principios importantes que te guiarán en
tu data journey. Cuando no estés seguro de tus datos, recuerda lo que aprendiste aquí.
El debate de los datos abiertos

Como ocurre con la privacidad de los datos, los datos abiertos es un tema muy debatido en el mundo actual. Los
analistas de datos piensan mucho en los datos abiertos y, como futuro analista de datos, debes comprender los
conceptos básicos para desempeñar bien tu función.
¿Qué son los datos abiertos?

En el análisis computacional de datos, los datos abiertos forman parte de la ética de datos, que significa usar los datos de
manera ética. Apertura se refiere al libre acceso, uso e intercambio de los datos. Pero para que los datos se consideren
abiertos, deben:
 Estar disponibles y accesibles para el público en general como un conjunto de datos completo.
 Ser suministrados bajo términos que permitan reutilizarlos y redistribuirlos.
 Permitir la participación universal para que todos puedan usar, reutilizar y redistribuir los datos.
Los datos solo se pueden considerar abiertos cuando cumplen todas esas tres normas.
El debate de los datos abiertos: ¿Qué datos deben estar disponibles públicamente?
Uno de los más grandes beneficios de los datos abiertos es que permiten usar bases de datos creíbles en forma más
amplia. Básicamente, esto significa que todos los datos correctos se pueden aprovechar, compartir y combinar con
otros datos. Esto podría tener un impacto enorme en la colaboración científica, los avances en investigación, la
capacidad analítica y la toma de decisiones. Pero también es importante pensar en los individuos representados por los
datos públicos y abiertos.
Los datos de terceros son recopilados por una entidad que no tiene una relación directa con los datos. Como recordarás,
ya aprendimos sobre este tipo de datos. Por ejemplo, terceros podrían recopilar la información sobre los visitantes a un
determinado sitio web. Esto les permite a dichos terceros crear perfiles de audiencia que los ayuda a comprender mejor
el comportamiento del usuario y apuntar a ellos con publicidad más efectiva.
Información de identificación personal (PII) son datos que pueden identificar razonablemente a una persona y dar a
conocer información sobre ella. Es importante mantener estos datos seguros. PII puede incluir la dirección de una
persona, información de tarjetas de crédito, número de seguro social, registros médicos y mucho más.
Todos quieren conservar la privacidad de su información personal. Como los datos de terceros son de fácil acceso, es
importante equilibrar la apertura de los datos con la privacidad de las personas.
VIDEO: Andrew: Pasos para el uso ético de los datos

Mi nombre es Andrew. Soy promotor de desarrollo principal para el grupo de investigación ética de IA de Google. Como
analista, existen muchas cosas que puedes hacer para evaluar tu conjunto de datos a fin de garantizar que lo estás
observando a través de varias lentes éticas. Una de ellas sería la autorreflexión y la comprensión de lo que estás haciendo y el
impacto que causa. El mejor modo de cuestionar eso consiste en preguntar quiénes somos. Nosotros estamos como que,
bueno, estamos en este equipo tratando de construir esto porque pensamos que ayudará a mejorar este producto o que
contribuirá con información a la toma de decisiones acerca de qué queremos hacer a continuación. Pensar no solamente en
los que están sentados directamente a tu lado, pero también pensar acerca de aquellos que están representados en este
conjunto de datos y aquellos que no están representados en este conjunto de datos y luego utilizar esa intuición para luego
continuar cuestionando la integridad, la calidad, la representación dentro de ese conjunto de datos. Y luego también pensar
acerca de varios daños y riesgos asociados con el trabajo que estás haciendo. Por ejemplo, si piensas que te beneficiarás de
quedarte más tiempo con ese conjunto de datos también querrás entender cuál es el riesgo de quedarte con ese conjunto de
datos. ¿Cuál es el daño potencial que podría surgir si continúas mirando ese conjunto de datos y continúas almacenándolo y
continúas recuperando esos datos? Y más allá de eso, también hay que entender qué es el proceso de consentimiento. ¿Les
estás informando a aquellos de quienes estás recopilando datos cómo se van a utilizar? ¿Cuál es el canal de comunicación?
Utilizando varias lentes éticas, y tomando un enfoque con mayores matices para tu análisis, siendo consciente de todos los
riesgos posibles y los daños que pueden surgir cuando no solo analizas tu conjunto de datos, sino también cuando presentas
tu conjunto de datos. Cómo retratarás esos resultados, cómo se están utilizando en el proceso de toma de decisiones, si estás
presentándolos a la gerencia o presentándolos a los ejecutivos, o presentándolos a un público más amplio. Todo lo que
importa es la utilización responsable del conjunto de datos. Pero como analista de datos, estás parado en la intersección
entre la gente que tratará de beneficiarse de la tecnología en desarrollo y esos en tu organización que están tratando de
tomar decisiones mejor informadas respecto de si avanzarán o no con la produccionización de la tecnología. Puede parecer
que hay mucho peso en esto, y lo hay, pero también es muy cambiante y habla del volumen del impacto de tu trabajo.
Sitios y recursos para datos abiertos

Por suerte para los analistas de datos, hay muchos sitios y recursos confiables disponibles para obtener datos abiertos.
Es importante recordar que aún los datos que tienen buena reputación deben ser evaluados constantemente, pero los
siguientes sitios web son un punto de partida útil:
1. Sitio de datos del gobierno de los Estados Unidos: Data.gov es una de las fuentes de datos más completas de los
Estados Unidos. Este recurso proporciona a los usuarios los datos y las herramientas que necesitan para hacer
investigaciones, e incluso los ayuda a desarrollar aplicaciones web y móviles y diseñar visualizaciones de
datos.
2. Oficina de Censos de los Estados Unidos: Esta fuente de datos abiertos ofrece información demográfica de los
gobiernos federales, estatales y locales, y también de entidades comerciales en los Estados Unidos.
3. Red de datos abiertos: Esta fuente de datos es un motor de búsqueda realmente poderoso y con filtros de
avanzada. Aquí puedes encontrar datos sobre temas de finanzas, seguridad pública, infraestructura, vivienda y
desarrollo.
4. Conjuntos de datos públicos de Google Cloud: El Programa de conjuntos de datos públicos de Google Cloud
ofrece una selección de conjuntos de datos públicos que puedes encontrar ya cargados en BigQuery.
5. Dataset Search: Dataset Search es un motor de búsqueda diseñado específicamente para conjuntos de datos;
puedes usarlo para buscar conjuntos de datos específicos.
CUESTIONARIO:
Pregunta 1
¿Qué aspecto de la ética de datos promueve el acceso libre a los datos, su uso y también el uso compartido?
1 / 1 punto
1. Transparencia de la transacción
2. Consentimiento
3. Apertura
4. Privacidad
Correcto. Apertura es el aspecto de la ética de datos que promueve el acceso libre a los datos, su uso y también el uso
compartido.
Pregunta 2
¿Cuáles son los principales beneficios de los datos abiertos? Selecciona todas las opciones que
correspondan.
0.75 / 1 punto
1. Los datos abiertos hacen que los datos correctos estén ampliamente disponibles. Correcto. Entre los beneficios
de los datos abiertos se encuentran la amplia difusión de datos correctos y la combinación de datos de
diferentes campos del conocimiento.
2. Los datos abiertos combinan datos de diferentes campos del conocimiento.Correcto. Entre los beneficios de los
datos abiertos se encuentran la amplia difusión de datos correctos y la combinación de datos de diferentes
campos del conocimiento.
3. Los datos abiertos aumentan la cantidad de datos disponibles para la compra. Esto no debería estar
seleccionado. Entre los beneficios de los datos abiertos se encuentran la amplia difusión de datos correctos y la
combinación de datos de diferentes campos del conocimiento.
4. Los datos abiertos restringen el acceso de los datos a determinados grupos de personas.
Pregunta 3
La participación universal es un estándar de los datos abiertos. ¿Cuáles son los aspectos clave de la
participación universal? Selecciona todas las opciones que correspondan.
1. Todas las corporaciones pueden vender datos abiertos.
2. Ciertos grupos de personas deben compartir sus datos privados.
3. Nadie puede imponer restricciones en los datos para discriminar a una persona o a un grupo. Correcto. Los
aspectos clave de la participación universal sostienen que todo el mundo debe poder utilizar, reutilizar y
redistribuir los datos abiertos. Además, nadie puede imponer restricciones en los datos para discriminar a una
persona o a un grupo.
4. Todos deben poder usar, reutilizar y redistribuir los datos abiertos. Correcto. Los aspectos clave de la
participación universal sostienen que todo el mundo debe poder utilizar, reutilizar y redistribuir los datos
abiertos. Además, nadie puede imponer restricciones en los datos para discriminar a una persona o a un grupo.
Glosario
A
Agenda: Una lista de citas programadas.
Alcance del trabajo (SOW): Esquema acordado de las tareas a realizar durante un proyecto.
Algoritmo: Proceso o conjunto de reglas a seguir para una tarea específica.
Análisis de déficits: Método para examinar y evaluar el estado actual de un proceso con el fin de identificar las
Anonimización de datos: El proceso de proteger los datos privados o confidenciales de las personas eliminando información
que pueda asociarse a ellas.
Apertura: El aspecto de la ética de datos que promueve el acceso libre a los datos, su uso y también el uso compartido.
Archivo de audio: Almacenamiento en audio digitalizado generalmente en MP3, AAC u otro formato comprimido.
B
Base de datos relacional: Base de datos que contiene una serie de tablas que se pueden conectar para formar relaciones.
C
Campo: Información de una fila o columna de una hoja de cálculo; en una tabla de datos, suele ser una columna de la tabla.
Ciclo de vida de los datos: Secuencia de etapas por las que pasan los datos, que incluye planificar, capturar, gestionar,
analizar, archivar y destruir.
Ciencia de datos: Campo de estudio que utiliza datos sin procesar para crear nuevas formas de modelar y entender lo
desconocido.
Conjunto de datos: Una colección de datos que pueden ser manipulados o analizados como una unidad.
Consentimiento: El aspecto de la ética de datos que considera el derecho de una persona de conocer cómo y por qué se
utilizarán sus datos personales antes de estar de acuerdo de proporcionarlos.
Controlador de relleno: Cuadro en la esquina inferior derecha de una celda seleccionada de una hoja de cálculo que se
D
Datos continuos: Datos que se miden y que pueden tener casi cualquier valor numérico.
Datos cualitativos: Medida subjetiva y explicativa de una cualidad o característica.
Datos cuantitativos: Medida específica y objetiva, como un número, cantidad o rango.
Datos de primera fuente: Datos recopilados por una persona o por un grupo utilizando sus propios recursos.
Datos de terceros: Datos proporcionados de fuentes externas que no los recopilaron directamente.
Datos discretos: Datos que se cuentan y tienen un número limitado de valores.
Datos en formato largo: Conjunto de datos en el que cada fila constituye un punto en el tiempo por sujeto, es decir que cada
sujeto tiene datos en varias filas.
Datos externos: Los datos que se alojan y generan fuera de una organización.
Datos nominales: Tipo de datos cualitativos que se categorizan sin un orden establecido.
Dominio del problema: Área de análisis que abarca cada actividad que afecta a un problema o se ve afectada por él.
E
y compartir datos.
Encabezado: La primera fila en una hoja de cálculo que hace referencia al tipo de datos en cada columna.
Equidad: Cualidad del análisis de datos que no genera sesgos ni los reafirma.
Ética de datos: Normas justificadas respecto de lo que está bien y lo que está mal a la hora de recopilar, compartir y usar
datos.
Ética: Normas justificadas respecto de lo que está bien y lo que está mal. Por lo general, presuponen lo que deben hacer los
seres humanos, usualmente en términos de derechos, obligaciones, beneficios para la sociedad, equidad o virtudes
específicas.
Expresión matemática: Cálculo que implica la suma, resta, multiplicación o división (también denominada “ecuación”).
F
Fórmula: Conjunto de instrucciones que se utilizan para realizar un cálculo utilizando los datos de una hoja de cálculo.
Fuente de datos correctos: Fuente de datos confiable, original, integral, actual y citada (ROCCC).
Fuente de datos erróneos: Fuente de datos que no es confiable, original, integral, actual ni citada (ROCCC).
Función: Comando preestablecido que realiza automáticamente un proceso o tarea especificado utilizando los datos de una
hoja de cálculo.
G
H
I
Informe: Conjunto estático de datos que se entrega periódicamente a los interesados.
Interoperabilidad de los datos: Factor clave que conlleva el uso satisfactorio de los datos abiertos entre empresas y
gobiernos.
J
K
L
Lenguaje de consulta estructurado (SQL): Lenguaje de programación informática utilizado para comunicarse con una base de
datos.
M
Macrodatos: Conjuntos de datos grandes, complejos que generalmente implican largos períodos de tiempo, que permiten
y lógica.
Métrica: Tipo de datos únicos y cuantificables que se utiliza para medición.
Muestra: En el análisis computacional de datos, segmento de una población que la representa toda.
Muestreo imparcial: Muestra de la población que la representa en su totalidad.
N
Nube: Lugar para mantener los datos en línea, en lugar de tenerlos en el disco duro de una computadora.
O
Objetivo medible: Objetivo medible establecido por una empresa y evaluado mediante métricas.
proveedor principal de datos de calidad sobre las personas y la economía a nivel nacional.
Orden de operaciones: Uso de paréntesis para agrupar los valores de la hoja de cálculo a fin de aclarar el orden en el que
Ordenación: El proceso de organizar los datos en un orden significativo para que sea más fácil entenderlos, analizarlos y
visualizarlos.
P
Pensamiento estructurado: El proceso de reconocer el problema o la situación actuales, organizar la información disponible,
revelar déficits y oportunidades, e identificar opciones.
Población: En análisis computacional de datos, todos los valores de datos posibles en un conjunto de datos.
Pregunta específica: Pregunta simple, significativa y enfocada en un solo tema o en algunas ideas estrechamente
relacionadas entre sí.
Pregunta principal: Pregunta que orienta a las personas hacia cierta respuesta.
Pregunta relevante: Pregunta que tiene importancia para el problema que se debe resolver.
Privacidad de los datos: Preservación de la información sobre los datos de una persona cada vez que ocurre una transacción
de datos.
Proceso de análisis de datos: Las seis fases de preguntar, preparar, procesar, analizar, compartir y actuar cuyo propósito es el
de obtener conocimiento que propicie la toma de decisiones informada.
seleccionado.
Q
R
Referencia de celda: Una celda o un rango de celdas en una hoja de cálculo que se utiliza generalmente en las fórmulas y
funciones.
Reformulación: Proceso de replantear un problema o desafío, que se redirecciona luego hacia una posible resolución.
Registro: Conjunto de datos relacionados en una tabla de datos, generalmente sinónimo de “fila”.
Reglamento General de Protección de Datos de la Unión Europea (GDPR): Organismo formulador de políticas en la Unión
Europea, creado para ayudar a proteger a las personas y sus datos.
Retorno de la inversión (ROI): Fórmula que utiliza las métricas de inversión y ganancias para evaluar el éxito de una inversión.
S
Sesgo de confirmación: La tendencia de buscar o interpretar la información de manera que confirma creencias preexistentes.
Sesgo de interpretación: Tendencia a interpretar situaciones ambiguas de manera positiva o negativa.
Sesgo de los datos: Cuando una preferencia a favor o en contra de una persona, un grupo de personas o una cosa sesga
sistemáticamente los resultados del análisis de datos en una cierta dirección.
Sesgo del investigador: Tendencia de distintas personas a observar las cosas de forma diferente (también se denomina
“sesgo del observador”).
Sesgo del muestreo: Representar en mayor o en menor medida a ciertos miembros de una población debido a que se trabaja
con una muestra que no representa a la población en su totalidad.
Sesgo del observador: Tendencia de distintas personas a observar las cosas de forma diferente (también se denomina “sesgo
del investigador”).
Sesgo: Preferencia consciente o no a favor o en contra de una persona, un grupo de personas o una cosa.
SQL: (Ver “Lenguaje de consulta estructurado”).
T
Tabla dinámica: Herramienta de resumen de datos que se utiliza para clasificar, reorganizar, agrupar, contar, totalizar o
promediar datos.
Tarea empresarial: La pregunta o el problema que el análisis de datos resuelve para un negocio.
Tipo de datos de texto: Secuencia de caracteres y puntuación que contiene información textual (también denominado “tipo
de datos de cadena”).
Tipo de datos en cadena: Secuencia de caracteres y puntuación que contiene información textual (también denominado
“tipo de datos de texto”).
Tipo de datos: Atributo que describe los datos según sus valores, su lenguaje de programación o las operaciones que puede
realizar.
Toma de decisiones inspirada en datos: Exploración de diferentes fuentes de datos para descubrir qué tienen en común.
Transparencia de la transacción: Aspecto de la ética de datos que presupone que se deben explicar todas las actividades de
procesamiento de datos y los algoritmos a la persona que proporciona los datos y que también presupone que esta persona
debe comprenderlos.
U
V
Vigencia: El aspecto de la ética de datos que presupone que las personas deben conocer las transacciones financieras
resultantes del uso de sus datos personales y la magnitud de esas transacciones.
Visualización: (Consulta la visualización de datos).
CUESTIONARIO MODULO 2:
Pregunta 1
¿Cuáles de las siguientes situaciones son ejemplos de sesgo? Selecciona todas las opciones que
correspondan.
1. Un juez de concurso de baile que es amigo íntimo de la bailarina que gana el concurso
2. Un académico que solo lee fuentes que apoyan su argumento. Correcto. Un académico que solo lee las fuentes
que apoyan su argumento, una guardería que no contrata a hombres para puestos de cuidado de niños y un
juez de concurso de baile que es amigo íntimo de la bailarina que gana el concurso son ejemplos de sesgo.
3. Una guardería que no contrata a hombres para puestos de cuidado de niños. Correcto. Un académico que solo
lee las fuentes que apoyan su argumento, una guardería que no contrata a hombres para puestos de cuidado
de niños y un juez de concurso de baile que es amigo íntimo de la bailarina que gana el concurso son ejemplos
de sesgo.
4. Un investigador que encuesta al grupo de una muestra que no es representativa de la población.
Esto no debería estar seleccionado
Si necesitas hacer un repaso, mira el video sobre sesgo.

Pregunta 2
Una universidad encuesta a sus alumnos deportistas sobre su experiencia deportiva en la universidad. La
encuesta solo incluye estudiantes deportistas becados. ¿Qué tipo de sesgo es el de este ejemplo?
1. Sesgo de interpretación
2. Sesgo del observador
3. Sesgo de confirmación
4. Sesgo del muestreo
Correcto. Este es un ejemplo de sesgo del muestro, que ocurre cuando una muestra no es representativa de toda la
población en su conjunto.
Pregunta 3
¿Cuál de las siguientes opciones describe cualidades de los datos correctos? Selecciona todas las opciones
que correspondan.
1. Integrales. Correcto Los datos correctos son completos, actuales y citados.
2. Actuales. Correcto. Los datos correctos son completos, actuales y citados.
3. Consecuentes
4. Citados. Correcto. Los datos correctos son completos, actuales y citados.
Pregunta 4
Completa el espacio en blanco: _____ de datos se refiere a normas justificadas respecto de lo que está bien y
lo que está mal a la hora de recopilar, compartir y usar datos
1. privacidad
2. ética
3. credibilidad
4. anonimización
Correcto. La ética de datos se refiere a normas justificadas respecto de lo que está bien y lo que está mal a la hora de
recopilar, compartir y usar datos.
Pregunta 5
La persona que proporciona sus datos tiene derecho a saber y comprender todas las actividades de
procesamiento de datos y los algoritmos utilizados en esos datos. Esto se llama propiedad.
1. Verdadero
2. Falso
Correcto. La persona que proporciona sus datos tiene derecho a saber y comprender todas las actividades de
procesamiento de datos y los algoritmos utilizados en esos datos. Esto se llama transparencia de la transacción.
Pregunta 6
¿Qué es la privacidad de los datos?

1. Preservar la información y la actividad de una persona en todas las transacciones de datos.
2. Buscar o interpretar información de respaldo.
3. Normas justificadas respecto de lo que está bien y lo que está mal a la hora de recopilar, compartir y usar datos.
4. Proporcionar el libre acceso, uso e intercambio de los datos.
Correcto. La privacidad de los datos se refiere a preservar la información y la actividad de una persona en todas las
transacciones.
Pregunta 7
La anonimización de los datos se aplica tanto a textos como a imágenes.

1. Verdadero
2. Falso
Correcto. La anonimización de datos se aplica a toda la información de identificación personal, incluso texto e
imágenes.
Pregunta 8
Un aspecto clave de los datos abiertos es el libre acceso a la información personal de las personas.
1. Verdadero
2. Falso
Correcto. Los datos abiertos no implican otorgar libre acceso a la información personal de las personas.
Modulo 3
Trabajar con bases de datos.
VIDEO: Todo sobre las bases de datos.
Hola de nuevo. Hasta ahora, has visto cómo se pueden reunir y analizar los datos para resolver todo tipo de problemas. El
siguiente paso es aprender todo sobre bases de datos a modo de repaso. Una base de datos es un conjunto de datos
almacenados en un sistema informático, pero el almacenamiento es solo el comienzo. Descubrirás cómo las bases de datos
posibilitan encontrar la información exacta que necesitas para tu análisis. También aprenderás cómo ordenar los datos para
acercar aquellos que necesites para generar informes perspicaces y mucho más. Luego profundizaremos estos temas muy,
pero muy a fondo. Estoy hablando de metadatos. Es probable que hayas escuchado a alguien decir que algo es
“autoconsciente” (en inglés, “meta”). En general, están hablando de algo que se refiere a sí mismo o que está siendo
consciente de sí mismo. Por ejemplo, si el personaje de un libro sabe que está dentro de un libro, es autoconsciente.. Si
realizas un documental sobre cómo hacer documentales, eso también es algo autoconsciente. Y aquí, en Google,
constantemente analizo la forma en que analizo los datos. No hay duda de que eso es autoconsciente.
Hago eso para que mi trabajo cuente con una revisión de calidad, para asegurarme de que mis métodos son justos. Y para
asegurarme de que estoy prestando atención a cualquier sesgo que pueda afectar el resultado. Como analista, debes hacer
esto también. A veces nos acercamos demasiado a nuestros datos. Y es clave tomar distancia y preguntarnos a nosotros
mismos si nuestros procesos tienen sentido. Pero regresemos un poco hacia atrás y definamos metadatos. Los metadatos
son datos sobre los datos. Como ya dije: es muy profundo.
Los metadatos son muy importantes cuando trabajas con bases de datos. Piensa en ellos como una guía de referencia. Sin
esa guía lo único que tienes es un montón de datos sin un contexto que explique lo que significan. Los metadatos indican de
dónde vienen los datos, cuándo y cómo se crearon, y de qué se tratan.
A continuación, aprenderás cómo tomar datos de una base de datos u otra fuente y agregarlos a una hoja de cálculo. Podrás
hacer esto importando datos directamente o utilizando SQL para generar la solicitud. Y una vez que tengas los datos en una
hoja de cálculo, las posibilidades son infinitas. Todo lo que estamos a punto de aprender es una parte muy importante de la
fase de preparación del proceso de análisis de datos. Es cómo los analistas de datos descubren qué tipo de datos serán útiles
para ellos. Si tienes los datos correctos, es muy probable que puedas resolver los problemas de tu empresa de forma exitosa.
¿Estás listo para aprovechar el increíble poder de las bases de datos? Empecemos.
VIDEO: Características de las bases de datos:

Las bases de datos son herramientas esenciales para los analistas de datos. Yo las utilizo constantemente. Todos los datos a
los que accedo están almacenados en bases de datos. Las bases de datos almacenan y organizan datos, lo que facilita la
gestión y el acceso a la información por parte de los analistas de datos. Nos ayudan a obtener información de forma más
rápida, a tomar decisiones basadas en datos y a resolver problemas. Ya has oído hablar un poco acerca de qué son las bases
de datos y cómo las usan los analistas de datos. Ahora vamos a aprender más sobre las funciones y los componentes de las
bases de datos. Aquí puedes ver una estructura simple de una base de datos. Contiene tablas con información sobre un
fabricante de automóviles. El nivel superior incluye concesionarios de automóviles, detalles de productos y piezas de
repuesto. Luego, si examinas a fondo el siguiente nivel tras seleccionar una de esas tablas, encontrarás detalles más
específicos sobre cada una de ellas. Esto se denomina una base de datos relacional. Una base de datos relacional es una
base de datos que contiene una serie de tablas relacionadas que pueden conectarse mediante sus relaciones. Para que dos
tablas tengan una relación, debe haber uno o más campos iguales dentro de ambas tablas. Por ejemplo, en este caso, branch
ID puede verse en esta tabla y en esta otra. Si existe el mismo campo en ambas tablas, podemos utilizarlo para conectar las
dos tablas. El campo con branch ID es clave para conectar estas tablas. Hay dos tipos de claves. Una clave
primaria es un identificador que hace referencia a una columna en la que cada valor es único. Puedes considerarla
como un identificador único para cada fila de la tabla. Para nuestra tabla del concesionario, que contiene información sobre
las distintas sucursales del concesionario, branch ID es la clave primaria. De manera similar, para la tabla que contiene
detalles de los productos de cada automóvil, nuestra clave primaria es el número de inspección del vehículo (VIN). Como
analista, es posible que necesites crear tablas. Si decides incluir una clave primaria, debe ser única, lo que quiere decir que
no puede haber dos filas con la misma clave primaria. Tampoco puede tener un valor nulo o en blanco. También hay claves
externas. Una clave externa es un campo en una tabla que es una clave primaria en otra tabla. En otras palabras, una clave
externa es cómo una tabla puede conectarse con otra. Dado que nuestra tabla con las piezas de repuesto contiene
información sobre cada parte del automóvil, la clave primaria es part ID. Cada fila de nuestra tabla de piezas de repuesto
representa una pieza única. Todas las otras claves de esta tabla, como el número de inspección del vehículo, son claves
externas que permiten que la tabla de las piezas de repuesto esté conectada con las otras tablas. Como puedes ver, una tabla
solo puede tener una clave primaria, pero puede contar con muchas claves externas. Comprender la clave primaria y las
claves externas puede ser complicado, pero tendrás más oportunidades para practicarlas próximamente. A modo de resumen
general, una clave primaria se utiliza para asegurar que los datos de una columna específica son únicos. Solamente identifica
un registro en una tabla de base de datos relacional. Solo se permite una clave primaria en una tabla y no puede contener
valores nulos o en blanco. Una clave externa es una columna o un grupo de columnas de una tabla de base de datos
relacional que proporciona un enlace entre los datos y las dos tablas. Se refiere al campo de una tabla que es la clave
primaria de otra tabla. Por último, es importante recordar que puede haber más de una clave externa en una tabla. Puedes
volver a mirar el video para que puedas estar seguro de que comprendes bien las claves primarias y externas. A continuación,
comenzarás a practicar cómo acceder y analizar los datos de bases de datos reales. Será una gran oportunidad para mejorar
tu comprensión de claves primarias y externas, la organización de la base de datos y cómo puedes utilizar las bases de datos
en tu carrera como futuro analista.
Bases de datos en el análisis computacional de
datos.
Las bases de datos permiten a los analistas manipular, almacenar y procesar datos. Esto les ayuda a buscar datos de
manera mucho más eficiente para obtener la mejor información.
Bases de datos relacionales:

Una base de datos relacional es una base de datos que contiene una serie de tablas que se pueden conectar para
mostrar relaciones. Básicamente, permiten a los analistas de datos organizar y vincular datos en función de lo que los
datos tienen en común.
En una tabla no relacional, encontrarás todas las variables posibles que podría interesarte analizar agrupadas
conjuntamente. Esto puede hacer que sean realmente difíciles de clasificar. Esa es una de las razones por las que las
bases de datos relacionales son tan comunes en el análisis de datos: simplifican muchos procesos de análisis y hacen
que los datos sean más fáciles de encontrar y de usar en toda una base de datos.
La clave de las bases de datos relacionales:

Las tablas de una base de datos relacional están conectadas por los campos que tienen en común. Es posible que
recuerdes haber aprendido sobre las claves primarias y externas antes. Para repasar rápidamente, una clave primaria
es un identificador que hace referencia a una columna en la que cada valor es único. En otras palabras, es una
columna de una tabla que se utiliza para identificar de forma única cada registro dentro de esa tabla. El valor asignado
a la clave primaria en una fila determinada debe ser único en toda la tabla. Por ejemplo, si customer_id es la clave
primaria para la tabla del cliente, no puede haber dos clientes con el mismo customer_id.
Por el contrario, una clave externa es un campo en una tabla que es una clave primaria en otra tabla. Una tabla puede
tener solo una clave primaria, pero puede tener varias claves externas. Esas claves son las que generan las relaciones
entre las tablas en una base de datos relacional, lo que ayuda a organizar y conectar los datos entre varias tablas en la
base de datos.
Algunas tablas no requieren una clave primaria. Por ejemplo, una tabla de ingresos puede tener muchas claves
externas y ninguna clave primaria. Una clave primaria también puede construirse a partir de varias columnas de una
tabla. Este tipo de clave primaria se denomina clave compuesta. Por ejemplo, si customer_id y location_id son dos
columnas de una clave compuesta en la tabla de un cliente, los valores asignados a esos campos en cualquier fila dada
deben ser únicos en toda la tabla.
¿SQL? Estás hablando mi idioma
Las bases de datos utilizan un lenguaje especial para comunicarse denominado lenguaje de consulta. El lenguaje de
consulta estructurado (SQL) es un tipo de lenguaje de consulta que permite a los analistas de datos comunicarse con la
base de datos. De este modo, un analista de datos usará SQL para crear una consulta con el fin de ver los datos
específicos que quiere visualizar en un conjunto más grande. En una base de datos relacional, los analistas de datos
pueden escribir consultas para obtener información de las tablas relacionadas. SQL es una herramienta poderosa para
trabajar con bases de datos; ¡por eso aprenderás más sobre esta herramienta a continuación!
Examinar un conjunto de datos: Un recorrido

práctico y guiado
Como analista de datos, utilizarás datos para responder preguntas y resolver problemas. Cuando analizas datos y
sacas conclusiones, estás brindando información que puede influenciar decisiones empresariales, conducir a un cambio
positivo y ayudar a los interesados a alcanzar sus metas.
Antes de comenzar un análisis, es importante examinar tus datos para determinar si contienen la información específica
que necesitas para responder las preguntas de tus interesados. En cualquier conjunto de datos puede darse el caso de
que:
 Los datos no estén allí (tienes datos sobre sándwiches, pero necesitas datos sobre pizza).
 Los datos no sean suficientes (tienes datos sobre pizza desde el 1 hasta el 7 de junio, pero necesitas datos de
todo el mes de junio).
 Los datos sean incorrectos (los datos sobre pizza cotizan una porción a $250, lo que te hace dudar de la validez
del conjunto de datos).
Examinar el conjunto de datos te ayudará a identificar las preguntas que puedes responder y qué datos aún te faltan.
Podrás reponer esos datos de una fuente externa o, al menos, recomendarles a tus interesados que utilicen otra fuente
de datos.
En esta lectura, imagina que eres un analista de datos que busca datos en una hoja de cálculos para determinar si es
posible responder las preguntas de tus interesados.
El escenario:
Eres una analista de datos que trabaja para una empresa de helados. La gerencia está interesada en mejorar las
ventas de helado de la empresa.
La empresa ha estado recopilando datos sobre sus ventas, pero no son demasiados. Los datos disponibles son de una
fuente de datos interna y están basados en las ventas de 2019. Te han pedido que revises los datos y que brindes
información sobre las ventas de helados de la empresa. Idealmente, la gerencia quisiera las respuestas a las siguientes
preguntas:
1. ¿Cuál es el sabor de helado más popular?

2. ¿De qué manera la temperatura afecta las ventas?
3. ¿De qué manera los fines de semana y los días feriados afectan las ventas?
4. ¿Cómo difiere la rentabilidad en clientes nuevos y recurrentes?
Descarga los datos:
Puedes descargar los datos para continuar con la lectura. Para usar la plantilla de los datos de venta, haz clic en el
enlace de abajo y selecciona “Usar plantilla”.
Enlace a la plantilla: Ventas de helado
Si no tienes una cuenta de Google, puedes descargar las hojas de cálculo directamente desde el siguiente archivo
adjunto:
jInspecting a dataset A guided, hands-on tour_SalesByTemp_SPA
XLSX File
Inspecting a dataset A guided, hands-on tour_SalesByDay_SPA

XLSX File
Inspecting a dataset A guided, hands-on tour_SalesByFlavor_SPA
XLSX File
Examina los datos:

Pregunta 1: ¿Cuál es el sabor de helado más popular?
Para descubrir el sabor más popular, primero tienes que definir qué significa "popular". ¿El sabor más popular es el que
generó más ingresos en 2019? ¿O es el sabor que ha tenido mayor cantidad de unidades vendidas en 2019? A veces,
las opciones de medición están limitadas por los datos que tienes. Puedes revisar tu hoja de cálculo para ver si alguna
de estas definiciones de “popular” tiene sentido en base a los datos disponibles.
Haz clic en la pestaña saboresde la hoja de cálculo para ver los datos pertinentes. La hoja de sabores tiene tres
columnas y 209 filas de datos. Los encabezados de las columnas son semana(A), unidades vendidas(B) y sabor(C). Este
conjunto de datos no tiene una descripción de datos, así que tendrás que descubrir la importancia de las columnas por
ti mismo. En base a los datos, deduces que estas columnas brindan información sobre el número de unidades vendidas
semanalmente de cada sabor de helado en 2019.
En este caso, puedes descubrir cuál es el sabor más popular utilizando las unidades vendidas como medida. En
particular, puedes utilizar la columna unidades vendidas(B) para calcular el número total de unidades vendidas de cada
sabor durante el año. Desafortunadamente, el conjunto de datos no proporciona el monto de ventas anuales de cada
sabor. En este caso, el siguiente paso sería preguntarles a los interesados si los datos de las ventas anuales por sabor
están disponibles en otra fuente. Si no es el caso, puedes agregar una instrucción sobre las limitaciones que presentan
los datos actuales para tu análisis.
Pregunta 2: ¿De qué manera la temperatura afecta las ventas?

Para explorar la segunda pregunta, haz clic en la pestaña temperaturas y analiza los datos. La hoja temperaturas tiene
dos columnas y 366 filas de datos. Los encabezados de las columnas son temperatura y ventas. Los datos pueden
mostrar las ventas totales de 2019 en base a la temperatura (por ejemplo, la primera entrada podría presentar un total
de $36.69 en las ventas que se realizaron durante tres días distintos en los que la temperatura máxima alcanzó los 60
grados Fahrenheit). O los datos pueden proporcionar un panorama de las ventas y de la temperatura para cada día de
2019 (por ejemplo, la primera entrada puede referirse a un solo día que tuvo una máxima de 60 grados Fahrenheit y un
total de ventas de $36.69).
Entonces, ¿qué significa? Es posible que sea un panorama diario porque hay 365 entradas para la temperatura y
muchas filas con la misma temperatura y diferentes valores de ventas. Esto quiere decir que cada entrada corresponde
a un día y no a un resumen de varios días. De todos modos, si no cuentas con más información, no puedes estar
seguro. Además, no sabes si estos datos están ordenados de manera consecutiva por fecha o si se encuentran en otro
orden. El siguiente paso sería ponerse en contacto con el propietario del conjunto de datos para que aclare esta
cuestión.
Si resulta que las temperaturas afectan las ventas, podrás ofrecerle a tus interesados información como la siguiente:
“Cuando las temperaturas máximas están por encima de los X grados, el promedio de las ventas de helados aumenta
en Y cantidad. Por ese motivo, la empresa debería planear un aumento del inventario durante esa época para
maximizar las ventas”.
Pregunta 3: ¿De qué manera los fines de semana y los días feriados afectan las ventas?
A continuación, haz clic en la pestaña ventas para ver los datos sobre las fechas de venta. La hoja ventas tiene dos
columnas y 366 filas de datos. Los encabezados de las columnas son fecha y ventas. Es muy probable que los datos
sean las ventas diarias totales en 2019, ya que se registran las ventas de cada día durante 2019.
Puedes utilizar estos datos para determinar si una fecha específica cae en un fin de semana o en un día feriado y
agregar una columna a tu hoja que refleje esta información. Luego, podrás averiguar si las ventas durante los fines de
semana o los días feriados son más altas que en cualquier otro día. Esto será útil para planificar el inventario y para
propósitos de marketing.
Pregunta 4: ¿Cómo difiere la rentabilidad en clientes nuevos y en clientes recurrentes?

Tu conjunto de datos no contiene datos de ventas relacionados con nuevos clientes. Sin esa información, no podrás
responder la pregunta final. De todos modos, es posible que la empresa recopile datos de clientes y los almacene en
una tabla de datos diferente.
De ser así, el siguiente paso será descubrir cómo acceder a los datos de clientes que tiene la empresa. Luego podrás
incorporar los datos de ventas de ingreso a la tabla de datos del cliente para categorizar cada venta como
perteneciente a un cliente nuevo o a un cliente recurrente, para luego poder analizar la diferencia en cuanto a la
rentabilidad entre los dos grupos de clientes. Esta información ayudará a tus interesados a desarrollar campañas de
marketing para tipos específicos de clientes con el fin de aumentar la lealtad a la marca y la rentabilidad general.
Conclusión
Cuando trabajes con proyectos de analítica no siempre tendrás a tu disposición todos los datos necesarios o
pertinentes. En muchos de esos casos, podrás recurrir a otras fuentes de datos para completar la información.
Más allá de las limitaciones de tu conjunto de datos, todavía es posible ofrecer información valiosa a los interesados.
Para los próximos pasos, tu mejor plan de acción será tomar la iniciativa y hacer preguntas, identificar otros conjuntos
pertinentes de datos o investigar por tu cuenta. Analizar cuidadosamente tus datos tendrá un gran impacto en la
calidad general de tu análisis, sin importar los datos con los que estés trabajando.
CUESTIONARIO:
Pregunta 1
Completa el espacio en blanco: Un _____ es un identificador que hace referencia a una columna de una base de
datos en la que cada valor es único.
1. relación
2. clave externa
3. clave primaria
4. campo
Correcto. Una clave primaria es un identificador que hace referencia a una columna en la que cada valor es único. Una
clave externa es un campo en una tabla que es una clave primaria en la tabla original.
Pregunta 2
Completa el espacio en blanco: Una base de datos relacional contiene una serie de _____ que se pueden
conectar para formar relaciones.
1. celdas
2. hojas de cálculo
3. campos
4. tablas
Correcto. Una base de datos relacional contiene una serie de tablas que se pueden conectar para formar relaciones.
Pregunta 3
Un beneficio clave de trabajar con bases de datos normalizadas es que ayudan a reducir la redundancia de
datos. ¿Cuál de las siguientes opciones es un ejemplo de redundancia?
1. Una base de datos que contiene dos claves externas.
2. Una base de datos que forma dos o más relaciones
3. Los miembros del equipo en las distintas oficinas que trabajan con los mismos datos.
4. Los mismos datos se almacenan en dos lugares diferentes.
Correcto. Los mismos datos que se almacenan en dos lugares diferentes son un ejemplo de redundancia.
Gestionar datos con metadatos:

VIDEO: Explorar los metadatos:
Ahora que conoces las distintas formas de organizar datos en una base de datos, veamos cómo puedes describir esos datos.
En este video comenzaremos a explorar los metadatos, que son un aspecto muy importante de la gestión de la base de datos.
Sin embargo, el concepto “metadatos” es abstracto. Empecemos con un ejemplo simple y cotidiano. ¿Sabías que cada vez
que tomas una fotografía con un teléfono inteligente se recopilan datos automáticamente y se almacenan junto con esa
fotografía? Echa un vistazo. Elije cualquier fotografía de tu computadora. Aquí hay una linda toma de los perros de mi amigo,
Rudy y Matilda. Haz clic con el botón derecho sobre tu fotografía y selecciona “Obtener información” o “Propiedades”.
Así podrás ver los metadatos de tu fotografía, que te dirán el tipo de archivo que es, la fecha y la hora en que la tomaste, la
geolocalización o dónde la tomaste, qué tipo de dispositivo utilizaste para tomarla y mucho más. Asombroso, ¿verdad? Aquí
tienes otro ejemplo. Cada vez que envías o recibes un correo electrónico, los metadatos acompañan ese mensaje. Puedes
encontrarlos haciendo clic en “Ver original” o “Ver detalles del mensaje”.
Los metadatos de un correo electrónico incluyen su asunto, el remitente, el destinatario, y la fecha y la hora en que fue
enviado. Los metadatos incluso saben qué tan rápido fue enviado una vez que el remitente presionó “Enviar”. Los metadatos
son información que se utiliza para describir los datos que algo contiene, como una fotografía o un correo electrónico.
Recuerda que los metadatos no son los datos. En cambio, son datos sobre datos. En el análisis computacional de datos, los
metadatos ayudan al analista de datos a interpretar el contenido de los datos de una base de datos. Por eso los metadatos
son tan importantes cuando trabajas con bases de datos. Le indican al analista de qué se tratan los datos. Eso posibilita poner
los datos a trabajar para resolver problemas y tomar decisiones basadas en datos. Como analista de datos, hay tres tipos
comunes de metadatos con los que te vas a cruzar: descriptivos, estructurales y administrativos. Los metadatos descriptivos
son metadatos que describen una pieza de datos y pueden utilizarse para identificarla más adelante. Por ejemplo, los
metadatos descriptivos de un libro que se encuentra en una biblioteca incluirían el código que ves en el lomo, que se conoce
como código normalizado internacional para libros, también denominado ISBN.
También incluiría el autor y el título del libro. Luego pasamos a los metadatos estructurales, que son los metadatos que
indican cómo se organiza un dato y si forma parte de una o más recopilaciones de datos. Volvamos a la biblioteca. Un
ejemplo de datos estructurales sería cómo se reúnen las páginas de un libro para crear los diferentes capítulos. Es importante
dar cuenta de que los metadatos estructurales también hacen un seguimiento de la relación entre dos cosas. Por ejemplo,
pueden mostrarnos que el documento digital del manuscrito de un libro era en realidad la versión original de un libro que
hoy está impreso. Finalmente, tenemos los metadatos administrativos. Los metadatos administrativos son metadatos que
indican la fuente técnica de un recurso digital. Cuando observamos los metadatos de la fotografía, esos eran metadatos
administrativos. Te dirán el tipo de archivo que era, la fecha y la hora en que tomaste la fotografía, y mucho más. Aquí tienes
una reflexión final que te ayudará a comprender los metadatos. Si estás yendo a la biblioteca a buscar un libro, podrías buscar
el título de un libro, el autor, la extensión y la cantidad de capítulos. Esos son metadatos, y pueden decirte mucho sobre el
libro, pero tendrás que leer realmente el libro para saber de qué se trata. Del mismo modo, puedes leer sobre análisis
computacional de datos pero debes tomar este curso para obtener al certificado de Google Data Analytics. Sigue adelante
para obtener esa nueva perspectiva.
Los metadatos son tan importantes como los

datos en sí.
El análisis computacional de datos es un campo que crece en base a la recolección y organización de datos. En esta
lectura, aprenderás cómo analizar y comprender detalladamente cada aspecto de tus datos.
Echa un vistazo a cualquier dato que encuentres. ¿Qué es? ¿De dónde provino? ¿Es útil? ¿Cómo lo sabes? Aquí es
donde entran en juego los metadatos para proporcionar una mejor comprensión de los datos. En pocas palabras, los
metadatos son datos sobre datos. En la gestión de la base de datos, proporcionan información sobre otros datos y
ayudan a los analistas de datos a interpretar los contenidos de los datos en una base de datos.
Independientemente de si estás trabajando con una gran cantidad de datos o con una pequeña, los metadatos son la
marca de un equipo de análisis bien informado, que ayuda a comunicar datos a toda la empresa y a simplificar la
reutilización de los datos. Básicamente, los metadatos informan el quién, qué, cuándo, dónde, cuál, cómo y por qué de
los datos.
Elementos de los metadatos

Antes de mirar ejemplos de metadatos, es importante comprender qué tipo de información suelen proporcionar los
metadatos.
Título y descripción
¿Cuál es el nombre del archivo o del sitio web que estás examinando? ¿Qué tipo de contenido tiene?
Etiquetas y categorías
¿Cuál es la descripción general de los datos que tienes? ¿Los datos están indexados o descriptos de algún modo
específico?
Quién los creó y cuándo

¿De dónde vinieron los datos y cuándo se crearon? ¿Son recientes o existen desde hace mucho tiempo?
Quién los modificó por última vez y cuándo

¿Se realizaron cambios en los datos? De ser así, ¿las modificaciones eran recientes?
Quién puede acceder a ellos o actualizarlos

¿Este conjunto de datos es público? ¿Se necesitan permisos especiales para personalizar o modificar el conjunto de
datos?
Ejemplos de metadatos
En el mundo digital actual, los metadatos están en todos lados y es una práctica cada vez más común brindar
metadatos en muchos medios e información con la que interactúas. Aquí tienes algunos ejemplos de la vida real sobre
dónde encontrar metadatos:
Fotografías
Cuando se toma una fotografía con una cámara, se recopilan y se guardan metadatos relacionados con el nombre del
archivo en la cámara, la fecha, la hora y la geolocalización.
Correos electrónicos
Cuando envías o recibes un correo electrónico, hay muchos metadatos visibles, como la línea del asunto, el
destinatario, y la fecha y la hora del envío. También hay metadatos ocultos que incluyen nombres de servidores,
direcciones IP, formatos HTML y detalles de software.
Hojas de cálculo y documentos

Las hojas de cálculo y los documentos contienen una gran cantidad de datos, así que no resulta sorprendente que los
metadatos también los acompañen. Los títulos, el autor, la fecha de creación, el número de páginas, los comentarios
del usuario, así como los nombres de las pestañas, de las tablas y de las columnas son metadatos que pueden
encontrarse en hojas de cálculo y en documentos.
Sitios web
Cada página web tiene un número de campos de metadatos estándar; por ejemplo, etiquetas y categorías, nombre del
creador del sitio, título y descripción de la página web, hora de creación y cualquier iconografía.
Archivos digitales
Por lo general, si haces clic con el botón derecho en cualquier archivo de la computadora, verás sus metadatos.
Pueden consistir en el nombre de un archivo, su tamaño, la fecha de creación y de modificación, y el tipo de archivo.
Libros
Los metadatos no son solamente digitales. Cada libro tiene una cantidad de metadatos estándares en las tapas y en el
interior que te informarán sobre el título, el nombre del autor, la tabla de contenidos, la información editorial, la
descripción de copyright, el índice y una breve descripción de los contenidos del libro.
Los datos como los conoces

Conocer el contenido y el contexto de tus datos, así como la forma en la que están estructurados, es muy valioso en tu
carrera como analista de datos. A la hora de analizar los datos, es importante que siempre entiendas el panorama
general. No solo se trata de los datos que estás observando, sino de cómo se integran esos datos. Los metadatos
garantizan que puedas encontrar, utilizar, preservar y reutilizar los datos en el futuro. Recuerda que será tu
responsabilidad gestionar y utilizar los datos en su totalidad; los metadatos son tan importantes como los datos.
VIDEO: Utilizar metadatos como un analista:

Ahora que sabes qué son los metadatos, es hora de explorar por qué los analistas de datos los utilizan. Ya sabes que los datos
necesitan ser identificados y descriptos antes de que puedan ayudarte a resolver un problema o a tomar una decisión
efectiva para la empresa. Poner los datos en contexto es probablemente lo más valioso que hacen los metadatos, pero hay
muchos más beneficios de utilizar metadatos. Este es uno de ellos. Los metadatos crean una única fuente de verdad al
mantener las cosas coherentes y uniformes. Nosotros, los analistas de datos, amamos la coherencia. Siempre buscamos este
tipo de uniformidad en nuestros datos y en nuestras bases de datos. Después de todo, los datos que son uniformes pueden
organizarse, clasificarse, almacenarse, accederse y utilizarse de manera efectiva. Además, cuando una base de datos es
coherente, es mucho más fácil descubrir relaciones entre los datos que están dentro de ella y los datos que están en otro
lugar. Los metadatos también permiten que los datos sean más confiables al asegurar que sean exactos, precisos, relevantes
y oportunos. Eso hace que sea más fácil para los analistas de datos identificar las causas raíz de cualquier problema que
pueda surgir. La conclusión es que, cuando los datos con los que trabajamos son de buena calidad, las cosas se vuelven más
simples y mejoran los resultados. Una de las formas en que los analistas de datos se aseguran de que sus datos sean
coherentes y confiables es mediante el uso de algo llamado repositorio de metadatos. Un repositorio de metadatos es una
base de datos creada específicamente para almacenar metadatos. Los repositorios de metadatos pueden almacenarse en una
locación física o pueden ser virtuales, como los datos que existen en la nube. Estos repositorios describen de dónde vienen
los metadatos, los mantienen accesibles para que puedan ser utilizados de forma rápida y simple, y los mantienen en una
estructura común para quienes necesiten utilizarlos. Los repositorios de metadatos hacen que sea más fácil y rápido reunir
muchas fuentes para el análisis de datos. Para hacer esto, describen el estado y la ubicación de los metadatos, la estructura
de las tablas que están dentro y cómo fluyen los datos por el repositorio. Incluso registran quién accede a los metadatos y
cuándo. Aquí hay un ejemplo del mundo real. Como analista del cuidado de la salud en Google, utilizo datos de segunda y de
tercera fuente. Como sabes, los datos de segunda fuente son datos que recopila un grupo directamente de su audiencia y
que, luego, se venden. Los datos de tercera fuente vienen de fuentes externas que no son las recopiladoras originales de los
datos. Los obtienen de páginas web o de programas que extraen los datos de distintas plataformas donde se generaron
originalmente. Es un poco complejo, pero lo más importante es recordar que los datos de terceras partes no provienen del
interior de tu propia empresa. Si mi equipo necesita trabajar con datos que no fueron creados en Google, eso quiere decir
que a veces nosotros no sabemos demasiado sobre su calidad y credibilidad, pero necesitamos estar seguros de que nuestros
datos pueden ser confiables y que se recopilaron de manera responsable. Después de todo, si los datos no son confiables,
nuestros resultados tampoco serán confiables. Por eso es tan importante comprender los metadatos de la base de datos
externa. Nos permite confirmar que los datos están limpios, son precisos, relevantes y oportunos. Eso es muy importante si
los datos provienen de otra organización. Otro paso importante cuando uno trabaja con datos externos es confirmar que
estamos autorizados a utilizarlos. Solemos contactar al dueño para asegurarnos de que podemos acceder a ellos o
comprarlos. En resumen, los repositorios de metadatos son útiles por todas estas razones. Además, me ayudan a garantizar
que mi equipo está extrayendo el contenido correcto para un proyecto particular y que lo está utilizando de forma apropiada.
Podemos confirmar esto porque los metadatos describen de manera clara cómo y cuándo se recopilaron los datos, cómo
están organizados y mucho más. Pronto aprenderás mucho más sobre el uso de metadatos en análisis computacional de
datos, y si piensas que los metadatos son particularmente fascinantes, descubrirás algunas opciones profesionales muy
emocionantes que se enfocan en los metadatos. Mantente atento.
VIDEO: Gestión de metadatos:

Los metadatos y los repositorios de metadatos son herramientas muy poderosas de la caja de herramientas de los analistas
de datos. Como hemos visto anteriormente, los analistas de datos las utilizan para crear una única fuente de verdad,
mantener la coherencia y uniformidad de los datos y asegurarse de que los datos con los que trabajamos sean exactos,
precisos, relevantes y oportunos. Estas herramientas también facilitan el acceso a los datos y su utilización al estandarizar
nuestros procesos. En este video, analizaremos más componentes sobre los metadatos y aprenderemos cómo trabajan los
analistas de metadatos para mantener las cosas organizadas. Sabemos que la cantidad de datos que hay allí afuera continúa
creciendo, pero muchas empresas no están usando sus datos. A veces, no saben lo que tienen; otras, no pueden encontrarlo;
y otras, la empresa simplemente no confía en lo que tiene. Especialmente en las grandes empresas, los datos pueden abarcar
numerosos procesos y sistemas diferentes. Y reunir datos de tantos lugares diferentes puede ser un gran desafío. Por
ejemplo, digamos que una empresa comienza con un sistema de almacenamiento de datos tradicional en sus oficinas. Pero
luego, a medida que la cantidad de datos que tiene continúa expandiéndose, también necesita almacenamiento en la nube.
Además, esta empresa puede estar accediendo y utilizando datos de segundas y terceras partes de una organización
asociada. Cada uno de estos sistemas tiene sus propias reglas y requisitos, de modo que cada uno organiza los datos de una
forma completamente diferente, lo que le da incluso más complejidad. No es de extrañar que muchas organizaciones tengan
dificultades para encontrar los datos correctos en el momento preciso. Por otro lado, los metadatos se almacenan en una
ubicación única, central y le brindan a la empresa información estandarizada sobre todos sus datos. Eso se realiza de dos
maneras. En primer lugar, los metadatos incluyen información sobre dónde está localizado cada sistema y dónde se ubican
los conjuntos de datos dentro de esos sistemas. En segundo lugar, los metadatos describen cómo se conectan todos esos
datos entre varios sistemas. Otro aspecto importante de los metadatos es algo llamado gobierno de datos. El gobierno de
datos es un proceso para asegurar la gestión formal de los recursos de datos de una empresa. Eso le brinda a la organización
un mejor control de sus datos y le ayuda a la empresa a gestionar problemas relacionados con la seguridad y privacidad de
los datos, con la integridad y la facilidad de uso, y con los flujos de datos internos y externos. Es importante señalar que el
gobierno de datos es más que solo la estandarización de terminología y de procedimientos. Se trata de las funciones y
responsabilidades de las personas que trabajan todos los días con metadatos. Son especialistas en metadatos, y organizan y
mantienen los datos de la empresa para asegurar que sean de la mejor calidad posible. Esas personas crean identificación de
metadatos e información de descubrimiento básicas, describen la forma en la que los conjuntos de datos trabajan juntos, y
explican los variados y diferentes tipos de recursos de datos. Los especialistas en metadatos también crean estándares muy
importantes que todos siguen, y los modelos que se utilizan para organizar los datos. Hay una cosa que todos tienen en
común. Ya sea que trabajen en una empresa de tecnología, una asociación sin fines de lucro o una institución financiera, los
analistas de metadatos tienen un gran espíritu de equipo. Les apasiona que los datos sean accesibles y los comparten con
colegas y otros interesados. Si estás buscando un puesto que te impulse a explorar todos los datos que el mundo digital tiene
para ofrecer, seguir el camino para convertirte en un analista de metadatos puede ser la opción correcta para ti. Pero, de
todas maneras, todo tipo de empresas enfrentan las tendencias del mercado y la competencia, y necesitan comprender la
razón por la que un proceso funciona y otro no. El análisis computacional de datos les permite responder preguntas clave y
seguir mejorando.
VIDEO: Megan: Diversión con metadatos:

Mi nombre es Megan y soy directora de mediciones de agencia en Google. Básicamente, ayudo a desmitificar las mediciones
y el análisis de datos para agencias publicitarias. Ya sean las personas a cargo de la ejecución de los planes de medios para los
anunciantes como las personas interesadas en medir el impacto que tienen los medios para sus clientes. He estado haciendo
esto durante unos 17 años y he visto la evolución en el espacio de la disponibilidad de datos, de diferentes técnicas de
modelado que han avanzado y se han vuelto más accesibles y ha sido un viaje realmente interesante ver cómo ha
evolucionado, cómo el análisis de datos se ha vuelto más masivo y cómo las personas están más entusiasmadas por ello. Los
metadatos son básicamente la clave de tu conjunto de datos mayor. Esto ayuda a describir qué hay en las filas y las columnas
de los datos con los que estarás trabajando. Los metadatos son una especie de taquigrafía o una versión de las guías de
estudio CliffsNotes de un conjunto de información más complejo. Pueden ser útiles en el sentido de ayudarte a manejar el
contenido de un solo conjunto de datos al que puedas tener acceso.
Es una parte importante del proceso de descubrimiento de un proyecto de análisis de datos mientras trabajas con un cliente
o un proveedor para comprender los recursos con los que contarás para resolver un problema y qué es lo que falta. Te da las
claves para desbloquear los datos de modo simple y directo y es una gran herramienta de comunicación. Cuando estaba
trabajando para un publicitario, una de las cosas que estábamos tratando de hacer era construir algo llamado lago de datos.
En esencia, se trata de reunir todas las fuentes de datos que quieras utilizar en un análisis en un solo lugar, lo que puede
resultar realmente riesgoso. Uno de los beneficios de los metadatos era imaginar que teníamos fuentes que podían
superponerse, donde había fuentes de datos que tenían cosas en común. Y cuáles son las piezas únicas de información que
estábamos obteniendo de cada uno de esos conjuntos de datos. De modo que al pensar cómo encarar este proyecto
realmente enorme e importante pudimos utilizar los metadatos para alcanzar en forma rápida y fácil los constructos básicos
que estamos tratando de manejar. Cuando estás trabajando con personas que pueden no realizar análisis de datos en su
trabajo normal llegar al momento en que dicen "claro", ayudarlos a entender cómo las herramientas de medición y análisis
de datos pueden ayudarlos a lograr sus metas, es muy importante. Y darte cuenta de que hiciste algo que previamente era
inaccesible un poco más accesible para el equipo y lo has convertirlo en algo más cómodo para poner en práctica es
realmente importante y algo genial como resultado de una sociedad.
CUESTIONARIO:
Pregunta 1
Una empresa grande tiene varias recopilaciones de datos en sus diversos departamentos. ¿Qué tipo de
metadatos indica exactamente en cuántas recopilaciones se encuentra un dato?
1. Estructurales
2. Administrativos
3. Representativos
4. Descriptivos
Correcto. Los metadatos estructurales indican exactamente en cuántas recopilaciones se encuentran ciertos datos.
Proporciona información sobre cómo se organizan los datos y si forman parte de una o de más de una recopilación de
datos.
Pregunta 2
¿La fecha y el momento en que se tomó una foto es un ejemplo de qué tipo de metadatos?
1. Estructurales
2. Representativos
3. Descriptivos
4. Administrativos
Correcto. La fecha y el momento en que se tomó una foto es un ejemplo de metadatos administrativos. Los metadatos
administrativos indican la fuente técnica y los detalles para un activo digital.
Pregunta 3
Una escuela secundaria metropolitana grande le proporciona a cada estudiante un número de ID para
diferenciarlos en su base de datos. ¿Qué tipo de metadatos son los números de ID?
1. Administrativos
2. Representativos
3. Estructurales
4. Descriptivos
Correcto. Los números de ID son metadatos descriptivos. Los metadatos descriptivos describen a un dato o se pueden
utilizar para identificarlo en cualquier momento.
Pregunta 4
Una empresa necesita fusionar datos de terceros con sus propios datos. ¿Cuál de las siguientes acciones
ayudarán a que este proceso sea exitoso? Selecciona todas las opciones que correspondan.
1. Utilizar los metadatos para estandarizar los datos. Correcto. La empresa puede utilizar los metadatos para
estandarizar los datos y evaluar la calidad y credibilidad de los datos de terceros.
2. Reemplazar los metadatos de los datos entrantes con los metadatos de su propia empresa.
3. Utilizar los metadatos para evaluar la calidad y credibilidad de los datos de terceros.
4. Alterar los metadatos de la empresa para reflejar más minuciosamente los metadatos entrantes. Esto no
debería estar seleccionado. La empresa puede utilizar los metadatos para estandarizar los datos y evaluar la
calidad y credibilidad de los datos de terceros.
Accede a diferentes fuentes de datos:

VIDEO: Trabaja con más fuentes de datos:
En este video, hablaremos sobre los diferentes lugares a los que van los analistas de datos para conectar con los datos. Hay
muchos tipos de datos y es importante saber cómo acceder a ellos. Anteriormente, aprendiste que hay dos tipos básicos de
datos que utilizan los analistas de datos: internos y externos. Los datos internos son datos que están alojados en los sistemas
propios de una empresa. Normalmente, también son generados desde dentro de la misma empresa. Es posible que escuches
que los datos internos son descriptos como datos primarios. Los datos externos son datos que se alojan y son generados
fuera de una organización. Pueden venir de una variedad de lugares, incluso de otras empresas, fuentes gubernamentales,
los medios, asociaciones profesionales, escuelas y muchos más. A veces, los datos externos son denominados datos
secundarios. Reunir datos internos puede ser complicado. Según tu proyecto de análisis computacional de datos, puedes
necesitar datos de muchas fuentes y departamentos diferentes, que pueden incluir ventas, marketing, gestión de las
relaciones con los clientes, finanzas, recursos humanos e incluso archivos de datos. Pero el esfuerzo lo vale. Los datos
internos tienen muchas ventajas para una empresa. Proporcionan información que es relevante para los problemas que estás
tratando de resolver y son de acceso gratuito porque son de la empresa. Con los datos internos, los analistas pueden trabajar
en todos los proyectos de datos sin siquiera salir de sus cuatro paredes. Pero, a veces, los datos internos no proporcionan un
panorama general. En esos casos, los analistas de datos pueden recurrir a datos externos y aplicar esa información a sus
análisis. Por ejemplo, como analista del cuidado de la salud, a menudo nos asociamos con otras organizaciones de cuidados
de la salud o con organizaciones sin fines de lucro, y usamos sus datos para brindar un análisis más profundo y agregar una
perspectiva que esté más al nivel de la industria. En un video anterior, aprendiste que la apertura ha creado muchos datos
para analizar, en gran medida a través de iniciativas de datos abiertos. Como recordatorio, apertura o datos abiertos se
refiere al acceso, uso e intercambio libre de los datos. Por ejemplo, el gobierno de los Estados Unidos crea cientos de miles de
conjuntos de datos que están disponibles para el público en Data.gov. Esos conjuntos de datos contienen información sobre
patrones climáticos, progresos de la educación, tazas de delincuencia, transportes y mucho más. Hay muchas razones para
que existan estas iniciativas de datos abiertos. Una es otorgarle más transparencia a las actividades del gobierno, como
permitir que el público vea dónde se gasta el dinero. También ayuda a educar a los ciudadanos en relación con la votación y a
problemas locales. Los datos abiertos también mejoran el servicio público, ya que les brindan a las personas formas para ser
parte de la planificación pública o de proporcionar retroalimentación al gobierno. Para finalizar, los datos abiertos conducen a
la innovación y al crecimiento económico, al ayudar a las personas y a las empresas a comprender mejor sus mercados.
Google almacena un montón de bases de datos públicos que brindan información sobre ciencia, transporte, economía, el
clima y mucho más. Como ejemplo, una empresa de bicicletas de uso compartido podría usar datos sobre el tráfico que se
encuentran en nuestra base de datos sobre transporte público para ver si hay mucho tráfico en las calles. Luego, podría elegir
esas ubicaciones para colocar sus bicicletas con el fin de reducir los automóviles que hay en la calle y brindarles a las
personas otra opción de transporte. Ya estás familiarizado con los datos internos y externos y cómo acceder a ellos. A
continuación, aprenderemos cómo importar todos los datos que has recopilado de diferentes fuentes en una hoja de cálculo.
De una fuente externa a una hoja de cálculo

Cuando trabajas con hojas de cálculo, hay algunas maneras diferentes de importar datos. En esta lectura encontrarás
información sobre cómo importar datos de fuentes externas, específicamente:
 Otras hojas de cálculo

 Archivos CSV
 Tablas HTML (en páginas web)
Importar datos de otras hojas de cálculo
En muchos casos, es posible que tengas abierta una hoja de cálculo existente y necesites agregar datos adicionales
desde otra hoja de cálculo.
Google Sheets
En Google Sheets puedes utilizar la función IMPORTRANGE. Te permite especificar un rango de celdas en la otra hoja
de cálculo para duplicarlo en la hoja de cálculo en la que estás trabajando.
Debes permitir el acceso a la hoja de cálculo que contiene los datos la primera vez que importes los datos. La URL que
se muestra debajo es solamente para fines sintácticos. No la ingreses en tu hoja de cálculo. Reemplázala con una URL que
te dirija a una hoja de cálculo que hayas creado para que puedas controlar el acceso a la misma al hacer clic en el
botón Permitir acceso.
Para obtener más información sobre la sintaxis, consulta la página IMPORTRANGE en el Centro de ayuda de Google.
También hay un ejemplo para utilizar más adelante en el programa en Funciones avanzadas para una limpieza rápida
de datos.
Microsoft Excel
Para importar datos desde otra hoja de cálculo, sigue las siguientes instrucciones:
Paso 1: Selecciona Datos en el menú principal.
Paso 2: Haz clic en Obtener datos, selecciona Desde archivo, y luego selecciona Desde libro.
Paso 3: Explora y selecciona el archivo de la hoja de cálculo y luego haz clic en Importar.
Paso 4: En el navegador, selecciona la hoja de trabajo que quieres importar.
Paso 5: Haz clic en Cargar para importar todos los datos en la hoja de trabajo; o haz clic en Transformar datos para abrir
el Editor de Power Query para ajustar las columnas y las filas de los datos que quieres importar.
Paso 6: Si hiciste clic en Transformar datos, haz clic en Cerrar y cargar y, luego, selecciona una de las dos opciones:
 Cerrar y cargar para importar los datos a una hoja de cálculo nueva.
 Cerrar y cargar a... para importar los datos a una hoja de cálculo existente.
Importar datos desde archivos CSV
Google Sheets
Paso 1: Abre el menú Archivo en tu hoja de cálculo y selecciona Importar para abrir la ventana que permite importar
archivos.
Paso 2: Selecciona Cargar y luego selecciona el archivo CSV que quieres importar.
Paso 3: A partir de aquí tendrás algunas opciones. Para Importar ubicación puedes elegir reemplazar la hoja de cálculo
actual, crear una nueva, insertar los datos CSV como una nueva hoja, agregar los datos a la hoja de cálculo actual o
reemplazar los datos en una celda específica. Los datos se insertarán como texto sin formato solo si desmarcas la
casilla Convertir texto a números, fechas y fórmulas, que es la configuración predeterminada. A veces, un archivo CSV
utiliza un separador, como un punto y coma, o incluso un espacio en blanco en lugar de una coma. En Tipo de
separador puedes seleccionar Pestaña o Coma, o seleccionar Personalizar para ingresar otro carácter que se utilice
como separador.
Paso 4: Seleccione Importar datos. Se cargarán los datos del archivo CSV en tu hoja, ¡y ya puedes comenzar a usarlos!
Nota: También puedes utilizar la función IMPORTDATA en la celda de una hoja de cálculo para importar datos
utilizando la URL que te dirige a un archivo CSV. Para obtener más información y la sintaxis, consulta la página
IMPORTDATA del Centro de ayuda de Google.
Microsoft Excel
Paso 1: Abre una hoja de cálculo nuevo o existente.
Paso 2: Haz clic en Datos en el menú principal y selecciona la opción Desde texto/CSV.
Paso 3: Explora y selecciona el archivo CSV y luego haz clic en Importar.
Paso 4: A partir de aquí tendrás algunas opciones. Puedes cambiar el delimitador, y en vez de ser una coma puede ser
cualquier otro carácter, como un punto y coma. También puedes habilitar o deshabilitar la detección automática de tipos
de datos. Y, finalmente, puedes transformar tus datos haciendo clic en Transformar datos para abrir el Editor de Power
Query.
Paso 5: En la mayoría de los casos, acepta la configuración predeterminada en el paso anterior y haz clic en Cargar
para cargar los datos que están en el archivo CSV a la hoja de cálculo. Se cargarán los datos del archivo CSV en la
hoja de cálculo, ¡y ya puedes comenzar a trabajar con los datos!
Importar tablas HTML desde páginas web

Importar tablas HTML es un método muy básico para extraer o “reunir” datos de páginas web públicas. Reunir datos de
manera sencilla explica cómo hacer esto con Google Sheets o con Microsoft Excel.
Google Sheets
En Google Sheets, puedes utilizar la función IMPORTHTML. Permite que importes datos de una tabla (o lista) HTML
de una página web.
Para obtener más información sobre la sintaxis, consulta la página IMPORTHTML del Centro de ayuda de Google. Si
estás importando una lista, reemplaza “tabla” por “lista” en el ejemplo anterior. El número 4 es el índice que hace
referencia al orden de las tablas en una página web. Es como un indicador que señala de qué tabla de la página
quieres importar los datos.
¡Inténtalo tú mismo! En hojas de cálculo en blanco, copia y pega cada una de las siguientes funciones IMPORTHTML
en la celda A1 y observa lo que ocurre. Estarás importando los datos de cuatro tablas HTML diferentes en un artículo
de Wikipedia: La demografía de la India. Puedes comparar los datos importados con las tablas del artículo.
 =IMPORTHTML("http://en.wikipedia.org/wiki/Demographics_of_India","table",1)
Microsoft Excel
Puedes importar datos de páginas web utilizando la opción Desde web:
Paso 1: Abre una hoja de cálculo nueva o existente.
Paso 2: Haz clic en Datos en el menú principal y selecciona la opción Desde web.
Paso 3: Ingresa la URL y presiona Aceptar.
Paso 4: En el navegador, selecciona la tabla que quieres importar.
Paso 5: Haz clic en Cargar para cargar los datos de una tabla en tu hoja de cálculo.
VIDEO: Importar datos desde hojas de cálculo y bases de datos

A esta altura, ya has aprendido todo sobre datos internos y externos, y cómo prepararlos para utilizarlos. Ahora
comenzaremos el proceso de importación real de datos desde distintas fuentes. A veces quieres cargar una hoja de cálculo
desde tus archivos, por ejemplo, un archivo CSV. CSV significa valores separados por coma. Un archivo CSV guarda datos en
formato de tabla. Ahora traigamos ese archivo a una hoja de cálculo nueva.
Comenzaremos por seleccionar un archivo y, luego, lo importaremos.
A continuación, elegiremos cargar un archivo.
Búscalo, ábrelo e insértalo como una hoja nueva.
Los archivos CSV usan texto normal y están delineados por caracteres. Así que cada columna o campo es muy diferente de la
otra a la hora de importar. Como sabes, los archivos CSV están separados por comas y, en general, la aplicación de la hoja de
cálculo detectará automáticamente esas separaciones. Sin embargo, a veces, puedes necesitar indicar que un separador es
otro carácter o un espacio, y para ello seleccionas las distintas opciones en esta ventana.
Asimismo, si estás planificando trabajar con un conjunto de datos, en general, lo convertirías a texto, números u otras
opciones desde aquí. Pero un texto normal está bien para los propósitos de un informe. Así que podemos dejar tranquilos
esos campos. Finalmente, selecciona Importar datos.
Ahora nuestro archivo CSV está listo para funcionar en nuestra hoja de cálculo. Paso la mayor cantidad de tiempo en el
trabajo analizando hojas de cálculo llenas de información sobre cuidados de la salud. En general, comienzo por buscar en un
conjunto de datos más grande. Luego, extraigo un subconjunto a una hoja de cálculo para poder trabajar con él. Quizás
quiero analizar el crecimiento año por año en la demanda de usuario en Google Search para ciertos servicios de cuidado de la
salud, como telemedicina. O quizás quiero mirar conjuntos de datos de organizaciones o agencias externas sobre cuidados de
la salud para obtener más información sobre esta tendencia. Por ejemplo, con telemedicina quizás observaría una hoja de
cálculo que enumera los proveedores de telemedicina. Hay muchas formas en que las hojas de cálculo pueden ayudarte a
encontrar la información que necesitas. Una fuente que utilizo mucho es el repositorio de datos de la Organización Mundial
de la Salud.
En ese sitio cualquiera puede acceder a datos de fuente abierta. Como puedes ver, hay cientos de datos disponibles. Puedes
buscar por tema, categoría, indicador y país. También puedes acceder a los metadatos de la Organización Mundial de la Salud
si quieres aprender más sobre los datos en este repositorio.
Para nuestro ejemplo, buscaremos doctores por país y año.

Esa información será útil para un proyecto de análisis de datos que busque cuántos doctores están disponibles para tratar
pacientes en una cierta población en comparación con otras poblaciones. Para obtener estos datos comenzaremos en esta
página web, que contiene el conjunto de datos que queremos. Luego, descargaremos los datos como un archivo CSV.
Después, abriremos una hoja de cálculo nueva e importaremos el archivo seleccionando Archivo, Importar.
Luego, cargarás tu archivo y seleccionarás Importar datos.
Tras revisar los datos para asegurarte de que se vean limpios, podemos ponerles un título y comenzar a trabajar.
Sé que es demasiada información para recordar, pero te sentirás más cómodo a medida que vayas practicando. A
continuación, aprenderemos cómo ordenar y filtrar tus datos para enfocarte en la información que te resulte pertinente.
Explorar conjuntos de datos públicos

Datos abiertos ayuda a crear muchos conjuntos de datos públicos a los que puedes acceder para tomar decisiones
basadas en datos. Aquí hay algunos recursos que puedes utilizar para comenzar a buscar conjuntos de datos públicos
por tu cuenta:
 Los Conjuntos de datos públicos de Google Cloud permiten a los analistas de datos acceder a conjuntos de
datos públicos de gran demanda y facilitan el descubrimiento de información en la nube.
 La Búsqueda de conjuntos de datos puede ayudarte a encontrar conjuntos de datos disponibles en línea
mediante la búsqueda de palabras clave.
 Kaggle tiene una función de búsqueda de Datos abiertos que puede ayudarte a encontrar conjuntos de datos
para practicar.
 Por último, BigQuery almacena más de 150 conjuntos de datos públicos a los que puedes acceder y utilizar.
Conjuntos de datos públicos sobre salud
1. Datos del Observatorio Mundial de la Salud: Puedes buscar conjuntos de datos en esta página o explorar las
colecciones de datos destacadas de la Organización Mundial de la Salud.
2. El conjunto de datos del Archivo de imágenes de cáncer (TCIA): Al igual que el conjunto de datos anterior, estos
datos están almacenados en los conjuntos de datos públicos de Google Cloud y puedes cargarlos a BigQuery.
3. 1000 genomas: Este es otro conjunto de datos de los recursos públicos de la Google Cloud que puedes cargar
a BigQuery.
Conjuntos de datos públicos sobre el clima
1. Centro Nacional de Datos Climáticos: La página de enlaces rápidos del Centro Nacional de Datos Climáticos
(NCDC) tiene una selección de conjuntos de datos que puedes explorar.
2. Galería del conjunto de datos públicos de la Asociación Nacional de Asuntos Oceánicos y Atmosféricos : La
Galería del conjunto de datos públicos de la Asociación Nacional de Asuntos Oceánicos y Atmosféricos (NOAA)
contiene una colección de conjuntos de datos que puedes consultar.
Conjuntos de datos públicos sobre política y sociedad
1. El Estado de la infancia a nivel mundial de UNICEF: El conjunto de datos de UNICEF incluye una colección de
tablas que puedes descargar.
2. Estadísticas del mercado laboral de la Encuesta continua de población: Esta página contiene enlaces hacia
muchos conjuntos de datos disponibles que puedes explorar.
3. El proyecto abierto sobre mantenimiento del orden en Stanford: Puedes descargar este conjunto de datos como
un archivo .CSV para tu propio uso.
CUESTIONARIO:
Pregunta 1
Un archivo CSV guarda datos en formato de tabla. ¿Qué significa CSV?

1. Variables científicas compatibles
2. Valores separados por coma
3. Valores estimados de hojas de cálculo
4. Variables estructuradas por celdas
Correcto. CSV significa valores separados por coma.
Pregunta 2
Un analista de datos desea agregar datos de un archivo CSV a una hoja de cálculo. ¿Este es un ejemplo de qué
proceso?
1. Archivado de datos
2. Edición de datos
3. Normalización de datos
4. Importación de datos
Correcto. Un analista de datos que agrega datos de un archivo CSV en una hoja de cálculo es un ejemplo de la
importación de datos.
Pregunta 3
¿Un archivo CSV les facilita a los analistas de datos completar qué tipo de tareas? Selecciona todas las
opciones que correspondan.
0.75 / 1 punto
1. Examinar un pequeño subconjunto de un conjunto de datos grande. Correcto Un archivo CSV les facilita a los
analistas de datos examinar una pequeña parte de un conjunto de datos grande, importar datos a una nueva
hoja de cálculo y distinguir valores entre sí.
2. Importar datos a una nueva hoja de cálculo. Correcto. Un archivo CSV les facilita a los analistas de datos
examinar una pequeña parte de un conjunto de datos grande, importar datos a una nueva hoja de cálculo y
distinguir valores entre sí.
3. Gestionar varias pestañas en una hoja de cálculo
4. Distinguir valores entre sí
Ordenar y filtrar:
VIDEO: Ordenar y filtrar
En los videos anteriores, aprendiste sobre datos internos y externos. Ahora te mostraré cómo enfocarte solamente en los
datos que son pertinentes para el problema que tratas de resolver. Esto es útil si estás trabajando con una hoja de cálculo
compleja y extensa, algo muy común para los analistas de datos. Tener muchos datos puede dificultar la búsqueda y el
análisis de la información que necesitas. No hay dos proyectos de análisis iguales. A menudo, los analistas de datos procesan,
ven y usan los datos de maneras muy diferentes, incluso si vienen de la misma fuente. Aquí hay un ejemplo. Analiza esta hoja
de cálculo que muestra los representantes de ventas de una empresa y dónde trabajan. Distintos analistas de datos pueden
querer información diferente de esta hoja de cálculo, y ahí es donde aparece la ordenación y el filtrado. Ordenar y filtrar los
datos en una hoja de cálculo nos ayuda a personalizar la forma en que se presentan los datos. También pueden organizar
datos para que los analistas puedan acercar los datos que son importantes. Piensa que son una lupa de nuestros datos.
Comencemos con la ordenación. Ordenar significa organizar los datos en un orden significativo para que sea más fácil
comprenderlos, analizarlos y visualizarlos. Los datos pueden organizarse en orden ascendente o descendente, alfabético o
numérico. La ordenación puede realizarse en toda la hoja de cálculo o solo en una columna o en una tabla. También puedes
clasificar según múltiples variables. Por ejemplo, si nuestro conjunto de datos contiene campos de ciudad y estado, podemos
ordenarlos primero por ciudad y luego por estado.
Cuando ordenas datos, siempre es mejor inmovilizar la fila del encabezado primero. Para hacer esto, destacaremos la fila.
Luego, en el menú Ver, selecciona inmovilizar y una fila.
Esto inmoviliza la fila en ese lugar. Ahora cuando desplacemos el cursor hacia abajo en la hoja de cálculo, la fila del
encabezado seguirá visible y así sabremos la categoría de cada columna.
Me parece bien. Ahora ordenemos toda la hoja de cálculo. Primero la ordenaremos por ciudad. Para hacer esto, selecciona la
columna ciudad,
luego, utiliza la flecha desplegable hacia abajo para ordenar la hoja. Selecciona A a Z.
Todas las columnas se ordenarán de la A a la Z por fila, y la columna seleccionada será el criterio principal de ordenación.
Ahora las ciudades están ordenadas alfabéticamente y siguen agrupadas con sus respectivos estados, representantes de
ventas y auto partes. Los detalles de cada fila se mantienen juntos automáticamente cuando se ordena una selección
particular, como puedes ver aquí. La ordenación de varios criterios es otra herramienta muy útil del análisis de datos. Por
ejemplo, digamos que queremos ver una lista de representantes de ventas en base a las ciudades y a los estados en los que
trabajan. Primero, seleccionamos todo el conjunto de datos,
luego elegimos los datos y el rango de clasificación.
En el cuadro de diálogo, asegúrate de que “Los datos tienen fila de encabezado” esté destacado.
De esa forma, la fila A, ciudad, estados, representante de ventas y auto partes no formarán parte de la ordenación.
Luego, en la ordenación mediante el menú desplegable, selecciona el estado y, luego, el criterio para la ordenación de la A a
la Z. Ahora agrega otra columna para ordenar. En el desplegable “luego por”, selecciona ciudad y el criterio para la ordenación
de la A a la Z.
Finalmente, selecciona Ordenar.
Ahora podemos buscar los datos y encontrar fácilmente un representante de ventas que trabaje en un estado y en una
ciudad particular. La ordenación es útil cuando quieres ver todo en orden alfabético o numérico en una hoja de cálculo. Pero,
a veces, los analistas de datos quieren aislar un dato en particular. Para hacer eso, utilizan un filtro. Filtrar significa mostrar
solamente los datos que cumplen con un criterio específico mientras se esconde el resto. Un filtro simplifica una hoja de
cálculo al mostrar solamente la información que necesitamos. Por ejemplo, podemos agregar un filtro para ver solo los
representantes de ventas que trabajaron con un producto en particular. Para hacer eso, primero seleccionamos Datos y Crear
un filtro. Elige la columna con los datos que necesitamos. En este caso, Auto Partes. Aparecerán botones de filtrado en la
esquina de cada encabezado de columna. Para filtrar nuestra hoja de cálculo por auto parte, haz clic en el botón del
encabezado de Auto Partes. En este ejemplo, digamos que queremos ver solamente los representantes de ventas que
trabajaron con llantas. Quita las marcas de verificación de las categorías que no queremos ver, que son todas excepto las de
las llantas.
Luego selecciona Aceptar.
El filtro esconde momentáneamente todo lo que no cumple con la condición. Pero ten en cuenta que, aunque no están
visibles, aún están allí. Cuando sea el momento de ver toda el área de la hoja de cálculo de nuevo, simplemente desactiva el
filtro.
Ordenar y filtrar datos son herramientas muy importantes de la caja de herramientas de un analista de datos. En el siguiente
video descubrirás más formas de acotar la búsqueda a la información exacta que necesitas para cualquier proyecto de
análisis de datos.
1.
Pregunta 1
Resumen de la actividad
Por el momento, ya conoces cómo limpiar datos en las hojas de cálculo, además de las destrezas de la hoja de cálculo
principal como por ejemplo la ordenación y el filtrado. En esta actividad, utilizarás la ordenación y el filtrado para limpiar
un conjunto de datos sucio.
La limpieza de datos corrige o elimina los datos incorrectos, faltantes o erróneos. La limpieza de datos es de suma
importancia porque un análisis basado en datos sucios puede originar conclusiones incorrectas y malas decisiones.
Cuanto más limpios estén tus datos, mejores resultados obtendrás.
Para esta actividad, imagínate que eres analista de datos y que trabajas para el supervisor de un gran distrito escolar
público de Portugal. El supervisor desea saber qué factores afectan a las calificaciones de los estudiantes en las
materias principales y qué cambios se pueden realizar para mejorar el desempeño de los estudiantes. Tu equipo va a
analizar los datos de desempeño en relación con los logros de estudiantes de escuelas secundarias de dos escuelas
públicas de Portugal: Gabriel Pereira (GP) y Mousinho da Silveira (MS). El distrito escolar recopiló los datos mediante
informes académicos y encuestas a los estudiantes. Los datos incluyen la siguiente información:
 Calificaciones de los estudiantes.

 Información sobre los antecedentes de los estudiantes.
 Tiempo de estudio de los estudiantes.
 Participación de los estudiantes en actividades extracurriculares.
No obstante, antes de analizar los datos, es importante asegurarse de que estos estén limpios. Analizar datos
incorrectos o sucios podría hacer que el distrito escolar llegue a conclusiones incorrectas e implemente cambios
ineficaces. Tu tarea es ayudar a limpiar los datos.
Cuando finalices esta actividad, podrás ordenar los datos de distintas maneras, aplicar filtros para eliminar los datos
incorrectos, completar los datos faltantes y convertir datos de texto en formato numérico. Limpiar los datos es una fase
fundamental del proceso de análisis de datos. La ordenación y el filtrado son técnicas útiles para limpiar los datos y,
además, son destrezas clave a las que recurrirás a lo largo de tu carrera como analista de datos.
Lo que necesitarás:
Para empezar, accede a la hoja de cálculo que contiene los datos. Haz clic en el enlace y haz una copia de la hoja de
cálculo.
Si no tienes una cuenta de Google, puedes descargar el conjunto de datos directamente desde el siguiente archivo
adjunto:
Limpia tus datos:
Es importante asegurarse de que los datos estén limpios para que tu eventual análisis sea correcto. Lo primero que hay
que hacer es revisar los valores en las columnas más importantes para tu análisis y averiguar si hay algo que se deba
limpiar. En este ejemplo, el principal objetivo del supervisor es determinar qué factores impulsan el desempeño del
estudiante. Para comenzar a responder esta pregunta, las columnas en las que deseas centrarte en primer lugar son
escuela, edad, motivo, Medu, Fedu. Puedes utilizar la ordenación y el filtrado para limpiar los datos en cada una de estas
columnas.
Ordenación de los datos:
Debido a que cuentas con datos de dos escuelas, Gabriel Pereira (GP) y Mousinho da Silveira (MS), puedes comenzar
ordenando los datos por escuela. Luego, puedes ordenarlos por edad para descubrir los rangos etarios de los
estudiantes para cada escuela. Ordenar implica organizar los datos en un orden significativo para que sea más fácil
entenderlos, analizarlos y visualizarlos.
1. Primero, cámbiale el nombre a tu hoja de cálculo. En la esquina superior izquierda, haz clic en Hoja de cálculo
sin nombre y escribe un nombre nuevo. Puedes usar el nombre student_performance_datau otro similar que
describa los datos que contiene la hoja de cálculo.
2. Ahora, ordena por escuela. Debido a que quieres ordenar varias columnas, debes seleccionar todos los datos
de tu hoja de cálculo. Haz clic en el rectángulo negro arriba de la fila 1 y a la izquierda de la columna A. Esto te
permitirá seleccionar todos los datos en tu hoja.
3. Luego, en la barra de menús, selecciona Datos,luego Ordenar rango. (Nota: Para algunas versiones de Google
Sheets, la selección de Opciones avanzadas de ordenación de rango puede aparecer en el menú desplegable Datos en
lugar de Ordenar rango).
4. En la ventana emergente, selecciona Los datos tienen una fila de encabezado. Ahora puede elegir encabezados de
columna específicos para ordenar.
5. En el menú desplegable Ordenar por, elije el encabezado escuela.Luego, haz clic en A → Z para ordenar en orden
ascendente.
6. También deseas ordenar por edad. Antes de poder ordenar por edad, debes hacer clic en Agregar otra columna para
ordenar para elegir un encabezado de la segunda columna.
7. En el menú desplegable Ordenar por,elije el encabezado edad.Esta vez, haz clic en Z → A para ordenar en orden
descendente. De esta manera, los estudiantes mayores aparecerán primero.
Tu ventana emergente aparecerá de la siguiente manera:

8. Una vez realizadas ambas selecciones, haz clic en Ordenar.
Ahora, si te desplazas por los datos, observarás que el rango etario de los estudiantes en Gabriel Pereira (GP) es entre
15 y 22 años, y el rango etario en Mousinho da Silveira (MS) es entre 15 y 20 años. Parece que ambas escuelas tienen
rangos etarios similares, pero la escuela GP tiene estudiantes que son un poco mayores.
Al ordenar los datos, descubriste un posible problema con ellos. Debido a que este conjunto de datos representa el
logro del estudiante de la escuela secundaria, toda edad mayor que 18 puede indicar que se cometió un error al escribir
la edad del estudiante. Ahora sabes qué datos etarios posiblemente deban investigarse y corregirse. El próximo paso
es el de preguntarle al supervisor sobre el rango etario legítimo para los estudiantes en la escuela secundaria pública.
Luego, sabrás qué datos etarios son incorrectos y deberán eliminarse.
Eliminación de datos incorrectos:
El supervisor te comenta que el límite etario máximo para el que se proporciona educación pública es de 19 años y que
el rango etario debe ser entre 15 y 19 años para ambas escuelas. Todo estudiante que no corresponda a este rango
etario deberá eliminarse del conjunto de datos.
Para limpiar los datos, deberás eliminar las edades 20, 21 y 22 de tu conjunto de datos. Puedes comenzar aplicando un
filtro en la columna edad. El filtradoes el proceso que muestra solo los datos que cumplen con un criterio específico
mientras oculta el resto. El filtrado facilita la búsqueda de los datos que necesitas.
1. Primero, aplica un filtro en la columna edad. Selecciona la columna edadhaciendo clic en la letra de la parte
superior de la columna (C).
2. Luego, desde la barra de menús, selecciona Datos, luego Crear un filtro.
3. Ahora puedes inspeccionar los valores en la columna edadsi vas a la parte superior de la columna y haces clic
en el ícono Filtro ().
4. En Google Sheets, hay nueve valores posibles para el campo (15, 16, 17, 18, 19, 20, 21 y 22). Es posible que
notes que todos los valores tienen marcas de comprobación. Filtra esta columna para los valores que deseas
seleccionar desactivando todos los demás valores (15, 16, 17, 18 y 19).
5. Luego, haz clic en Aceptar. Esto separará las filas que contienen las edades 20, 21 y 22. Luego de aplicar el filtro,
debe haber nueve filas de ese tipo (siete para la escuela GP y dos para la escuela MS).
6. Para eliminar las nueve filas, primero selecciónalas haciendo clic en los números de fila.
7. Luego, desde la barra de menús, selecciona Editary Eliminar filas seleccionadas.
8. Haz clic en el ícono Filtro en la parte superior de la columna edadpara inspeccionar los valores nuevamente. Ahora
que eliminaste las tres edades incorrectas (20, 21 y 22), hay cinco edades restantes (15, 16, 17, 18 y 19). Las edades
restantes son legítimas y se pueden utilizar para el análisis.
9. Por último, desactiva el filtro. Desde la barra de menús, elije Datosy Desactivar filtro.
Completar los datos faltantes:
Completar los datos faltantes es una parte importante de la limpieza de datos. Debes encargarte de completar los
espacios en blanco de tus datos con valores precisos.
El supervisor desea conocer los factores que influyen en el desempeño del estudiante y para realizar el análisis será
importante saber el motivo por el que el estudiante elige una escuela específica. La columna motivo muestra el motivo
principal por el que el estudiante elige inscribirse en una escuela específica, según la respuesta de la encuesta; por
ejemplo, debido a la reputación de la escuela, o porque ofrece ciertos cursos, etc. Por ende, debes asegurarte de que
la columna motivo esté completa y sin espacios en blanco.
1. Comienza aplicando un filtro en toda la hoja de cálculo. Haz clic en cualquier celda de la hoja. Luego, desde la
barra de menús, selecciona Datosy Crear un filtro.
2. Todas las celdas aparecen ahora resaltadas y hay filtros en la parte superior de cada columna que contiene
datos. Haz clic en el ícono Filtro en la columna motivo (K).
3. Es posible que adviertas que los valores de los datos en la columna motivoincluyen espacios en blanco. Filtra
esta columna para los espacios en blanco desactivando todos los demás valores (curso, casa, reputación).
4. Luego, haz clic en Aceptar. Ahora, tu hoja muestra todas las filas en blanco en la columna motivo.
5. Para limpiar los datos, deberás buscar una buena manera de completar los valores faltantes. En este caso, no
puedes saber cuál debería ser cada valor faltante (es decir, sin una nueva encuesta, no puedes descubrir el motivo por
el cual cada estudiante eligió una escuela específica). Por ende, puedes reemplazar los valores faltantes con el valor
none_given. Para hacer esto mientras la columna todavía está filtrada para los espacios en blanco, escribe
none_givenen la primera celda vacía (K2). Luego, presiona Enter.
6. Selecciona nuevamente la celda K2. Aparecerá un pequeño cuadrado azul, conocido como controlador de relleno, en
la esquina inferior derecha de la celda. Haz doble clic en el controlador de relleno para completar todas las demás
celdas en blanco con el valor none_given.
7. Por último, desactiva el filtro. Desde la barra de menús, elije Datosy Desactivar filtro. Si te desplazas hacia abajo en
la columna motivo, verás que el valor none_given ha reemplazado todos los espacios en blanco en la columna motivo.
Conversión de los datos:
Durante el proceso de análisis de datos, a veces es necesario cambiar los datos del texto (palabras) por datos
numéricos (números). Por ejemplo, algunos paquetes estadísticos como los que se utilizan para realizar el aprendizaje
automático solo aceptarán valores de datos numéricos como entrada.
En este caso, el supervisor desea conocer si el nivel de educación de los padres es un factor significativo en el
desempeño del estudiante. Los datos relevantes son las columnas Medu y Fedu;que, respectivamente, se refieren al
nivel de educación de la madre y el padre del estudiante. Actualmente, los datos se encuentran en formato de texto.
Para los propósitos del análisis, será útil conocer el nivel de educación promedio de los padres de cada estudiante.
Para realizar este cálculo, primero debes convertir los datos en las columnas Meduy Fedual formato numérico.
Para hacer esto, puedes hacer coincidir los valores de números específicos con los datos de texto en cada columna.
Comienza con la columna Medu. Si haces clic en el ícono Filtro en la parte superior de la columna Medu (G), verás que
la columna contiene los datos de texto que se muestran en la siguiente tabla. Puedes utilizar los siguientes códigos
numéricos para cada uno de los datos de texto:
1. Para comenzar, elimina el filtro de la columna Medu.

2. Luego, selecciona los datos de la columna Medu sin filtro haciendo clic en la letra de su columna (G).
3. Luego, desde la barra de menús, selecciona Editary, luego, Buscar y reemplazar.
4. Completa la ventana emergente para el valor ninguno. Luego de Buscar, escribe ninguno. Luego de Reemplazar
por, escribe 0. Marca la casilla al lado de Hacer coincidir todo el contenido de la celda.
5. Luego, haz clic en Reemplazar todo.
6. Estando en la ventana emergente, repite este proceso (pasos 4-5) para los otros cuatro niveles de educación:
educación primaria (4º grado), de 5º a 9º grado, educación secundaria y educación superior.
7. Luego de reemplazar los cinco niveles de educación por los valores numéricos, haz clic en Listo para cerrar la
ventana emergente.
8. Analiza tu hoja de cálculo. Todas las celdas en la columna Medu ahora muestran valores numéricos.
9. Cambia los datos de texto en la columna Fedu (H) del mismo modo.
Confirmación y reflexión:
¿Cómo se denomina el proceso que muestra solo los datos que cumplen con un criterio específico mientras oculta el
resto?
1 / 1 punto
1. Filtrado
2. Inspeccionar
3. Ordenación
4. Conversión
Correcto. El filtrado es el proceso que muestra solo los datos que cumplen con un criterio específico mientras oculta el
resto. El filtrado es una técnica extremadamente útil para la limpieza de los datos y es una herramienta esencial del kit
de herramientas del analista de datos.
CUESTIONARIO:
Pregunta 1
¿Cuál es el proceso de organizar los datos en un sistema de clasificación significativo para que sea más fácil entenderlos, analizarlos
y visualizarlos?
1 / 1 punto
1. Filtrado
2. Ordenación
3. Capacidad para priorizar
4. Reformulación
Correcto. La ordenación es el proceso de organizar los datos en un orden significativo para que sea más fácil entenderlos,
analizarlos y visualizarlos.
Pregunta 2
Una analista de datos revisa una base de datos nacional de las ventas de inmobiliaria. Solo le interesan las ventas de los
condominios. ¿Cómo puede el analista acotar su alcance?
0 / 1 punto
1. Filtrar las ventas de condominios

2. Ordenar por ventas no relacionadas con los condominios
3. Ordenar por ventas de condominios
4. Filtrar por ventas no relacionadas con condominios
Pregunta 3
Un analista de datos trabaja para una empresa de alquiler de automóviles. Tiene una hoja de cálculo que enumera los números de ID
y las fechas en las que se devolvieron los automóviles. ¿Cómo puede ordenar la hoja de cálculo para buscar los automóviles
devueltos recientemente?
1 / 1 punto
1. Por el ID numérico del vehículo, en orden descendente.

2. Por el ID numérico del vehículo, en orden ascendente.
3. Por la fecha de devolución, en orden ascendente.
4. Por la fecha de devolución, en orden descendente.
Correcto. Para ordenar la hoja de cálculo para buscar los automóviles devueltos más recientemente, deberá ordenar por fecha de
devolución, en orden descendente.
Pregunta 4
Completa el espacio en blanco: Para mantener una fila de encabezado en la parte superior de una hoja de cálculo, destaca la fila y
selecciona _____ desde el menú Ver.
1 / 1 punto
1. Configurar
2. Anclar
3. Inmovilizar
4. Bloquear
Correcto. Para mantener una fila de encabezado en la parte superior de una hoja de cálculo, destaca la fila y
selecciona Inmovilizar desde el menú Ver.
Trabajar con conjuntos de datos grandes en SQL
VIDEO: Configurar BigQuery, incluso el espacio aislado y las opciones de facturación
Hola. Bienvenido de nuevo. A lo largo de este curso, has aprendido que puedes usar BigQuery para ver y analizar datos de
muchísimas fuentes distintas. Ahora vamos a explorar los distintos tipos de cuenta que ofrece BigQuery, de modo que puedas
elegir la correcta según tus necesidades y sepas cómo acceder a ellas. Puedes usar BigQuery de forma gratuita. Si bien
también tiene opciones pagas, no las necesitas para las actividades de este curso. Así que vamos a hablar de dos tipos de
cuentas: de espacio aislado o sandbox y de prueba gratuita. La cuenta de espacio aislado está disponible gratis y
cualquier persona con una cuenta de Google puede iniciar sesión y usarla. Sin embargo, tiene algunas limitaciones. Por
ejemplo, puedes hacer hasta 12 proyectos por vez. Esto significa que si quieres hacer el proyecto número 13, tendrás que
eliminar uno de los 12 que ya tienes. Tampoco te permite insertar nuevos registros a la base de datos ni actualizar el valor de
los campos de los registros existentes. Sandbox no admite este tipo de lenguaje de manipulación de datos, estas operaciones
no son compatibles. Sin embargo, sí tendrás que hacer esto en las actividades del curso. Para más información sobre las
limitaciones de una cuenta de espacio aislado, consulta la documentación de BigQuery. Este es el tipo de cuenta que más
usaremos para nuestras actividades. Es fácil de configurar. Así que, más adelante en este video, repasaremos los pasos que
tienes que seguir para crear una cuenta. Antes de eso, deberíamos hablar un poco sobre la otra forma de usar BigQuery sin
pagar nada. La prueba gratuita de Google Cloud. La prueba gratuita te brinda acceso a más funciones que BigQuery tiene
para ofrecer, y las limitaciones son menores. La prueba gratuita ofrece $300 de crédito para usar en Google Cloud durante los
primeros 90 días. Y no alcanzarás ni por asomo ese límite de crédito si solo usas la consola de BigQuery para practicar las
consultas de SQL. Cuando gastes los $300 de crédito o pasen los 90 días, finalizará tu prueba gratuita y tú mismo deberás
elegir si quieres suscribirte a una cuenta paga y seguir trabajando en Google Cloud. No recibirás cargos automáticos en el
método de pago que hayas elegido una vez que finalice la prueba gratuita, aunque para registrarte sí debes configurar una
opción de pago en Google Cloud. Entonces, a menos que elijas suscribirte a BigQuery, no deberás pagar nada. Pero sí debes
ingresar algún tipo de pago al principio. Por eso, entendemos si no te sientes del todo cómodo con esta opción. Esta es una
de las razones por las que existe la cuenta de espacio aislado en BigQuery: para que no tengas que ingresar ninguna
información de pago. Con cualquiera de las dos cuentas, puedes suscribirte a una cuenta paga en el momento que quieras y
seguir teniendo tus proyectos existentes. Así que, si configuras una cuenta gratuita pero no quieres suscribirte a una paga
cuando finaliza el período de prueba, puedes configurar una cuenta de espacio aislado gratuita cuando quieras. Pero ten en
cuenta que los proyectos de la prueba gratuita no se transferirán al espacio aislado. Sería como empezar de cero otra vez. Es
algo para tener en cuenta. Ahora, vamos a configurar tu cuenta de espacio aislado, que puedes modificar a prueba gratuita o
a cuenta paga si así lo deseas. Primero, vamos a la página de documentación de la cuenta de espacio aislado de BigQuery.
Luego, en la esquina superior derecha iniciamos sesión en la cuenta de Google que queramos usar para la cuenta de espacio
aislado de BigQuery. Después, hacemos clic en "Ir a BigQuery" de la página de documentación. Allí, tenemos un menú
desplegable para seleccionar el país y leer los términos y condiciones del acuerdo de servicio. Es entonces que podremos
ingresar al espacio de trabajo de SQL, que vamos a usar en las próximas actividades. Elige "Crear proyecto", ponle un nombre
al proyecto y elige una identificación. Haz clic en "Crear" y, luego, en "Listo". Ya está. En el próximo video, exploraremos para
qué sirve cada parte del espacio de trabajo de SQL y cómo lo usaremos en las actividades futuras. Nos vemos ahí.
VIDEO: Cómo utilizar BigQuery
¡Hola! En este video, vamos a aprender sobre cada parte del espacio de trabajo SQL de BigQuery para que puedas usarlo
durante este curso y a lo largo de tu carrera como analista de datos. Es una herramienta sumamente valiosa y muy popular,
así que es muy útil entender cómo funciona. Siéntete libre de seguirlo en tu pantalla a medida que exploramos BigQuery.
Notarás que mi pantalla se ve un poco diferente a la tuya, ya que BigQuery actualiza constantemente su interfaz. No te
preocupes si pasa eso, ya que las pequeñas diferencias no te impedirán comprender los conceptos básicos. Para empezar, ve
a la página de destino de BigQuery, luego inicia sesión en la cuenta que creaste anteriormente. Para navegar en el espacio de
trabajo SQL, selecciona el menú del lado izquierdo de la pantalla y deslízate hasta el encabezado ''Macrodatos''. Luego, pasa
el mouse por encima de la etiqueta BigQuery y haz clic en ''Espacio de trabajo SQL'', en el menú desplegable. Ahora que ya
estamos en el espacio de trabajo SQL, vamos a buscar conjuntos de datos públicos, seleccionar un conjunto de datos a través
del Explorador de datos, ejecutar una consulta y cargar nuestros propios datos para consultar. Primero, vamos a buscar un
conjunto de datos públicos para usar. Para seleccionar un conjunto de datos públicos, navega hasta el menú del Explorador,
en el lado izquierdo de la pantalla. Haz clic en el botón "Agregar datos", en la parte superior derecha del menú. Luego, en el
menú desplegable, selecciona "Explorar conjuntos de datos públicos". Esto abrirá el marketplace y te mostrará los conjuntos
de datos públicos disponibles. Vayamos a la barra de búsqueda de marketplace y busca “noaa_lightning”, el conjunto de
datos que usaremos en la próxima actividad. Haz clic en el conjunto de datos "Cloud-to-Ground Lightning Strikes". Esto nos
traerá una descripción y una vista previa del conjunto de datos que captura observaciones sobre la actividad de rayos y los
patrones meteorológicos en los Estados Unidos. Haz clic en "Ver conjunto de datos". Esto te hará volver al espacio de trabajo
SQL y creará una pestaña para el conjunto de datos. Luego, podemos volver a la pestaña del Editor que hemos abierto, o
hacer clic en "Componer consulta nueva" para empezar a escribir con SQL. Observa a la izquierda y verás que la lista
desplegable de datos públicos de BigQuery está en el menú del Explorador. Podemos hacer clic en la flecha para ampliar la
lista de datos de BigQuery y seleccionar un nuevo conjunto de datos. Vamos a seleccionar el primer conjunto de datos,
"austin_311", en la lista desplegable. Cuando lo hagamos, se ampliará para mostrar la tabla en el conjunto de datos. Podemos
abrir el conjunto de datos para obtener una vista previa. La pestaña Esquema contiene los nombres de cada columna en el
conjunto de datos. La pestaña Detalles contiene metadatos adicionales, como la fecha de creación del conjunto de datos. La
pestaña Vista previa contiene las primeras filas en el conjunto de datos. En esta página, podemos hacer clic en "Consultar"
para crear automáticamente una nueva ventana de editor con la plantilla para una consulta ya completada. A partir de aquí,
pon un asterisco después de Select, donde aparece nuestro cursor, luego, ejecuta la consulta. Felicitaciones, ejecutaste una
consulta de SQL en BigQuery. La consulta que ejecutaste arrojó filas en el conjunto de datos que se completan en una
ventana debajo de la interfaz de editor. Aquí también se visualizarán los resultados de cualquier consulta que ejecutes.
Digamos que ya tienes los resultados de una consulta que quieres cargar a BigQuery y analizar usando SQL. Para agregar tus
propios datos a BigQuery, elige el ID del proyecto que quieres agregar. Selecciona el ícono de los tres puntos verticales para
abrir las opciones del proyecto, luego elige "Crear conjunto de datos". Dale un nombre al conjunto de datos que te ayude a
identificarlo, más adelante, por ejemplo, "upload_test_dataset". Luego haz clic en "Crear conjunto de datos". A continuación,
ve al menú del Explorador y elige los tres puntos verticales junto al conjunto de datos, debajo del menú desplegable de
"Proyectos". Ahora, seleccionaremos el ícono para crear una tabla, que abre una ventana emergente. Debajo de Fuente y
crear tabla desde, seleccionamos "Cargar" o cualquier método que prefieras para cargar tus datos. Aquí, podemos cargar
cualquier archivo de datos, por ejemplo, un archivo CSV. Vamos a darle a nuestra tabla un nombre útil como "test_table".
Asegúrate de que el esquema esté configurado para detectar y seleccionar automáticamente "Crear tabla". Hay mucho más
por conocer sobre BigQuery. Siéntete libre de volver a ver este video en cualquier momento y sigue practicando. Nos vemos
pronto.
VIDEO: BigQuery en acción

Has aprendido la forma en que ordenar y filtrar datos en hojas de cálculos ayuda a los analistas de datos a personalizar la
información. Personalizar datos hace que sea más significativo y sencillo comprenderlos, analizarlos y visualizarlos. También
has descubierto que algunas hojas de cálculo pueden ser extremadamente largas y complejas. Saber cómo acercar los datos
exactos que necesitas mientras dejas a un lado el resto de los datos te ayudará a enfocarte en tu análisis. Esto también es
cierto para las bases de datos. A veces, un conjunto de datos es demasiado grande para descargar, o no cabe en una hoja de
cálculo. Entonces, un analista de datos usará SQL para crear una consulta con el fin de ver datos específicos de una serie más
amplia. Hemos aprendido que una base de datos es una recopilación de datos almacenados en un sistema informático. Y que
SQL significa Lenguaje de consulta estructurado. Los analistas de datos utilizan lenguaje de consulta para comunicarse con la
base de datos. En un video anterior también aprendiste que una base de datos relacional contiene una serie de tablas que
pueden conectarse para formar relaciones. Esas relaciones están representadas mediante claves primarias y externas. Los
analistas de datos escriben consultas para obtener datos de estas tablas. Veamos cómo funciona. Empezaremos con nuestro
visualizador de tabla.
Reproduce el video desde :1:13 y sigue la transcripción1:13
Aquí podemos ver los conjuntos de datos públicos que están disponibles. Nos desplazaremos por los datos antes de empezar
a usarlos para tener una idea de qué se trata y para asegurarnos de que estén limpios.
Algunos visualizadores de tablas te permiten previsualizar algunas filas antes de escribir una consulta. Esto es útil si quieres
echarle un vistazo para asegurarte de que el conjunto de datos será el adecuado para tu proyecto. Para mostrarte cómo
funciona, veamos un ejemplo de un conjunto de datos. Este muestra cuánta luz solar reciben los tejados durante un año.
Eso sería muy útil para un analista de datos que esté trabajando en un proyecto sobre energía solar, por ejemplo.

Empezaremos por previsualizar el conjunto de datos. Haz clic en él, de esta manera.
Reproduce el video desde :2: y sigue la transcripción2:00
Luego, seleccionaremos un subconjunto de estos datos, donde encontraremos regiones, estados, luz solar anual y más. Para
ver todo el conjunto de datos, escribamos una consulta. El primer paso es encontrar el nombre completo correcto del
conjunto de datos. Para hacer esto, selecciona el conjunto de datos, el potencial solar por código postal y selecciona una
tabla de consulta.
El nombre del conjunto de datos aparece entre dos comillas simples. Esto nos ayudará a leer la consulta de forma mucho más
fácil. También podemos quitar las comillas simples en este caso, y nuestra consulta seguirá funcionando.
Las palabras que ves antes del punto representan el nombre de la base de datos.
Y las palabras que están después del punto representan el nombre de la tabla.
Seleccionemos y copiemos el nombre del conjunto de datos porque lo necesitaremos dentro de poco.
Ahora hacemos clic en el signo más para crear una nueva consulta.
La mayoría de las consultas comienzan con la palabra SELECT (seleccionar).
Luego agregamos un espacio.
Como queremos ver todo el conjunto de datos, pondremos un asterisco a continuación. El asterisco indica que queremos
incluir todas las columnas. Ese es un gran atajo, ya que sin él tendríamos que completar cada nombre de campo.
Luego presionaremos mostrar resultados y escribiremos FROM (desde). FROM hace justo lo que parece. Indica de dónde
vienen los datos. Luego, agregaremos otro espacio. Ahora pegamos el nombre del conjunto de datos que copiamos antes.
Y, finalmente, realizamos la consulta.
Ahora, puedes examinar el conjunto de datos con cuidado antes de empezar a trabajar con él. Es importante tener en cuenta
lo siguiente: Las consultas SQL pueden estar escritas de muchas maneras diferentes, pero proporcionarán los mismos
resultados. Por ejemplo, podríamos haber escrito esta consulta como una línea larga de instrucciones como esta,
y obtendríamos los mismos resultados.
Las líneas y los espacios adicionales no impactan en el resultado de la consulta, pero mantienen tu consulta organizada y más
fácil de leer para ti y para otros. Ahora bien, si el proyecto no requiere todos estos campos, podemos utilizar SQL para ver una
o varias piezas de datos. Para hacer esto, especificamos un nombre de columna determinado en la consulta. Por ejemplo,
quizás solo queremos ver los datos de Pensilvania. Así que comenzaremos nuestra consulta de la misma manera que hemos
aprendido. SELECT, espacio y un asterisco.
Luego, FROM nuestra base de datos de potencial solar. Pero esta vez agregaremos WHERE (dónde).
WHERE también hace exactamente lo que parece. Le dice a la base de datos dónde buscar información. En este caso, en la
columna state name. Entonces, agrega un espacio y escribe state guion bajo name, el nombre de la columna.
Como solo queremos ver los datos de Pensilvania, agregamos un signo igual y la palabra Pensilvania entre comillas simples.
En SQL, las comillas simples indican el comienzo y el final de una cadena. Finalmente, ejecutamos la consulta.
Ahora podemos ver los datos sobre el potencial solar solo para Pensilvania. Ahora ya tenemos los datos que queremos y
estamos listos para comenzar a ponerlos a trabajar, algo que veremos más adelante. Por ahora, celebremos que hemos
terminado otro módulo. Has abordado un montón de información compleja y muy técnica. A medida que vayas practicando,
las cosas comenzarán a sentirse más naturales. Por ahora, tómate un momento para relajarte y pensar en todo lo que has
aprendido. Has descubierto los metadatos y cómo mantienen a los datos organizados al describir de qué se tratan esos datos.
Has visto cómo acceder a los datos internos y externos, y cómo los analistas de datos los utilizan para encontrar información
convincente para resolver problemas de la empresa. Y puedes ordenar y filtrar tus datos para encontrar la información que
necesitas. Por último, has aprendido sobre consultas y hasta has practicado cómo escribirlas. A continuación, tendrás algunas
lecturas y, luego, un desafío semanal para comprobar tus conocimientos. Esto te ayudará a confirmar que has comprendido lo
que hemos trabajado en estos videos. Y, como siempre, si llegas a tener alguna duda sobre una pregunta, te recomiendo que
repases los videos y las lecturas para encontrar la respuesta. Ahora eres el detective de datos, así que usa esas habilidades.
¡Buen trabajo, sigue así! Nos vemos en el desafío semanal.
Utilizar BigQuery:
BigQuery es un depósito de datos en Google Cloud que los analistas de datos pueden utilizar para realizar consultas,
filtrar conjuntos de datos grandes, agregar resultados y realizar operaciones complejas.
La próxima actividad está realizada en BigQuery. Esta lectura proporciona instrucciones para crear tu propia cuenta en
BigQuery, seleccionar conjuntos de datos públicos y cargar archivos CSV. Al final de esta lectura puedes confirmar tu
acceso a la consola de BigQuery antes de pasar a la actividad.
Nota: Al final de esta lectura, también proporcionamos recursos adicionales introductorios que se encuentran en
algunas plataformas de la base de datos SQL, por si eliges trabajar con ellos en lugar de BigQuery.
Tipos de cuentas BigQuery

Hay dos tipos de cuentas diferentes: espacio aislado y prueba gratuita. Una cuenta de espacio aislado te permite
practicar consultas y explorar conjuntos de datos públicos de forma gratuita, pero tiene restricciones adicionales
además de los cupos estándares y los límites. Si prefieres utilizar BigQuery con sus limitaciones estándares, puedes
configurar una cuenta gratuita. Más detalles:
 Una cuenta gratuita de espacio aislado no pide un método de pago. Sin embargo, tiene un límite de 12
proyectos. Tampoco permite insertar nuevos registros a una base de datos o actualizar el campo de valores de
registros existentes. Las operaciones de lenguaje de manipulación de datos (DML) no están permitidas en el
espacio aislado.
 Una cuenta de prueba gratuita requiere un método de pago para establecer una cuenta facturable, pero ofrece
plena funcionalidad durante el período de prueba.
Con ambos tipos de cuenta puedes subir de categoría a una cuenta paga en cualquier momento y conservar todos tus
proyectos existentes. Si configuras una cuenta gratuita pero no quieres subir de categoría a una cuenta paga, cuando
finaliza tu período de prueba puedes configurar una cuenta gratuita de espacio aislado en ese momento. No obstante,
los proyectos de tu cuenta gratuita no se transferirán a la cuenta de espacio aislado. Sería como empezar de cero otra
vez.
Configura una cuenta de espacio aislado gratuita para usar en este programa.
 Sigue estas instrucciones paso a paso o mira el video Configurar BigQuery, incluso el espacio aislado y las
opciones de facturación.
 Para obtener información más detallada sobre el uso del espacio aislado, comienza con la documentación
Utilizar el espacio aislado de BigQuery.
 Una vez que termines de configurar tu cuenta, verás el nombre del proyecto creado para la cuenta en el banner
y en SANDBOX, arriba del cuadro de mando de BigQuery.
Selecciona una cuenta gratuita (si lo prefieres)

Si prefieres no tener las limitaciones del espacio aislado en BigQuery, puedes configurar una cuenta gratuita para usar
en este programa.
 Sigue estas instrucciones paso a paso o mira el video Configurar BigQuery, incluso el espacio aislado y las
opciones de facturación. La cuenta gratuita ofrece $300 de crédito para los próximos 90 días. Ni siquiera
estarás cerca de sobrepasar ese límite si solo utilizas la consola de BigQuery para practicar consultas SQL. Una
vez que hayas gastado tu crédito de $300 (o una vez que hayan pasado los 90 días) tu prueba gratuita expirará
y tendrás que subir de categoría personalmente a una cuenta paga si quieres seguir utilizando los servicios de
la plataforma de Google Cloud, incluso BigQuery. No se aplicarán gastos de manera automática a tu método de
pago una vez que finalice tu período de prueba. Si elijes subir de categoría, se comenzarán a facturar cargos.
Una vez que hayas configurado tu cuenta, verás Mi Primer Proyecto en el banner, y el estado de tu cuenta sobre el
banner, que incluye el saldo de tu crédito y el número de días que quedan en tu período de prueba.
Cómo obtener el cuadro de mando de BigQuery.
Copia el siguiente enlace en tu navegador: console.cloud.google.com/bigquery.
Nota: En tu navegador, dirígete a console.cloud.google.com y te llevará al panel principal de la plataforma de Google

Cloud. Para navegar en BigQuery desde el panel, sigue los siguientes pasos:
 Haz clic en el ícono del menú Navegación (botón de hamburguesa) en el banner.

 Desplaza el cursor hacia abajo hasta la sección MACRODATOS.
 Haz clic en BigQuery y selecciona Espacio de trabajo SQL.
Mira el video Cómo utilizar BigQuery como introducción para cada una de las partes del espacio de trabajo SQL de
BigQuery.
(Opcional) Explorar un conjunto de datos público en BigQuery

Explorarás un conjunto de datos público en la próxima actividad, así que puedes realizar estos pasos más adelante si
prefieres.
 Consulta estas instrucciones paso a paso.

(Opcional) Carga un archivo CSV a BigQuery
Te proporcionamos estos pasos para que ahora puedas trabajar por tu cuenta con un conjunto de datos. Cargarás
archivos CSV a BigQuery más adelante en el programa.
 Consulta estas instrucciones paso a paso.

Comenzar con otras bases de datos (si no utilizas BigQuery)
Es más fácil seguir con las actividades del curso si utilizas BigQuery, pero si estás conectado a otras plataformas de
base de datos y practicas consultas SQL en ellas, en lugar de utilizar BigQuery, a continuación, encontrarás recursos
similares para comenzar:
 Primeros pasos con MySQL: Esta es una guía para configurar y utilizar MySQL.
 Primeros pasos con el servidor Microsoft SQL: Este es un tutorial para comenzar a utilizar el servidor SQL.
 Primeros pasos con PostgreSQL: Este es un tutorial para comenzar a utilizar PostgreSQL.
 Primeros pasos con SQLite: Esta es una guía de inicio rápido para utilizar SQLite.
Pregunta 1
Hasta ahora, te han presentado BigQuery, un almacén de datos en Google Cloud que pueden utilizar los analistas de datos para
realizar consultas, filtrar conjuntos de datos grandes, agregar resultados y realizar operaciones complejas. En esta actividad,
explorarás la interfaz de BigQuery; cargarás datos públicos a tu consola y escribirás algunas consultas SQL simples mediante
SELECT, FROM y WHERE.
Cuando completes esta actividad, estarás más familiarizado con la escritura de consultas en la interfaz de BigQuery. Esto te
permitirá practicar SQL, que es importante para trabajar con bases de datos en tu carrera como analista de datos.
Explorar BigQuery
Para esta actividad, necesitarás una cuenta de BigQuery. Si todavía no tienes una cuenta, puedes seguir las instrucciones del artículo
Cómo utilizar BigQuery. Una vez que tienes la cuenta, puedes comenzar a explorar.
Abre tu consola
1. Inicia sesión en BigQuery.
2. Luego, haz clic en el botón Ir a la consola en la página de inicio de BigQuery. Esto abrirá una nueva pestaña con tu consola.
3. Tómate un momento para explorar la consola. En el lado izquierdo, encontrarás el menú Explorador; esto incluye una barra de
búsqueda que puedes utilizar para buscar los recursos, los proyectos anclados y el botón + AGREGAR DATOS. En el lado derecho,
encontrarás el Editor de consulta. Aquí es donde escribirás las consultas y verás los conjuntos de datos. También aquí puedes
encontrar tu historial de trabajo, historial de consulta y consultas guardadas.
Acceder a datos públicos en BigQuery
Para comenzar realmente a escribir consultas, necesitarás algunos datos con los que trabajar. Una vez que te familiarices con la
interfaz de BigQuery, puedes acceder al conjunto de datos público directamente desde tu consola.
1. Haz clic en el botón + AGREGAR DATOSen el Panel del menú del explorador y selecciona Explorar conjuntos de datos
públicos.Esto abrirá un menú nuevo donde puedas buscar conjuntos de datos públicos que ya estén disponibles mediante Google
Cloud.
2. En el menú del conjunto de datos que acabas de abrir, escribe london bicycleen el cuadro de búsqueda en la parte superior, esto
mostrará los resultados del conjunto de datos London Bicycle Hires de Greater London Authority. Haz clic en el conjunto de
datospara obtener más información.
3. Desde la página de información del conjunto de datos, haz clic en el botón azul VER CONJUNTO DE DATOS. Esto abrirá tu
consola en una pestaña nueva con este conjunto de datos cargado.
Advertirás que bigquery-public-data está ahora marcado en tu panel del Explorador. Ahora puedes explorar y consultar estos
conjuntos de datos públicos.
4. Haz clic en la flechaal lado de bigquery-public-data y desplázate hacia abajo de la lista de conjuntos de datos públicos hasta
encontrar los datos london_bicycles. Cuando haces clic en el conjunto de datos, aparecerán dos tablas. Haz clic en cycle_hire.
Esto generará una nueva pestaña en tu Editor de consultas con información sobre el esquema de la tabla.
5. Luego de revisar el esquema de la tabla, puedes echar un vistazo sobre qué datos contiene la tabla cycle_hire, haciendo clic en la
pestaña Previsualizar. Esto te proporcionará una mejor idea sobre el tipo de datos con los que trabajarás.
Una vez que hayas finalizado de previsualizar los datos, puedes escribir una consulta.
Consultar tus datos
Hasta ahora, has aprendido tres partes básicas de una consulta: SELECT, FROM y WHERE. A modo de repaso, aquí presentamos
qué representan esas partes básicas en la consulta:
 SELECT es la sección de una consulta que indica sobre qué datos deseas que SQL te muestre resultados.
 FROM es la sección de una consulta que indica de qué tabla provienen los datos deseados.
 WHERE es la sección de una consulta que indica los filtros que deseas aplicar a tu conjunto de datos.
Escribir una consulta básica
Ahora, crea un simple comando utilizando las partes básicas de una consulta que acabas de aprender. Por ejemplo, puedes
seleccionar una columna específica de la tabla cycle_hire, por ejemplo, la columna end_station_name.
1. Inicia la consulta con una cláusula SELECT e indica qué columna deseas seleccionar de la tabla, en este caso, escribirás
end_station_name.
2. Luego de haber indicado qué columna seleccionaste, escribe tu cláusula FROM. Deberás especificar la tabla desde la que estás
consultando y escribir la siguiente ubicación: `bigquery-public-data.london_bicycles.cycle_hire`;
La consulta completa deberá aparecer así:
SELECT
end_station_name
FROM
`bigquery-public-data.london_bicycles.cycle_hire`;
3. Ejecuta tu consulta completa haciendo clic en el botón EJECUTAR.
La ejecución de la consulta demorará unos segundos. Una vez finalizada, encontrarás la lista de los nombres de estación que
solicitaste en el panel de la consola Resultados de la consulta.
Escribir una consulta para responder una pregunta
Luego de ejecutar la primera consulta básica, intenta responder una pregunta específica acerca de los datos. Por ejemplo, ¿cuáles
fueron los rental_ids para todos los viajes en bicicleta que duraron 20 minutos o más?
1. Haz clic en COMPONER CONSULTA NUEVA para iniciar una nueva consulta. Comienza nuevamente con tu instrucción
SELECT. Esta vez, querrás incluir todas las columnas de la tabla para esta consulta. Puedes utilizar un asterisco para indicar que
estás seleccionando todos los datos de la siguiente manera: SELECT COUNT(*) AS num_of_trips
2. Luego, agregarás tu instrucción FROM. Utilizarás el mismo conjunto de datos que en la consulta anterior: FROM `bigquery-
public-data.london_bicycles.cycle_hire`.
3. Por último, agregarás una instrucción WHERE para especificar que deseas filtrar solo para recorridos en bicicleta de 20 minutos
o más. Si revisas la previsualización de estos datos, podrías notar que la duración se registra en segundos, por lo que especificarás
1200 segundos en tu consulta. Puedes escribir eso como WHERE duration>=1200;
Tu consulta completa se escribirá de la siguiente manera:
SELECT
COUNT(*) AS num_of_trips
FROM
`bigquery-public-data.london_bicycles.cycle_hire`
WHERE
duration >= 1200;
4. Ejecuta tu consulta completa haciendo clic en el botón EJECUTAR.
La ejecución de la consulta demorará unos segundos. Una vez finalizada, encontrarás una lista de recorridos de esta tabla que
cumplan con tu criterio. Hay más de 7 millones de filas con recorridos de bicicletas de 20 minutos o más.
¿Preparado para un desafío?
Si te sientes cómodo utilizando las consultas para responder preguntas, intenta crear y ejecutar consultas para responder cualquiera
de las siguientes preguntas:
 ¿Cuáles son los nombres de las estaciones desde donde se inició bike_id 1710?
 ¿Cuántos bike_ids han finalizado en "Moor Street, Soho"?
 ¿Cuál es el station_id para "Canton Street, Poplar"?
 ¿Cuál es el nombre de la estación cuyo ID es 111?
 ¿Cuántos bike_ids distintos tenían duraciones de viajes mayores que 2400 segundos (o 40 minutos)?
Puedes utilizar el documento con las soluciones para revisar tu trabajo: Introducción a las soluciones de BigQuery
O descarga el archivo directamente aquí:

Confirmación y reflexión
Ejecuta otra consulta en tu tabla:
SELECT end_station_name FROM `bigquery-public-data.london_bicycles.cycle_hire` WHERE rental_id = 57635395;
¿En qué estación finalizó el recorrido en bicicleta con rental_id 57635395?

0 / 1 punto
1. Notting Hill Gate Station, Notting Hill

2. Southwark Street, Bankside
3. Tower Gardens, Tower
4. East Village, Queen Elizabeth Olympic Park
2.
Pregunta 2
En esta actividad, tuviste oportunidad de familiarizarte más con BigQuery y de escribir consultas SQL. En el cuadro de texto a
continuación, escribe 2 o 3 oraciones (entre 40 y 60 palabras) en respuesta a cada una de las siguientes preguntas:
 ¿Cómo crees que puedes utilizar los conjuntos de datos en BigQuery para que te ayude a desarrollar tus destrezas
relacionadas con el análisis de datos?
 ¿De qué manera piensas que tener un conocimiento sobre la sintaxis básica de las consultas te ayudará a escribir consultas
más complicadas en el futuro?
1 / 1 punto
Correcto
¡Felicitaciones por completar esta actividad práctica! Exploraste BigQuery, subiste datos públicos a tu consola y
generaste algunas consultas. Una buena respuesta incluiría que los conjuntos de datos públicos de BigQuery pueden
ayudarte a practicar la escritura de SQL.
Poder crear consultas SQL es una destreza importante para los analistas de datos, debido a que con frecuencia deben
trabajar con bases de datos. En las próximas actividades, seguirás trabajando con bases de datos y escribiendo
consultas con SQL: una herramienta esencial del kit de herramientas del analista de datos.
1.
Pregunta 1
Recientemente, estuviste pensando sobre cómo identificar los orígenes de datos que serían útiles para el análisis.
También pasaste un tiempo en la actividad anterior explorando un conjunto de datos públicos en BigQuery y
escribiendo algunas consultas SQL básicas. Además de utilizar datos públicos en BigQuery, deberás poder importar
datos de otras fuentes. En esta actividad, crearás una tabla y un conjunto de datos personalizados, que cargarás en
una tabla y consulta nuevas.
Al finalizar esta actividad, podrás cargar tus propios datos en BigQuery para realizar el análisis. Esto te permitirá
importar tus propias fuentes de datos en BigQuery, que es una destreza que necesitarás para analizar los datos de las
distintas fuentes.
Lo que necesitarás
Para comenzar, descarga el archivo Zip con datos de nombres de bebés. Este archivo contiene alrededor de 7 MB de
datos sobre nombres populares de bebés extraídos del sitio web de la Administración del Seguro Social de los Estados
Unidos.
Haz clic en el enlace del archivo Zip con datos de nombres de bebés y descárgalo.
Enlace a los datos de nombres de bebés: names.zip
Crear una tabla personalizada
Una vez que hayas descargado el archivo Zip, puedes importarlo en BigQuery para realizar consultas y análisis. Para
ello, necesitarás crear un nuevo conjunto de datos y una tabla personalizada.
Paso 1: Descomprimir el archivo
Deberás descomprimir el archivo que descargaste en tu computadora para acceder a este en BigQuery. Una vez que
hayas descomprimido el archivo, encontrarás un archivo .pdf denominado NationalReadMe que contiene más
información acerca del conjunto de datos. Este conjunto de datos realiza un seguimiento de la popularidad de los
nombres de bebés por cada año. Puedes encontrar archivos de texto etiquetados por el año que contienen. Abre
yob2014.txt para previsualizar los datos. Verás que es un archivo .csv con tres columnas. Recuerda dónde guardaste esta
carpeta para poder consultarla luego.
Paso 2: Crear un conjunto de datos
Antes de poder cargar tu archivo txt y crear una tabla para realizar consultas, deberás crear un conjunto de datos para
cargar tus datos y almacenar tus tablas.
1. Ve al Panel del explorador en tu espacio de trabajo y haz clic en los tres puntos al lado de tu proyecto marcadopara abrir
un menú. Desde aquí, selecciona Crear conjunto de datos.
2. Esto abrirá el menú de Crear conjunto de datos en el lado derecho de tu consola. Aquí es donde completarás
información sobre el conjunto de datos. Escribirás el ID del conjunto de datos como nombres de bebés y configurarás la
ubicación de los datos en los Estados Unidos (EE. UU.). Una vez que hayas finalizado de completar esta información,
puedes hacer clic en el botón azul CREAR CONJUNTO DE DATOS en la parte inferior del menú.
Paso 3: Crear tabla
Ahora que tienes un conjunto de datos personalizado almacenado en el espacio de tu proyecto, aquí es donde
agregarás la tabla.
1. Desde el conjunto de datos babynames, haz clic en el botón CREAR TABLA. Esto abrirá otro menú en el lado
derecho de tu consola.
2. En la sección Origen, seleccionarás la opción Cargar en Crear tabla desde. Luego, harás clic en el botón Examinar para
abrir tus archivos. Busca y abre el archivo yob2014.txt. Selecciona el formato de archivo .csv. En la sección Destino,
coloca el nombre names_2014 a tu tabla. En Esquema, selecciona Editar como textoy escribe el siguiente código:
string,gender:string,count:integer. Esto establecerá los tipos de datos de las tres columnas de la tabla. Deja el resto de
los parámetros tal como están y selecciona Crear tabla.
3. Una vez que hayas creado la tabla, aparecerá en el panel de tu explorador en el conjunto de datos que creaste
antes.
Haz clic en la tabla para abrirla en tu espacio de trabajo. Aquí, puedes revisar el esquema de la tabla. Luego, ve a la
pestaña Previsualizar para explorar tus datos. La tabla debe tener tres columnas: nombre, género y recuento.
Consulta tu tabla personalizada
Ahora que tu tabla está configurada, estás listo para comenzar a escribir consultas y responder preguntas acerca de
estos datos. Por ejemplo, supongamos que estabas interesado en los principales cinco nombres de bebés para niños
en los Estados Unidos en 2014.
Haz clic en COMPONER CONSULTA NUEVA para iniciar una nueva consulta para esta tabla. Luego, copia y pega
este código:
SELECT name, count FROM `babynames.names_2014` WHERE gender = 'M' ORDER BY count DESC LIMIT 5
Esta consulta SELECCIONA las columnas de nombre y recuento de la tabla names_2014. Mediante la cláusula
WHERE, estás filtrando para un género específico para tus resultados. Luego, estás ordenando cómo deseas que
aparezcan los resultados con ORDENAR POR. Debido a que estás ordenando por el recuento en orden descendente,
obtendrás los nombres y los recuentos correspondientes de mayor a menor. Y, por último, el LÍMITE le indica a SQL
que solo muestre los resultados de los cinco nombres más populares y los recuentos.
Una vez que hayas escrito esto en tu consola, selecciona EJECUTAR para obtener los resultados de la consulta.
¿Preparado para un desafío?
Si te sientes cómodo creando tus propias tablas personalizadas, intenta cargar más archivos del conjunto de datos de
nombres de bebés en tablas que puedas consultar. Por ejemplo, podrías cargar cada uno de los archivos desde 2015
hasta 2019 para descubrir los principales nombres de bebés de esos años.
Luego de realizar la consulta en tu nueva tabla, ¿cuál fue el tercer nombre de bebé más popular para niños en 2014?
1 / 1 punto
1. William
2. Jacob
3. Mason
4. Noah
Correcto. Para averiguar que Mason fue el tercer nombre de bebé más popular para niños en 2014, consultaste tu tabla
personalizada y revisaste los resultados. Al avanzar, podrás cargar tus propias fuentes de datos en BigQuery para
futuros proyectos de análisis. Esto te permitirá practicar cómo escribir consultas SQL para más fuentes de datos, que
será una destreza clave como analista de datos.
Guía detallada Prácticas recomendadas en SQL

Puedes guardar esta lectura para consultarla en el futuro. Ten en cuenta que puedes descargar una versión en PDF de
esta lectura a continuación:
In-depth guide_ SQL best practices_SPA
DOCX File
Estas prácticas recomendadas incluyen pautas para escribir consultas SQL y desarrollar documentación, así como
ejemplos de estas prácticas. Es un buen recurso para tener a mano cuando estés utilizando SQL por tu cuenta, así
puedes dirigirte a la sección que necesites para revisar esas prácticas. ¡Es como una guía práctica de SQL!
Uso de mayúsculas y distinción entre mayúsculas y minúsculas

Con SQL, el uso de mayúsculas no suele importar. Puedes escribir SELECT, seleccionar o SeLeCT. ¡Todas las
opciones funcionan! Pero si utilizas mayúsculas como parte de un estilo coherente, tus consultas se verán más
profesionales.
Para escribir consultas SQL como un profesional, siempre es bueno usar mayúsculas en los iniciadores de cláusulas
(por ejemplo, SELECT, FROM, WHERE, etcétera). Las funciones también deberían estar escritas con mayúsculas (por
ejemplo, SUM()). Los nombres de las columnas deberían estar escritos en minúscula (consulta la sección sobre
snake_case que se encuentra más adelante en esta guía). Los nombres de las columnas deberían estar escritos en
CamelCase (consulta la sección sobre CamelCase que se encuentra más adelante en esta guía). Esto ayuda a que tus
consultas sean coherentes y fáciles de leer, y no impactarán en los datos que extraigas cuando las realices. En el único
momento en que es importante el uso de mayúsculas es cuando se encuentran dentro de citas (podrás leer más sobre
citas más adelante).
Los proveedores de bases de datos SQL pueden utilizar variaciones ligeramente diferentes de SQL. Estas variaciones
se denominan dialectos SQL. Algunos dialectos SQL distinguen entre mayúsculas y minúsculas. BigQuery es uno de
ellos. Vertica es otro. Pero la mayoría, como MySQL, PostgreSQL y SQL Server no distinguen entre mayúsculas y
minúsculas. Esto quiere decir que si buscas country_code = ‘us’, te mostrará todas las entradas que contengan 'us',
'uS', 'Us' y 'US'. Esto no sucederá con BigQuery. BigQuery distingue entre mayúsculas y minúsculas, de manera que
esa misma búsqueda solo te mostrará entradas en las que el country_code sea exactamente 'us'. Si el country_code es
'US', BigQuery no incluirá esas entradas en los resultados.
Comillas simples o dobles: '' o " "

En la mayoría de los casos, tampoco es importante si utilizas comillas simples ' ' o comillas dobles " " cuando nos
referimos a las cadenas. Por ejemplo, SELECT es un iniciador de cláusula. Si escribes SELECT entre comillas, como
'SELECT' o "SELECT", SQL lo tomará como una cadena de texto. Tu consulta será errónea porque necesita una
cláusula SELECT.
Pero hay dos situaciones en las que sí importa qué tipo de comillas utilices:
1. Cuando quieres que las cadenas sean identificables en cualquier dialecto SQL
2. Cuando tu cadena contiene un apóstrofo o comillas
Dentro de cada dialecto SQL, hay reglas sobre lo que es aceptado y lo que no. Pero una regla general que comparten
casi todos los dialectos SQL es el uso de comillas simples para cadenas. Esto ayuda a evitar confusiones. Así que si
queremos referirnos a Estados Unidos en una cláusula WHERE (por ejemplo, country_code = 'US'), utiliza comillas
simples para encerrar la palabra 'US'.
La segunda situación es cuando tu cadena tiene comillas dentro. Imagina que tienes una columna de comidas favoritas
en una tabla denominada FavoriteFoods y otra columna que corresponde a cada amigo.
Amigo Favorite_food
Rachel DeSantos Shepherd’s pie (pastel de pastor)
Sujin Lee Tacos
Najil Okoro Paella española
Puedes ver que la comida favorita de Rachel contiene un apóstrofo. Si usaras comillas simples en una cláusula
WHERE para encontrar al amigo que tiene esta comida favorita, el resultado sería:
Esto no funcionará. Si ejecutas esta consulta, obtendrás un error. Esto sucede porque SQL reconoce una cadena de
texto como algo que comienza con una comilla 'y termina con otra comilla '. Así, en la consulta errónea de arriba, SQL
piensa que la comida favorita (Favorite_food) que estás buscando es 'Shepherd'. Solo 'Shepherd' porque el apóstrofo
de Shepherd’s finaliza la cadena.
En términos generales, este debería ser el único momento en el que deberías utilizar comillas dobles en lugar de
comillas simples. Entonces, tu consulta debería verse así:
SQL entiende cadenas de texto que comienzan con una comilla simple ' o con una comilla doble ". Dado que esta
cadena comienza con comillas dobles, SQL esperará que otra comilla doble marque el final de la cadena. Esto
asegurará el apóstrofo, así que volverá a "Shepherd’s pie" y no a 'Shepherd'.
Comentarios como recordatorios

A medida que te sientas más cómodo con SQL, podrás leer y comprender las consultas de un vistazo. Pero nunca está
de más que tengas comentarios en la consulta para recordar lo que estás tratando de hacer. Y si compartes tu consulta,
eso ayudará a que otros también puedan comprenderla.
Por ejemplo:
Puedes utilizar # en lugar de dos guiones, --, en la consulta de arriba, pero recuerda que no todos los dialectos SQL
reconocen # (MySQL no reconoce #). Por lo tanto, se recomienda usar -- de manera coherente. Cuando agregas un
comentario a una consulta utilizando --, el motor de consulta de la base de datos ignorará todo lo que esté en la misma
línea luego de --. Continuará procesando la consulta a partir de la próxima línea.
Nombres en snake_case para columnas

Siempre es importante que te asegures que el rendimiento de tu consulta tiene nombres fáciles de entender. Si creas
una nueva columna (ya sea desde un cálculo o desde nuevos campos concatenados), la nueva columna recibirá un
nombre genérico predeterminado (por ejemplo, f0). Por ejemplo:
The following table features the results of this query: f0: 8 f1: 4 total_tickets: 8 Number_of_purchases: 4
La siguiente tabla muestra los resultados de esta consulta: f0: 8 f1: 4 total_tickets: 8 Number_of_purchases: 4
Los resultados son:
f0 f1 total_tickets number_of_purchases
8 4 8 4
Las primeras dos columnas se denominan f0 y f1 porque no recibieron un nombre en la consulta anterior. Los nombres
SQL predeterminados son f0, f1, f2, f3 y así sucesivamente. Denominamos las últimas dos columnas total_tickets y
number_of_purchases, así que los nombres de estas columnas aparecen en los resultados de la consulta. Por eso
siempre es bueno ponerles nombres útiles a las columnas, en especial cuando utilizamos funciones. Luego de realizar
la consulta, quieres tener la capacidad de comprender rápidamente tus resultados, como las dos columnas que
describimos en el ejemplo.
Además de eso, notarás que los nombres de las columnas tienen guiones bajos entre las palabras. Los nombres nunca
deben tener espacios. Si 'total_tickets' tuviera un espacio y fuera 'total tickets', SQL cambiaría el nombre SUM(tickets)
por 'total'. Debido al espacio, SQL utilizará 'total' como el nombre y no comprenderá lo que quieres decir con 'tickets'.
Entonces, los espacios son malos para los nombres en SQL. Nunca utilices espacios.
Lo mejor es utilizar snake_case. Eso quiere decir que 'total tickets', que tiene un espacio en el medio de las dos
palabras, debe escribirse como 'total_tickets', con un guion bajo en lugar de un espacio.
CamelCase para los nombres de las tablas:

También puedes utilizar CamelCase cuando le pongas nombre a tu tabla. CamelCase significa que escribes con
mayúscula la primera letra de cada palabra, como si fueran las dos jorobas de un camello bactriano. La tabla
TicketsByOccasion utiliza CamelCase. Es opcional escribir con mayúscula la primera letra de la primera palabra en
CamelCase; también se utiliza camelCase. Algunas personas diferencian los dos estilos y los llaman CamelCase y
PascalCase, y utilizan camelCase para indicar que la primera letra no va en mayúscula, como si fuera un dromedario;
por ejemplo, ticketsByOccasion
En resumen, CamelCase es una elección de estilo. También puedes denominar tus tablas de las siguientes maneras:
 Todas las letras en minúscula o todas las letras en mayúscula, como ticketsbyoccasion o
TICKETSBYOCCASION.
 Con snake_case, como tickets_by_occasion.
Recuerda que la opción de escribir todas las letras en minúscula o todas las letras en mayúscula puede dificultar la
lectura del nombre de tu tabla, por eso no es recomendable para uso profesional.
La segunda opción, snake_case, es técnicamente correcta. Si las palabras están separadas por guiones bajos, el
nombre de tu tabla es fácil de leer, pero puede ser bastante largo porque estás agregando los guiones bajos. Además,
lleva más tiempo escribirlo. Si utilizas mucho esa tabla, puede convertirse en un fastidio.
En resumen, depende de ti utilizar snake_case o CamelCase a la hora de ponerle nombre a tus tablas. Solo asegúrate
de que el nombre de tu tabla sea fácil de leer y coherente. También asegúrate de averiguar si tu empresa prefiere
nombrar las tablas de una manera específica. Si es así, siempre sigue su convención de nomenclatura para ser
coherente.
Sangría:
Como regla general, es preferible mantener la longitud de cada línea en una consulta <= 100 caracteres. Esto hará que
tus consultas sean fáciles de leer. Por ejemplo, observa esta consulta con una línea de >100 caracteres.
SELECT CASE WHEN genre = 'horror' THEN 'Will not watch' WHEN genre = 'documentary' THEN 'Will watch alone'
ELSE 'Watch with others' END AS Watch_category, COUNT(
Esa consulta es difícil de leer e igual de complicada para solucionar o editar. Por otro lado, aquí hay una consulta en la
que nos limitamos a la regla de <= 100 caracteres:
Ahora es más fácil comprender lo que estás tratando de hacer en la cláusula SELECT. Ambas consultas se
desarrollarán sin problema porque la sangría no tiene importancia en SQL. No obstante, una sangría adecuada sigue
siendo importante para que las líneas sean cortas. Y cualquiera que lea tu consulta la valorará, ¡incluso tú mismo!
Comentarios de muchas líneas:

Si realizas comentarios que ocupan muchas líneas, puedes utilizar -- para cada línea. O si tienes más de dos líneas de
comentarios, sería más prolijo y fácil utilizar /* para comenzar el comentario y */ para cerrarlo. Por ejemplo, puedes
utilizar el método -- como se muestra debajo:
-- Date: September 15, 2020 -- Analyst: Jazmin Cisneros -- Goal: Count the number of rows in the table SELECT
COUNT(*) number of rows -- the * stands for all so count all FROM table
-- Fecha: 15 de septiembre de 2020 -- Analista: Jazmin Cisneros -- Objetivo: Cuenta el número de filas de la tabla
SELECT COUNT(*) cantidad de filas -- el * representa todo, así que cuenta todo FROM tabla
O puedes utilizar el método /* */ como se muestra debajo:
/* Date: September 15, 2020 Analyst: Jazmin Cisneros Goal: Count the number of rows in the table */ SELECT
COUNT(*) AS number_of_rows -- the * stands for all so count all FROM table
/* Fecha: 15 de septiembre de 2020 Analista: Jazmin Cisneros Objetivo: Cuenta el número de filas de la tabla */
SELECT COUNT(*) AS number_of_rows -- el * representa todo, así que cuenta todo FROM tabla
En SQL no importa el método que utilices. SQL ignora los comentarios independientemente de si utilizas: #, -- o /* y */.
Así que depende de ti y de tu preferencia personal. El método /* y */ para realizar comentarios de muchas líneas suele
verse más prolijo y ayuda a separar los comentarios de la consulta. Pero no hay un método correcto o uno incorrecto.
Editores de texto SQL:

Cuando te unes a una empresa, puedes esperar que cada una use su propia plataforma SQL y su propio dialecto SQL.
La plataforma SQL que utilicen (por ejemplo, BigQuery, MySQL o SQL Server) será donde escribas y realices tus
consultas SQL. Pero recuerda que no todas las plataformas SQL tienen editores de texto nativos para escribir en código
SQL. Los editores de texto SQL te proporcionan una interfaz donde puedes escribir tus consultas SQL de manera más
sencilla y con códigos coloridos. De hecho, ¡escribimos con un editor de texto SQL todos los códigos con los que
hemos estado trabajando hasta ahora!
Ejemplos con Sublime Text

Si tu plataforma SQL no tiene códigos de colores, quizás quieras utilizar un editor de texto como Sublime Text o
Atom. La siguiente sección muestra cómo se ve SQL en Sublime Text. Aquí hay una consulta realizada con Sublime
Text:
Con Sublime Text también puedes realizar ediciones avanzadas, como eliminar sangrías en varias líneas al mismo
tiempo. Por ejemplo, imagina que tu consulta tiene sangrías en lugares equivocados y se ve así:
Esto es muy difícil de leer, así que es probable que quieras eliminar las sangrías y comenzar de nuevo. En una
plataforma regular SQL, tendrías que ir línea por línea y presionar RETROCESO para borrar cada sangría por línea.
Pero en Sublime, puedes eliminar todas las sangrías al mismo tiempo si seleccionas todas las líneas y presionas
Comando (o CTRL en Windows) + [. Esto eliminará todas las sangrías de cada línea. Luego puedes seleccionar las
líneas a las que quieras agregarle sangría (por ejemplo, líneas 2, 4 y 6), y presionar la tecla Comando (o la tecla CTRL
en Windows) y seleccionar esas líneas. Luego, mientras mantienes presionada la tecla Comando (o la tecla CTRL en
Windows), presiona ] para agregar sangrías a las líneas 2, 4 y 6 al mismo tiempo. Esto ordenará tu consulta y, en
cambio, se verá así:
Sublime Text también acepta expresiones regulares. Puedes utilizar expresiones regulares (o regex) para buscar y
reemplazar patrones de cadena en las consultas. Aquí no nos dedicaremos a las expresiones regulares, pero quizás
quieras aprender más sobre ellas por tu cuenta, ya que son una herramienta muy poderosa.
Puedes comenzar con estos recursos:
 Buscar y reemplazar en Sublime Text

 Tutorial de expresiones regulares (si no sabes qué son las expresiones regulares)
 Hoja de referencia de expresiones regulares
ARCHIVO:
Estas prácticas recomendadas incluyen pautas para escribir consultas SQL y desarrollar documentación, así como ejemplos
de estas prácticas. Es un buen recurso para tener a mano cuando estés utilizando SQL por tu cuenta, así puedes dirigirte a la
sección que necesites para revisar esas prácticas. ¡Es como una guía práctica de SQL!
Uso de mayúsculas y distinción entre mayúsculas y minúsculas:
Con SQL, el uso de mayúsculas no suele importar. Puedes escribir SELECT, seleccionar o SeLeCT. ¡Todas las opciones
funcionan! Pero si utilizas mayúsculas como parte de un estilo coherente, tus consultas se verán más profesionales.
Para escribir consultas SQL como un profesional, siempre es bueno usar mayúsculas en los iniciadores de cláusulas (por
ejemplo, SELECT, FROM, WHERE, etcétera). Las funciones también deberían estar escritas con mayúsculas (por
ejemplo, SUM()). Los nombres de las columnas deberían estar escritos en minúscula (consulta la sección sobre
snake_case que se encuentra más adelante en esta guía). Los nombres de las columnas deberían estar escritos en
CamelCase (consulta la sección sobre CamelCase que se encuentra más adelante en esta guía). Esto ayuda a que
tus consultas sean coherentes y fáciles de leer, y no impactarán en los datos que extraigas cuando las realices. En el
único momento en que es importante el uso de mayúsculas es cuando se encuentran dentro de citas (podrás leer
más sobre citas más adelante).
Los proveedores de bases de datos SQL pueden utilizar variaciones ligeramente diferentes de SQL. Estas variaciones se
denominan dialectos SQL. Algunos dialectos SQL distinguen entre mayúsculas y minúsculas. BigQuery es uno de ellos. Vertica
es otro. Pero la mayoría, como MySQL, PostgreSQL y SQL Server no distinguen entre mayúsculas y minúsculas. Esto quiere
decir que si buscas country_code = ‘us’, te mostrará todas las entradas que contengan 'us', 'uS', 'Us' y 'US'. Esto no sucederá
con BigQuery. BigQuery distingue entre mayúsculas y minúsculas, de manera que esa misma búsqueda solo te mostrará
entradas en las que el country_code sea exactamente 'us'. Si el country_code es 'US', BigQuery no incluirá esas entradas en
los resultados.
Comillas simples o dobles: '' o " "

En la mayoría de los casos, tampoco es importante si utilizas comillas simples ' ' o comillas dobles " " cuando nos referimos a
las cadenas.
Por ejemplo, SELECT es un iniciador de cláusula. Si escribes SELECT entre comillas, como 'SELECT' o "SELECT", SQL lo tomará
como una cadena de texto.
Tu consulta será errónea porque necesita una cláusula SELECT.
Pero hay dos situaciones en las que sí importa qué tipo de comillas utilices:
1. Cuando quieres que las cadenas sean identificables en cualquier dialecto SQL
2. Cuando tu cadena contiene un apóstrofo o comillas
Dentro de cada dialecto SQL, hay reglas sobre lo que es aceptado y lo que no. Pero una regla general que
comparten casi todos los dialectos SQL es el uso de comillas simples para cadenas. Esto ayuda a evitar
confusiones. Así que si queremos referirnos a Estados Unidos en una cláusula WHERE (por ejemplo, country_code
= 'US'), utiliza comillas simples para encerrar la palabra 'US'.
La segunda situación es cuando tu cadena tiene comillas dentro. Imagina que tienes una columna de comidas favoritas en
una tabla denominada FavoriteFoods y otra columna que corresponde a cada amigo.
Friend Favorite_food
Rachel DeSantos Shepherd’s pie (pastel de pastor)
Sujin Lee Tacos
Najil Okoro Paella española
Puedes ver que la comida favorita de Rachel contiene un apóstrofo. Si usaras comillas simples en una cláusula WHERE para
encontrar al amigo que tiene esta comida favorita, el resultado sería:
Esto no funcionará. Si ejecutas esta consulta, obtendrás un error. Esto sucede porque SQL reconoce una cadena de texto
como algo que comienza con una comilla 'y termina con otra comilla '. Así, en la consulta errónea de arriba, SQL piensa que la
comida favorita (Favorite_food) que estás buscando es 'Shepherd'. Solo 'Shepherd' porque el apóstrofo de Shepherd’s finaliza
la cadena.
En términos generales, este debería ser el único momento en el que deberías utilizar comillas dobles en lugar de comillas
simples. Entonces, tu consulta debería verse así:
SQL entiende cadenas de texto que comienzan con una comilla simple ' o con una comilla doble ". Dado que esta cadena
comienza con comillas dobles, SQL esperará que otra comilla doble marque el final de la cadena. Esto asegurará el
apóstrofo, así que volverá a "Shepherd’s pie" y no a 'Shepherd'.
Comentarios como recordatorios

A medida que te sientas más cómodo con SQL, podrás leer y comprender las consultas de un vistazo. Pero nunca está de más
que tengas comentarios en la consulta para recordar lo que estás tratando de hacer. Y si compartes tu consulta, eso ayudará a
que otros también puedan comprenderla.
Por ejemplo:
Puedes utilizar # en lugar de dos guiones, --, en la consulta de arriba, pero recuerda que no todos los dialectos SQL
reconocen # (MySQL no reconoce #). Por lo tanto, se recomienda usar -- de manera coherente. Cuando agregas un
comentario a una consulta utilizando --, el motor de consulta de la base de datos ignorará todo lo que esté en la misma línea
luego de --. Continuará procesando la consulta a partir de la próxima línea.
Nombres en snake_case para columnas

Siempre es importante que te asegures que el rendimiento de tu consulta tiene nombres fáciles de entender. Si creas una
nueva columna (ya sea desde un cálculo o desde nuevos campos concatenados), la nueva columna recibirá un nombre
genérico predeterminado (por ejemplo, f0). Por ejemplo:
La siguiente tabla muestra los resultados de esta consulta: f0: 8 f1: 4 total_tickets: 8 Number_of_purchases: 4
Los resultados son:

f0 f1 total_tickets number_of_purchases
8484
Las primeras dos columnas se denominan f0 y f1 porque no recibieron un nombre en la consulta anterior. Los nombres SQL
predeterminados son f0, f1, f2, f3 y así sucesivamente. Denominamos las últimas dos columnas total_tickets y
number_of_purchases, así que los nombres de estas columnas aparecen en los resultados de la consulta. Por eso siempre es
bueno ponerles nombres útiles a las columnas, en especial cuando utilizamos funciones.
Luego de realizar la consulta, quieres tener la capacidad de comprender rápidamente tus resultados, como las dos columnas
que describimos en el ejemplo.
Además de eso, notarás que los nombres de las columnas tienen guiones bajos entre las palabras. Los nombres nunca deben
tener espacios. Si 'total_tickets' tuviera un espacio y fuera 'total tickets', SQL cambiaría el nombre SUM(tickets) por 'total'.
Debido al espacio, SQL utilizará 'total' como el nombre y no comprenderá lo que quieres decir con 'tickets'. Entonces, los
espacios son malos para los nombres en SQL. Nunca utilices espacios.
Lo mejor es utilizar snake_case. Eso quiere decir que 'total tickets', que tiene un espacio en el medio de las dos palabras,
debe escribirse como 'total_tickets', con un guion bajo en lugar de un espacio.
CamelCase para los nombres de las tablas :

También puedes utilizar CamelCase cuando le pongas nombre a tu tabla. CamelCase significa que escribes con mayúscula la
primera letra de cada palabra, como si fueran las dos jorobas de un camello bactriano. La tabla TicketsByOccasion utiliza
CamelCase. Es opcional escribir con mayúscula la primera letra de la primera palabra en CamelCase; también se utiliza
camelCase. Algunas personas diferencian los dos estilos y los llaman CamelCase y PascalCase, y utilizan camelCase para
indicar que la primera letra no va en mayúscula, como si fuera un dromedario; por ejemplo, ticketsByOccasion
En resumen, CamelCase es una elección de estilo. También puedes denominar tus tablas de las siguientes maneras:
• Todas las letras en minúscula o todas las letras en mayúscula, como ticketsbyoccasion o
TICKETSBYOCCASION.
• Con snake_case, como tickets_by_occasion.
Recuerda que la opción de escribir todas las letras en minúscula o todas las letras en mayúscula puede dificultar la lectura del
nombre de tu tabla, por eso no es recomendable para uso profesional.
La segunda opción, snake_case, es técnicamente correcta. Si las palabras están separadas por guiones bajos, el nombre
de tu tabla es fácil de leer, pero puede ser bastante largo porque estás agregando los guiones bajos. Además, lleva más
tiempo escribirlo. Si utilizas mucho esa tabla, puede convertirse en un fastidio.
En resumen, depende de ti utilizar snake_case o CamelCase a la hora de ponerle nombre a tus tablas. Solo asegúrate de que
el nombre de tu tabla sea fácil de leer y coherente. También asegúrate de averiguar si tu empresa prefiere nombrar las tablas
de una manera específica. Si es así, siempre sigue su convención de nomenclatura para ser coherente.
Sangría:
Como regla general, es preferible mantener la longitud de cada línea en una consulta <= 100 caracteres.
Esto hará que tus consultas sean fáciles de leer. Por ejemplo, observa esta consulta con una línea de >100 caracteres.
SELECT CASE WHEN genre = 'horror' THEN 'Will not watch' WHEN genre = 'documentary' THEN 'Will watch alone' ELSE
'Watch with others' END AS Watch_category, COUNT(
Esa consulta es difícil de leer e igual de complicada para solucionar o editar. Por otro lado, aquí hay una consulta en la que
nos limitamos a la regla de <= 100 caracteres:
Ahora es más fácil comprender lo que estás tratando de hacer en la cláusula SELECT. Ambas consultas se desarrollarán sin
problema porque la sangría no tiene importancia en SQL. No obstante, una sangría adecuada sigue siendo importante para
que las líneas sean cortas. Y cualquiera que lea tu consulta la valorará, ¡incluso tú mismo!
Comentarios de muchas líneas

Si realizas comentarios que ocupan muchas líneas, puedes utilizar -- para cada línea. O si tienes más de dos líneas de
comentarios, sería más prolijo y fácil utilizar /* para comenzar el comentario y */ para cerrarlo. Por ejemplo, puedes utilizar
el método -- como se muestra debajo:
-- Fecha: 15 de
septiembre de 2020 -- Analista: Jazmin Cisneros -- Objetivo: Cuenta el número de filas de la tabla SELECT COUNT(*) cantidad
de filas -- el * representa todo, así que cuenta todo FROM tabla
O puedes utilizar el método /* */ como se muestra debajo:
/* Fecha:
15 de septiembre de 2020 Analista: Jazmin Cisneros Objetivo: Cuenta el número de filas de la tabla */ SELECT
COUNT(*) AS number_of_rows -- el * representa todo, así que cuenta todo FROM tabla
En SQL no importa el método que utilices. SQL ignora los comentarios independientemente de si utilizas: #, -- o /* y */. Así
que depende de ti y de tu preferencia personal. El método /* y */ para realizar comentarios de muchas líneas suele verse
más prolijo y ayuda a separar los comentarios de la consulta. Pero no hay un método correcto o uno incorrecto.
Editores de texto SQL

Cuando te unes a una empresa, puedes esperar que cada una use su propia plataforma SQL y su propio dialecto SQL. La
plataforma SQL que utilicen (por ejemplo, BigQuery, MySQL o SQL Server) será donde escribas y realices tus consultas SQL.
Pero recuerda que no todas las plataformas SQL tienen editores de texto nativos para escribir en código SQL. Los editores de
texto SQL te proporcionan una interfaz donde puedes escribir tus consultas SQL de manera más sencilla y con códigos
coloridos. De hecho, ¡escribimos con un editor de texto SQL todos los códigos con los que hemos estado trabajando hasta
ahora!
Ejemplos con Sublime Text

Si tu plataforma SQL no tiene códigos de colores, quizás quieras utilizar un editor de texto como Sublime Text o Atom. La
siguiente sección muestra cómo se ve SQL en Sublime Text.
Aquí hay una consulta realizada con Sublime Text:
Con Sublime Text también puedes realizar ediciones avanzadas, como eliminar sangrías en varias líneas al mismo tiempo. Por
ejemplo, imagina que tu consulta tiene sangrías en lugares equivocados y se ve así:
Esto es muy difícil de leer, así que es probable que quieras eliminar las sangrías y comenzar de nuevo. En una plataforma
regular SQL, tendrías que ir línea por línea y presionar RETROCESO para borrar cada sangría por línea. Pero en Sublime,
puedes eliminar todas las sangrías al mismo tiempo si seleccionas todas las líneas y presionas Comando (o CTRL en Windows)
+ [. Esto eliminará todas las sangrías de cada línea. Luego puedes seleccionar las líneas a las que quieras agregarle sangría
(por ejemplo, líneas 2, 4 y 6), y presionar la tecla Comando (o la tecla CTRL en Windows) y seleccionar esas líneas. Luego,
mientras mantienes presionada la tecla Comando (o la tecla CTRL en Windows), presiona ] para agregar sangrías a las líneas
2, 4 y 6 al mismo tiempo. Esto ordenará tu consulta y, en cambio, se verá así:
Sublime Text también acepta expresiones regulares. Puedes utilizar expresiones regulares (o regex) para buscar y reemplazar
patrones de cadena en las consultas. Aquí no nos dedicaremos a las expresiones regulares, pero quizás quieras aprender más
sobre ellas por tu cuenta, ya que son una herramienta muy poderosa.
Puedes comenzar con estos recursos:
● Buscar y reemplazar en Sublime Text
● Tutorial de expresiones regulares (si no sabes qué son las expresiones regulares)
● Hoja de referencia de expresiones regulares
.
Pregunta 1
En lecciones anteriores, aprendiste cómo aplicar fórmulas en las hojas de cálculo. En esta actividad, practicaremos
cómo utilizar las fórmulas con las consultas SQL.
Al finalizar esta actividad, podrás utilizar SQL para escribir consultas para los conjuntos de datos. Esto te permitirá
explorar los conjuntos de datos públicos en BigQuery, lo cual es importante para escribir consultas en tu carrera como
analista de datos.
Configurar tus datos
1. Inicia sesión en el espacio aislado de BigQuery. Si cuentas con una versión de prueba gratuita de BigQuery, puedes
utilizarla. En la página de BigQuery, haz clic en el botón Ir a BigQuery.
 Nota:El espacio aislado de BigQuery actualiza frecuentemente su interfaz de usuario. Los últimos cambios
posiblemente no se vean reflejados en las capturas de pantalla presentadas en esta actividad, pero los
principios siguen siendo los mismos. Adaptarse a los cambios de las actualizaciones de software es una
destreza esencial para los analistas de datos, y es útil para ti para practicar la resolución de problemas.
También puedes comunicarte con tu comunidad de alumnos en el foro de debate para obtener ayudar.
2. Si nunca has creado un proyecto de BigQuery antes, haz clic en CREAR PROYECTO en el lado derecho de la
pantalla. Si has creado un proyecto antes, puedes utilizar uno existente o crear uno nuevo haciendo clic en la lista
desplegable del proyecto en la barra del encabezado azul y seleccionando NUEVO PROYECTO.
3. Coloca un nombre al proyecto que te permita identificarlo luego. Puedes colocarle un ID de proyecto único o utilizar
uno generado automáticamente. No te preocupes por seleccionar una organización si no sabes qué colocar.
4. Ahora, verás la interfaz del Editor. En la mitad de la pantalla hay una ventana donde puedes escribir el código y,
hacia la izquierda, está el menú del Explorador donde puedes buscar conjuntos de datos.
Elegir un conjunto de datos
Sigue estos pasos para encontrar y elegir un conjunto de datos para esta actividad:
1. En la esquina superior izquierda de la pantalla, busca la pestaña Explorador (Explorer).
2. Haz clic en el botón + AGREGAR (+ ADD) del menú Explorador (Explorer), navega hacia abajo por la lista en la
ventana Agregar y selecciona Conjuntos de datos públicos (Public Datasets).
Se abrirá un menú nuevo en el que podrás buscar conjuntos de datos públicos que ya estén disponibles a través de
Google Cloud.
3. En la barra Buscar en Marketplace (Search Marketplace), busca “Árboles de la ciudad de Nueva York”. Haz clic en el
resultado y, luego, en Ver conjunto de datos (View Dataset). Esto te llevará nuevamente a la interfaz de zona de
pruebas de BigQuery en una pestaña nueva.
● Nota: Es posible que con esta acción se fije el menú desplegable de bigquery-public-data al menú Explorador con
una estrella destacada. De esta forma, puedes explorar tablas y conjuntos de datos adicionales para futuras lecciones.
4. En BigQuery, encontrarás información sobre el conjunto de datos que seleccionaste. Revisa la descripción del
conjunto de datos.
Por ejemplo, puedes localizar el ID del conjunto de datos que necesitarás para escribir una consulta en SQL y, así,
advertir a qué base de datos, conjunto de datos y tabla te orientarás. En este caso, la conexión de la base de datos es
“bigquery-public-data” y el ID del conjunto de datos es “árboles_ciudad_nueva_york”, por lo que aún deberás identificar
qué tabla quieres consultar.Para hacerlo, comienza con una revisión minuciosa delconjunto de datos.
Elige una tabla

1. Ingresa el ID del conjunto de datos, “árboles_ciudad_nueva_york”, en la barra de búsqueda del menú Explorador.
Si no se generan resultados, puedes buscarlo manualmente borrando el texto de la barra de búsqueda, haciendo clic
en la flecha al lado de bigquery-public-data y desplazándote para encontrar el conjunto de datos correcto.
2. Una vez que hayas encontrado el conjunto de datos “árboles_ciudad_nueva_york”, haz clic en la flecha que está
junto a él para expandirlo y examinar las tablas que contiene.
Estas son todas tablas incluidas en el conjunto de datos. Puedes consultar los datos de todos los árboles catalogados
en la ciudad de Nueva York para tres años específicos.
4. Haz clic en la tabla censo_árboles_2005 (tree_census_2005) para que aparezca la información de la tabla.
5. En el lado derecho de la ventana de información, haz clic en Consulta (Query) y, luego, selecciona “En una pestaña
nueva” (In new tab).
De esta forma, se completará la ventana con una consulta. Observa que la consulta no contiene información entre
“SELECT” y “FROM”.
Escribe una consulta

Consulta los datos
Todavía deberás completar la consulta agregando lo que desees.
1. Inserta un asterisco * después de la selección, para que en la consulta se lea SELECT * FROM seguido de la
ubicación de la tabla.
2. Ejecuta la consulta. En el ejemplo proporcionado, tu resultado debería ser similar a lo siguiente:
Esta consulta devuelve resultados de las primeras 1,000 filas de la tabla.
3. Escribe una consulta para averiguarel diámetro promedio de todos los árboles de Nueva York en 2005. En lugar de
un asterisco, escribe AVG(tree_dbh).
Aparecerá la respuesta: 12.833 (que significa que el diámetro promedio de los árboles de la ciudad de Nueva York en
2005 era de 12.833 pulgadas).
Escribe tus propias consultas

Ahora, genera algunas preguntas y respóndelas con tus propias consultas en SQL. Por ejemplo, en el mismo conjunto
de datos del ejemplo, se intentan explorar los mismos datos para 1995 y 2015.
Eres libre de elegir otro conjunto de datos disponible públicamente en BigQuery y de escribir tus propias consultas para
una práctica adicional. Hay muchas opciones interesantes.
Según el conjunto de datos que usaste en esta actividad, ¿cuál fue el diámetro promedio de los árboles de la ciudad de
Nueva York en 2015?
1. 11.439
2. 12.334
3. 12.981
4. 11.279
Correcto. El diámetro promedio de los árboles de la ciudad de Nueva York en 2015 fue de 11.279 pulgadas. De ahora
en adelante, podrás escribir otras consultas en SQL para devolver los resultados de los conjuntos y las bases de datos.
No debes incluir el signo igual ni las comillas. De esta forma podrás encontrar los datos que necesitas para futuros
proyectos.
Pregunta 2
Durante esta actividad, practicaste cómo escribir consultas en SQL para devolver resultados de la información de los
conjuntos de datos. En el siguiente cuadro de texto, escribe 2 o 3 oraciones (entre 40 y 60 palabras) en respuesta a
cada una de las siguientes preguntas:
 ¿Qué crees que ocurriría si escribieras cada componente de una consulta correctamente, pero cambiaras el
orden?
 ¿Cómo puedes utilizar las consultas en SQL para crecer como analista de datos?
Correcto
¡Felicitaciones por completar esta actividad práctica! En una respuesta sólida, se incluiría cómo realizar consultas a los
conjuntos de datos públicos es una gran manera de practicar con SQL. Más allá de eso, considera lo siguiente:
Los analistas de datos utilizan SQL para interactuar con las bases de datos y visualizar la información que necesitan
analizar. Este es un conocimiento importante que te preparará para cursos futuros y muchos aspectos de tu carrera
como analista de datos. En las próximas actividades, aprenderás y practicarás cómo escribir consultas más avanzadas
que te ayudarán a dominar SQL, una herramienta esencial para el kit de herramientas de todo analista de datos.
CUESTIONARIO:
Pregunta 1
En MySQL, ¿cuál es la sintaxis aceptable para la palabra clave SELECT? Selecciona todas las opciones que
correspondan.
1. 'SELECT'
2. Select. Correcto. En MySQL, SELECT o seleccionar es una sintaxis aceptable.
3. SELECT. Correcto. En MySQL, SELECT o seleccionar es una sintaxis aceptable.
4. "SELECT"
Pregunta 2
La tabla de una base de datos se denomina blueFlowers. ¿Qué tipo de notación es esta?
1. Camel case
2. Minúscula
3. Snake Case
4. Tipo oración
Correcto. blueFlowers está en Camel Case.
Pregunta 3
En BigQuery, ¿qué sintaxis opcional se puede eliminar de la siguiente cláusula FROM sin dejar de realizar la
consulta?
FROM `bigquery-public-data.sunroof_solar.solar_potential_by_postal_code`
1. Guiones
2. Guiones bajos
3. Comillas simples
4. Puntos
Correcto. El nombre del conjunto de datos se muestra entre dos comillas simples para ayudar a las personas a leer la
consulta más fácilmente. Si quitas las comillas simples, la consulta seguirá ejecutándose.
Pregunta 4
En la siguiente cláusula FROM, ¿cuál es el nombre de la tabla en la consulta SQL?
FROM bigquery-public-data.sunroof_solar.solar_potential_by_postal_code
1. sunroof_solar
2. public-data.sunroof
3. solar.solar
4. solar_potential_by_postal_code
Correcto. El nombre de la tabla en la consulta SQL es solar_potential_by_postal_code. La tabla está en el conjunto de
datos sunroof_solar, un conjunto de datos público en BigQuery.
Glosario
Análisis (computacional) de datos
A
Agenda: Lista de citas programadas.
Alcance del trabajo (SOW): Esquema acordado de las tareas a realizar durante un proyecto.

Archivo CSV (valores separados por coma): Archivo de texto delimitado que utiliza una coma para separar los valores.
Atributo: Característica o calidad de los datos que se usan para etiquetar una columna en una tabla.
B
Base de datos normalizada: Base de datos en la que solo se almacenan datos relacionados en cada tabla.
Bloc de notas: Entorno de programación interactivo y editable para generar informes de datos y mostrar destrezas en el uso
de datos.
C
desconocido.
Clave externa: Campo en una tabla de una base de datos que constituye una clave primaria en otra tabla (Ver “Clave
primaria”).
Clave primaria: Identificador en una base de datos que hace referencia a una columna en la que cada valor es único (Ver
“Clave externa”).
Consentimiento: El aspecto de la ética de datos que considera el derecho de una persona de conocer cómo y por qué se
utilizarán sus datos personales antes de estar de acuerdo de proporcionarlos.

CONTAR: Función de la hoja de cálculo que cuenta la cantidad de celdas en un rango que cumplen con un criterio específico.
Convenciones de nomenclatura: Pautas uniformes para el nombre de un archivo que describen el contenido, la fecha de
creación y la versión.
D
Datos en formato largo: Conjunto de datos en el que cada fila constituye un punto de tiempo por persona, por lo que cada
persona tiene datos en varias filas.
DESDE: La sección de una consulta que indica de donde provienen los datos seleccionados.
DÓNDE: La sección de una consulta que especifica los criterios que deben cumplir los datos solicitados.
E
y compartir datos.
Esquema: Una manera de describir cómo se organiza algo, como por ejemplo datos.
Ética de los datos: Normas justificadas respecto de lo que está bien y lo que está mal a la hora de recopilar, compartir y usar
datos.
específicas.
Expresión matemática: Cálculo que implica la suma, resta, multiplicación o división (también denominada “ecuación”).
F
Foto digital: Imagen electrónica o computarizada, generalmente en formato BMP o JPG.
Fuente de datos correctos: Una fuente de datos que es confiable, original, integral, actual y citada (ROCCC) (Ver “Fuente de
datos incorrectos”).
hoja de cálculo.
G
Geolocalización: La ubicación geográfica de una persona o dispositivo mediante información digital.
Gobierno de datos: Proceso para garantizar la gestión formal de los recursos de datos de una empresa.
H
I
Informe: Conjunto estático de datos que se entrega periódicamente a los interesados.
Interoperabilidad de los datos: La capacidad de integrar datos de varias fuentes y un factor clave en el uso satisfactorio de los
datos abiertos entre las empresas y los gobiernos.
L
datos.
M
Macrodatos: Conjuntos de datos grandes, complejos que generalmente implican largos períodos de tiempo, que permiten
y lógica.
Metadatos administrativos: Metadato que indica el origen técnico de un recurso digital.
Metadatos descriptivos: Metadatos que describen datos y que se pueden utilizar para identificarlos más adelante.
Metadatos estructurales: Metadatos que indican cómo se organizan ciertos datos y si forman parte de una recopilación de
datos o de varias.
Metadatos: Datos sobre datos.
Métrica: Tipo único y cuantificable de datos que pueden utilizarse para medición.
N
Nube: Lugar para mantener los datos en línea, en lugar de en el disco duro de una computadora.
O
Objetivo métrico: Objetivo medible establecido por una empresa y evaluado mediante métricas.
Ordenación: El proceso de organizar los datos en un orden significativo para que sea más fácil entenderlos, analizarlos y
visualizarlos.
Organización Mundial de la Salud: Organización cuya función principal es la de controlar y coordinar la salud a nivel
internacional dentro del sistema de las Naciones Unidas.
P
Población: En el análisis computacional de datos, todos los valores posibles en un conjunto de datos.
de datos.
seleccionado.
R
Redundancia: Cuando los mismos datos se almacenan en dos o más lugares.
funciones.
Registro: Conjunto de datos relacionados en una tabla de datos, generalmente sinónimo de “fila”.
Reglamento General de Protección de Datos de la Unión Europea (GDPR): Organismo formulador de políticas en la Unión
Repositorio de metadatos: Base de datos creada para almacenar metadatos.
S
SELECCIONAR: Sección de una consulta que indica el subconjunto de un conjunto de datos.
Sesgo de confirmación: La tendencia de buscar o interpretar la información de manera que confirma creencias preexistentes.
Sesgo del investigador: Tendencia de distintas personas a observar las cosas de forma diferente (Ver “Sesgo del observador”).
T
promediar datos.
Tipo de datos: Atributo que describe los datos según sus valores, su lenguaje de programación o las operaciones que puede
realizar.
debe comprenderlos.
V
Visualización: (Ver “Visualización de datos”).
CUESTIONARIO SEMANA 3
Pregunta 1
Las bases de datos relacionales muestran las relaciones entre las tablas. ¿Qué campos representan la
conexión entre estas tablas? Selecciona todas las opciones que correspondan.
1. Claves relacionales
2. Claves secundarias
3. Claves primarias
4. Claves externas
Correcto. Las claves primarias y externas representan la conexión entre las tablas en una base de datos relacional.
Pregunta 2
Los metadatosson datos sobre los datos. ¿Qué tipos de información pueden ofrecer los metadatos acerca de
un conjunto de datos en particular? Selecciona todas las opciones que correspondan.
1. Qué análisis se deben realizar en los datos
2. Qué tipo de datos contiene. Correcto. Los metadatos ayudan a los analistas de datos a identificar el tipo de
dato, si está limpio y es confiable, y cómo se puede combinar con otro conjunto de datos.
3. Si los datos están limpios y son confiables. Correcto. Los metadatos ayudan a los analistas de datos a
identificar el tipo de dato, si está limpio y es confiable, y cómo se puede combinar con otro conjunto de datos.
4. Cómo combinar los datos con otro conjunto de datos. Correcto. Los metadatos ayudan a los analistas de datos
a identificar el tipo de dato, si está limpio y es confiable, y cómo se puede combinar con otro conjunto de datos.
Pregunta 3
Piensa en los datos como si estuvieras conduciendo un taxi. En esta metáfora: ¿Cuáles de los siguientes son
ejemplos de metadatos? Selecciona todas las opciones que correspondan.
1. Empresa propietaria del taxi. Correcto. El número de la placa de matrícula, la marca y el modelo del taxi, y la
empresa propietaria del taxi representan los metadatos estructurales.
2. Marca y modelo del taxi. Correcto. El número de la placa de matrícula, la marca y el modelo del taxi, y la
empresa propietaria del taxi representan los metadatos estructurales.
3. Pasajeros que subió el taxista. Esto no debería estar seleccionado
4. Número de la placa de matrícula
Pregunta 4
Completa el espacio en blanco: Gobierno de datosover es el proceso que garantiza que los _____ de una
empresa se gestionen de manera formal.
1. ingenieros de datos
2. tareas empresariales
3. recursos de datos
4. estrategias empresariales
Correcto. Gobierno de datos es el proceso que garantiza que los recursos de datos de una empresa se gestionen de
manera formal.
Pregunta 5
¿En qué circunstancias podría un analista de datos elegir no utilizar datos externos en sus análisis?
1. No se puede confirmar que los datos sean confiables.
2. Los datos son gratuitos y cualquier persona puede acceder a ellos.
3. Los datos son demasiado minuciosos.
4. Los datos representan distintas perspectivas.
Incorrecto
6.
Pregunta 6
Un analista de datos analiza una base de datos nacional de visualizaciones de salas de cine. Desea buscar las
primeras películas que se vieron en San Francisco en 2001. ¿Cómo puede organizar los datos para mostrar
resultados de las primeras 10 películas que se muestran en la parte superior de la lista? Selecciona todas las
opciones que correspondan.
1. Filtrar las visualizaciones fuera de San Francisco.
2. Ordenar por fecha en orden ascendente.
3. Filtrar visualizaciones que no pertenezcan a 2001.
4. Ordenar por fecha en orden descendente.
7.
Pregunta 7
Al escribir una consulta, es necesario que el nombre del conjunto de datos este dentro de las dos comillas
simples para que la consulta se ejecute adecuadamente.
1. Verdadero
2. Falso
Correcto. Al escribir una consulta, el nombre del conjunto de datos puede estar dentro de las dos comillas simples o no,
y aun así la consulta se ejecutará adecuadamente.
Pregunta 8
Estás trabajando con una tabla de una base de datos que contiene datos del cliente. La columna city incluye la
ciudad donde se encuentra cada cliente. Deseas averiguar qué clientes se encuentran en Berlín.
Escribes la consulta SQL a continuación. Agrega una cláusula WHERE que mostrará resultados solo de
clientes que se encuentren en Berlín.
SELECT
city
FROM
customer WHERE city='Berlin'
EjecutarRestablecer
+--------+
| city |
+--------+
| Berlin |
| Berlin |
+--------+
¿Cuántos clientes se encuentran en Berlín?
1. 2
2. 9
3. 7
4. 12
Correcto. La cláusula WHERE city = 'Berlin' mostrará los resultados solo de los clientes que se encuentran en Berlín. La
consulta completa es SELECT * FROM customer WHERE city = 'Berlin'. La cláusula WHERE filtra los resultados que
cumplen con ciertas condiciones. La cláusula WHERE incluye el nombre de la columna, un signo de igual y el valor o
los valores para incluir en la columna. Coloca comillas para encerrar los valores de texto. Hay dos clientes que se
encuentran en Berlín.
MODULO 4
Organiza los datos de manera efectiva:
VIDEO: Confía en tus datos
Hola, qué bueno tenerte de vuelta. Hasta ahora, nos concentramos en preparar tus datos para el proceso y el análisis. En
estos videos, exploraremos otra gran parte de ese proceso: organizar y proteger tus datos. Mantener tus datos organizados es
importante por varias razones: hace más fácil la búsqueda y el uso, te ayuda a evitar cometer errores durante tu análisis y
ayuda a protegerlos. A continuación, hablaremos de los aspectos básicos de organizar los datos para el uso personal y
profesional, y para las convenciones de nomenclatura de archivos. Luego, también veremos algunas funciones de seguridad
para las hojas de cálculo. Al final de estos videos, podrás hacer todas estas cosas y podrás explicar estos pasos a los
interesados, para que se sientan confiados de que sus prácticas de datos son seguras. Cuando estés listo para comenzar, pasa
al siguiente video. Allí comenzaremos con la organización de datos para uso personal.
VIDEO: Organicémonos
Hola de nuevo. Ya sea que estés organizando tus datos personales para tu uso propio o que organices los datos del proyecto
para el trabajo, hay ciertos procedimientos que debes seguir para asegurarte de que tus datos se encuentren y usen
fácilmente. En este video, hablaremos de prácticas recomendadas de organización y veremos algunas maneras diferentes de
organizar los datos del proyecto. Hay muchas prácticas recomendadas que puedes usar al organizar datos, entre ellas,
convenciones de nomenclatura, sistema de carpetas, y archivado de archivos antiguos.
Antes ya hablamos de la nomenclatura de archivos, que también se conoce como convenciones de nomenclatura. Son
pautas uniformes que describen el contenido, la fecha o la versión de un archivo en su nombre. Básicamente, esto significa
que quieres usar nombres descriptivos y lógicos para que tus archivos sean fáciles de encontrar y de usar.
Hablando de encontrar cosas fácilmente, organizar tus archivos en carpetas ayuda a tener los archivos relacionados del
proyecto juntos en un solo lugar. Esto se llama sistema de carpetas. Por ejemplo, todos los archivos relacionados con tu plan
de vacaciones deberían ir en la carpeta Vacaciones2025. Luego podrías dividir más esa carpeta creando subcarpetas de
itinerario o fotos, por ejemplo, según a qué otras cosas quieras tener acceso fácilmente.
También es útil mover proyectos antiguos a una ubicación aparte para crear un archivo y reducir el desorden. Es mucho más
fácil encontrar y usar mis archivos cuando les pongo un nombre significativo que permita buscarlos y cuando los organizo en
carpetas. Hace que mis datos estén más accesibles y sean más útiles.
Además de estas tres prácticas recomendadas, hay otras dos cosas que deberás tener en cuenta cuando organices los
datos para usar en el trabajo.
Primero, muchas personas podrían tener acceso a los datos del proyecto que usarás para trabajar y usarlos. Es importante
alinear tus prácticas de nomenclatura y almacenamiento con las de tu equipo para evitar confusiones. Tu equipo también
podría desarrollar prácticas de metadatos, como crear un archivo que describa las convenciones de nomenclatura del
proyecto para facilitar la referencia. Hablaremos en más detalle sobre las convenciones de nomenclatura para archivos del
trabajo más adelante.
En segundo lugar, piensa con qué frecuencia haces copias de los datos y las guardas en distintos lugares. Y lo más importante,
porque si los datos se almacenan en muchas bases de datos u hojas de cálculo distintas, pueden contradecirse y producir
errores en el futuro. Además, almacenar datos en distintos lugares consume mucho espacio. Las bases de datos relacionales
pueden ayudarte a evitar la duplicación de datos y a almacenar tus datos de manera más eficiente. Puedes usar estas
prácticas para organizar los datos de distintas maneras según tu proyecto. Veamos algunos ejemplos de la organización de los
datos. Tengo unas carpetas de proyecto de muestra aquí, cada una organizada de manera un poco distinta. Abrámoslas y
veamos cómo son. Empezaremos con la carpeta de alto nivel Finanzas. La carpeta Finanzas se ha organizado por categorías.
Hay subcarpetas, como Presupuesto, Facturas y Nómina, que representan distintas categorías. Hagamos clic en "Facturas"
para ver qué hay dentro. En la carpeta Facturas, puedes ver que tenemos otro conjunto de subcarpetas rotuladas por año,
2014, 2015... Parece que están en orden cronológico. A veces, la forma en que se organizan los archivos nos dice cómo se
organizan también los datos que están en los archivos. Abramos un archivo para ver si es así. En la subcarpeta 2014, hay un
archivo con facturas desde junio.
Si la abrimos, podemos ver que se organizaron por fecha, igual que las carpetas. Hay distintas maneras de organizar los datos,
según para qué los necesites.
La organización por categorías de las subcarpetas y de las finanzas me facilita ir directamente a las facturas, pero la
organización cronológica de la subcarpeta de facturas puede ayudarnos a encontrar datos financieros desde la fecha exacta
que estamos buscando.
También hay otras maneras de organizar los datos: en orden de importancia o por ubicación. Por ejemplo, una empresa
podría usar la organización jerárquica para que los datos de los empleados reflejen la estructura de la organización de los
empleados. O una empresa que trabaja con datos geográficos podría decidir organizar por ubicación. Es buena idea tomarse
un tiempo al inicio de un proyecto para pensar cuáles serán los mejores métodos de organización que deben seguir tú y tu
equipo. Esta es otra forma de pensarlo.
Tener datos desorganizados es como tener una habitación desordenada. Es abrumador, es difícil encontrar algo y todo
empeora cuanto más evitas hacer la limpieza. Pero al asegurarte, desde un primer momento, que sabes dónde pusiste tus
archivos, puedes mantener tus datos de trabajo organizados, fáciles de encontrar y sin errores. Ahora que sabes lo
importante que es mantener tus datos organizados para el uso personal y laboral, analizaremos más en detalle las
convenciones de nomenclatura de archivos y cómo pasar eso a nuestras bases de datos. Nos vemos en el siguiente video.
Pautas de organización
Esta lectura resume las prácticas recomendadas para la nomenclatura, la organización y el almacenamiento de
archivos.
Prácticas recomendadas para las convenciones de nomenclatura de archivos

Repasa las siguientes convenciones para la nomenclatura de archivos:
 Decide las convenciones de nomenclatura de archivos al inicio de un proyecto a fin de evitar tener que cambiar
el nombre de los archivos una y otra vez.
 Alinea tus convenciones de nomenclatura de archivos con las que tu equipo o empresa ya aplican.
 Asegúrate de que los nombres de los archivos sean significativos; ten en cuenta incluir información como el
nombre del proyecto y cualquier otra cosa que te ayude a identificar (y a usar) rápidamente el archivo para el
propósito adecuado.
 Incluye la fecha y el número de versión en los nombres de los archivos; los formatos comunes son AAAAMMDD
para las fechas y v## para las versiones (o revisiones).
 Crea un archivo de texto como archivo de muestra, con contenido que describa (desglose) la convención de
nomenclatura de archivos y un nombre de archivo que se aplique.
 Evita los espacios y los caracteres especiales en los nombres de los archivos. En cambio, usa guiones, guiones
bajos o letras mayúsculas. Los espacios y los caracteres especiales pueden producir errores en algunas
aplicaciones.
Prácticas recomendadas para mantener los archivos organizados
Recuerda estos consejos para mantener tu organización cuando trabajas con archivos:
 Crea carpetas y subcarpetas en una jerarquía lógica para que los archivos relacionados se almacenen juntos.
 Separa el trabajo en curso del ya completado para que sea más fácil encontrar los archivos de los proyectos
actuales. Archiva los archivos más antiguos en otra carpeta o en una unidad de almacenamiento externo.
 Si no se hace una copia de seguridad automática de tus archivos, deberás hacer una manualmente con
frecuencia para no perder el trabajo importante.
VIDEO: Todo con respecto a la nomenclatura de los archivos:
Me escuchaste hablar de la idea de usar nombres de archivo lógicos y significativos para que puedas organizar tus datos. Pero
usar nombres de archivo coherentes también puede optimizar o, incluso, automatizar tu proceso de análisis, lo que te ahorra
tiempo y energía en el largo plazo. Cuando usas pautas uniformes que describen el contenido, la fecha o la versión de un
archivo y su nombre, estás usando convenciones de nomenclatura de archivos. Como ya hemos visto, estas convenciones de
nomenclatura de archivos nos ayudan a organizar, acceder, procesar y analizar nuestros datos. Aquí damos algunos consejos
generales sobre cómo crear convenciones de nomenclatura de archivos que sean lógicas y funcionales. Algunos consejos
rápidos para la nomenclatura de archivos. Decide tus convenciones al principio para evitar tener que pasar mucho tiempo
rehaciendo todo después. Alinea tu nomenclatura de archivos con la de tu equipo y asegúrate de que los nombres de tus
archivos sean significativos y que mencionen el nombre del proyecto, la fecha de creación, la versión de la revisión o
cualquier otra información útil que se necesite para entender qué hay en ese archivo. Hay otras cosas simples que puedes
hacer para asegurarte de que tus convenciones de nomenclatura de archivos sean exactas. En primer lugar, usa nombres
breves y agradables para tus archivos. Se supone que son puntos de referencia rápidos que te dicen qué hay en un archivo.
Por los videos anteriores, sabemos que queremos incluir fechas y números de revisión en los nombres de nuestros archivos.
Recomiendo usar el formato de año, mes y día porque sigue el estándar de fecha internacional. Los países tienen distintas
convenciones de fechas, ten eso en cuenta. Cuando incluyas números de revisiones en el nombre de un archivo, empieza con
cero para que, si tienes revisiones de dos dígitos, ya se integren en tus convenciones. Otra buena regla es usar guiones,
guiones bajos o letras mayúsculas, en lugar de usar espacios. Los espacios y los caracteres especiales podrían no ser
reconocidos por tu software. Además, evitar los espacios hace que sea más fácil trabajar en SQL. Mi último consejo: crea un
archivo de texto con todas tus convenciones de nomenclatura para un proyecto. Es muy útil si alguien se suma a tu equipo o
si necesitas tener un recordatorio rápido mientras estás trabajando en algo. Hablamos de esto antes cuando tratamos los
metadatos, que son datos sobre los datos. Ayuda a explicar qué datos hay y cómo se organizan. Cuando uses convenciones de
nomenclatura uniformes y significativas durante todo tu proyecto, podrás encontrar y usar tus datos fácilmente y también
podrás ahorrarte mucho tiempo. A continuación, seguiremos analizando las hojas de cálculo y hablaremos sobre las
funciones de seguridad y cómo puedes usarlas para proteger tus datos ahora que están organizados. Nos vemos ahí.
Registro de aprendizaje: Revisa la estructura de

archivos y las convenciones de nomenclatura
Descripción general
En la lección anterior, te presentamos la estructura de archivos y las convenciones de nomenclatura. Ahora

completarás una entrada en tu registro de aprendizaje para revisar estos conceptos y reflexionar sobre por qué son tan
importantes. Para cuando hayas completado esta entrada, comprenderás mejor cómo y por qué los analistas de datos
usan la estructura de archivos y las convenciones de nomenclatura en su trabajo. Esto te ayudará a pensar de manera
crítica sobre la estructura de archivos y la nomenclatura para tus proyectos futuros y para mantener tu trabajo más
organizado.
Revisa las prácticas recomendadas
Antes de empezar a pensar en qué tipo de convenciones y patrones de nomenclatura usarías en tus proyectos, tómate
un momento y repasa las prácticas recomendadas para la estructura de archivos y las convenciones de nomenclatura.
Al crear una estructura de archivos y un patrón de convenciones de nomenclatura para un proyecto, siempre debes
hacer lo siguiente:
 Decidir las convenciones al inicio de tu proyecto. Cuanto antes empieces, más organización tendrás.
 Alinear las convenciones de nomenclatura de archivos con las de tu equipo. Las convenciones son más útiles
cuando todos las siguen.
 Asegurarte de que los nombres de los archivos sean significativos. Mantener un patrón constante que contenga
la información más útil que se necesita.
 Usar nombres de archivo cortos y específicos.
Esto incluye entender la estructura esperada de las carpetas y de los archivos de un proyecto. ¿Dónde se encuentran
tus datos? ¿Y tus hojas de cálculo? ¿Y tus visualizaciones de datos? Poder recorrer tus carpetas de manera sencilla
significa que el proyecto está bien estructurado.
Recuerda que hay opciones estilísticas que deberás elegir para las convenciones de los nombres de archivos. Sin
embargo, también sigue habiendo prácticas recomendadas que deberás seguir aquí:
Convención de formato Ejemplo

Usa el formato de fecha aaaammdd SalesReport20201125
Inicia los números de versiones con 0 SalesReport20201125v02
Usa guiones, guiones bajos o letras mayúsculas SalesReport_2020_11_25_v02
Reflexionarás sobre la importancia de estas convenciones y cómo abordarías la estructura y la nomenclatura de
archivos para tus proyectos en la plantilla de registro de aprendizaje cuyo enlace aparece a continuación.
Accede a tu registro de aprendizaje

Para usar el registro de aprendizaje de este elemento del curso, haz clic en el enlace a continuación y elige “Usar
plantilla”.
Enlace a la plantilla de registro de aprendizaje: Revisa la estructura de archivos y las convenciones de nomenclatura
Si no tienes una cuenta de Google, puedes descargar la plantilla directamente desde el siguiente archivo adjunto.
Reflexión
En tu plantilla de registro de aprendizaje, escribe 2 o 3 oraciones (de 40 a 60 palabras) para responder a cada una de
las preguntas sobre la estructura de archivos y las convenciones de nomenclatura que aparecen a continuación:
 ¿Por qué son tan importantes la estructura de los archivos y las convenciones de nomenclatura? ¿Qué
consecuencias puede tener una mala organización en el trabajo para los analistas de datos?
 ¿Cómo estructurarías las carpetas y los archivos? ¿Qué convenciones de nomenclatura usarías?
 ¿Qué te gusta más de estas opciones?
Registro de aprendizaje: Revisa la estructura de archivos y las convenciones

de nomenclatura
nstrucciones
Puedes usar este documento como plantilla para la actividad del registro de aprendizaje: Considera cómo los analistas de datos
abordan las tareas. Escribe tus respuestas en este documento y guárdalo en tu computadora o en Google Drive.
Te recomendamos que guardes todos los registros de aprendizaje en una carpeta y que incluyas una fecha en el nombre del archivo
para ayudarte a mantenerte organizado. La información importante, como el número de curso, el título, y el nombre de la actividad
que ya está incluida. Una vez que hayas terminado el registro de aprendizaje, puedes volver a leer tus respuestas más adelante para
entender cómo han cambiado tus opiniones sobre diferentes temas a lo largo de los cursos.
Para revisar las instrucciones detalladas sobre cómo completar esta actividad, regresa a Coursera: Registro de aprendizaje: Revisa la
estructura de archivos y las convenciones de nomenclatura.
Fecha: <introducir Curso/tema: Curso 3: Preparar datos para la exploración

fecha>
Registro de aprendizaje: Revisa la estructura de archivos y las convenciones de
nomenclatura
Revisa las Al crear una estructura de archivos y un patrón de convenciones de nomenclatura para un
prácticas proyecto, siempre debes hacer lo siguiente:
recomendadas
● Decidir las convenciones al inicio de tu proyecto. Cuanto antes empieces, más
organización tendrás.
● Alinear las convenciones de nomenclatura de archivos con las de tu equipo. Las
convenciones son más útiles cuando todos las siguen.
● Asegurarte de que los nombres de los archivos sean significativos. Mantener un
patrón constante que contenga la información más útil que se necesita.
● Usar nombres de archivo cortos y específicos.
Recuerda que hay opciones estilísticas que deberás elegir para las convenciones de los
nombres de archivos. Sin embargo, también sigue habiendo prácticas recomendadas que
deberás seguir aquí:
Convenci Ejemplo
ón de
formato
Usa el SalesRep
formato ort20201
de fecha 125
‘aaaamm
dd’
Inicia los SalesRep

números ort20201
de 125v02
versione
s con 0
Usa SalesRep
guiones, ort_2020
guiones _11_25_
bajos o v02
letras
mayúscu
las
Reflexión: Escribe 2 o 3 oraciones (de 40 a 60 palabras) para responder a cada una de las preguntas
sobre la estructuración de archivos y las convenciones de nomenclatura que aparecen a
continuación:
Preguntas y
respuestas:
● ¿Por qué son tan importantes la estructura de los archivos y las convenciones de
nomenclatura? ¿Qué consecuencias puede tener una mala organización en el
trabajo para los analistas de datos?
Escribe tu respuesta aquí.
● ¿Cómo estructurarías las carpetas y los archivos? ¿Qué convenciones de

nomenclatura usarías?
● ¿Qué te gusta más de estas opciones?

CUESTIONARIO:
Pregunta 1
Los analistas de datos usan pautas para describir la versión, el contenido y la fecha de creación de un archivo.
¿Cómo se llaman estas pautas?
1. Verificaciones de nomenclatura
2. Atributos de nomenclatura
3. Convenciones de nomenclatura
4. Referencias de nomenclatura
Correcto. Las convenciones de nomenclatura son pautas que describen el contenido, la fecha o la versión de un
archivo.
Pregunta 2
¿Los analistas de datos usan el sistema de carpetas para lograr qué metas? Selecciona todas las opciones que
correspondan.
1. Para transferir archivos de un lugar a otro
2. Para tener juntos los archivos relacionados con el proyecto. Correcto. Los analistas de datos usan el sistema de
carpetas para tener juntos los archivos relacionados con el proyecto y organizarlos en subcarpetas.
3. Para organizar los archivos en subcarpetas. Correcto. Los analistas de datos usan el sistema de carpetas para
tener juntos los archivos relacionados con el proyecto y organizarlos en subcarpetas.
4. Para asignar metadatos sobre las carpetas
Pregunta 3
Completa el espacio en blanco: Para separar el trabajo actual del trabajo anterior y reducir el desorden, los
analistas de datos crean _____. Esto implica mover archivos de proyectos completados a otra ubicación.
1. archivos
2. copias de seguridad
3. copias
4. estructuras
Correcto. Para separar el trabajo actual del trabajo anterior y reducir el desorden, los analistas de datos crean archivos.
Pregunta 4
¿Cuál es el proceso de estructurar las carpetas de manera general en la parte superior y luego desglosarlas en
temas más específicos?
1. Hacer una copia de seguridad
2. Desarrollo de metadatos
3. Crear una jerarquía
4. Asignar convenciones de nomenclatura
Correcto. El proceso de estructurar las carpetas de manera general en la parte superior y luego desglosarlas en temas
más específicos es crear una jerarquía.
Pregunta 5
Las convenciones de nomenclatura de archivos correctas incluyen información que sirve para intentar localizar
o actualizar un archivo. ¿Cuál de los siguientes es un nombre de archivo efectivo?
1. CampaignData_03
2. Data_519
3. May30-2019_AirportAdvertisingCampaignResults_Terminals3
5_InclCustSurveyResponses_PLUS_IdeasforJune
4. AirportCampaign_2013_10_09_V01
Correcto. AirportCampaign_2013_10_09_V01 es un nombre de archivo efectivo porque tiene una longitud adecuada y
menciona el nombre del proyecto, la fecha de creación y la versión.
Protección de los datos:

Funciones de seguridad en hojas de cálculo
Volviste. Bien, ahora que nuestros datos están organizados y son fáciles de encontrar, es hora de empezar a pensar en cómo
protegerlos. La buena noticia es que las hojas de cálculo tienen funciones de seguridad ya incorporadas. En este video,
veremos los distintos programas de hojas de cálculo y cómo sus funciones de seguridad, como protecciones de hojas y
control de acceso, son similares. Cuando digo "funciones de seguridad", quizá te imagines formas de proteger los datos de
otras personas. Pero eso es solo un tipo de seguridad. Las funciones de seguridad pueden diseñarse para impedir que los
usuarios no autorizados vean ciertos archivos o para bloquear tus planillas y que tus fórmulas no se rompan accidentalmente.
Esto se llama seguridad de datos. La seguridad de datos significa proteger los datos contra el acceso no autorizado o contra la
corrupción adoptando medidas de seguridad. Cualquiera sea el programa de hojas de cálculo que uses tendrá medidas de
seguridad similares integradas. Como analista de datos, te encontrarás mucho con Google Sheets y Excel. Veamos qué cosas
tienen en común. Primero, ambos programas tienen funciones que te permiten proteger tus hojas de cálculo o partes de ellas
para que no se editen, desde toda la planilla hasta celdas individuales de una tabla. Si colaboras con otros usuarios, puedes
bloquear fácilmente tus fórmulas para que ellos no las rompan por error. Hablando de colaboración, Excel y Google Sheets
tienen funciones de control de acceso, como protección con contraseña y permisos de usuario. Esto te da más control sobre
quién puede hacer qué en tu hoja de cálculo. Debido a que estos programas se encuentran en distintos lugares, estas
funciones son un poco diferentes. Para las hojas de cálculo de Excel, puedes cifrar archivos y planillas con contraseñas antes
de enviarlas por correo electrónico a otros usuarios. En Google Sheets, estas opciones se encuentran en el menú Compartir,
que te permite controlar quién puede ver o editar la hoja en línea. Las hojas de Google Sheets también pueden copiarse para
que los usuarios puedan trabajar con esos datos sin alterar el original. Las pestañas también pueden ocultarse y mostrarse en
Sheets y en Excel, lo que te permite cambiar qué datos se ven. Pero, recuerda que las pestañas ocultas puede mostrarlas otra
persona, así que asegúrate de que no te importa que se tenga acceso a esas pestañas. Como analista de datos, la seguridad
de los datos será una prioridad. Pero independientemente de qué programa uses para crear hojas de datos, hay funciones de
seguridad que te ayudan a mantener tu trabajo seguro y protegido. Hay otras prácticas recomendadas comunes que puedes
usar para mantener los datos más seguros en general, que es de lo que hablaremos más adelante en un texto. Llegaste al
final de este módulo. ¡Felicitaciones! En estos videos, hablamos sobre las estrategias para organizar los datos para el trabajo y
el uso personal, cómo desarrollar convenciones de nomenclatura de archivos funcionales, y de algunas medidas de seguridad
que puedes aprovechar en las hojas de cálculo. Antes de pasar al siguiente paso en el ciclo de vida del análisis de datos, es
importante que te asegures de que tus datos estén preparados, y eso incluye organizarlos y protegerlos. Como es habitual
después de este video, tendrás tu desafío semanal. Sé que puedes hacerlo. Luego, después del desafío semanal, hay un
material opcional sobre cómo conectarse a la comunidad de datos en línea. A medida que empieces a crear tu carrera en el
análisis computacional de datos, será muy valioso conectarte con otras personas, aprender sobre nuevas tendencias en el
campo y compartir tu trabajo. Creo que podrás aprovechar mucho estos videos. Te ayudarán a desarrollar una presencia en
línea profesional y a encontrar maneras de comunicarte con personas que trabajen en tu campo, lo que es clave, ya que las
redes se desarrollan cada vez más en línea y las oportunidades de trabajo remoto pasan a ser la norma. Pero si tienes
confianza en tu presencia en línea, puedes pasar al desafío del curso. Buena suerte con este desafío semanal. ¡Nos vemos
pronto!
Equilibrio entre seguridad y análisis

La batalla entre la seguridad y el análisis computacional de datos
Seguridad de datos significa emplear medidas de seguridad para proteger los datos contra el acceso no autorizado o
contra la corrupción. Por lo general, el propósito de la seguridad de datos es impedir que usuarios no autorizados
accedan a datos confidenciales o los vean. Los analistas de datos deben encontrar la manera de equilibrar la seguridad
de los datos con sus necesidades reales de análisis. Esto puede ser engañoso. Queremos que nuestros datos estén
seguros, pero también queremos usarlos lo más pronto posible para que podamos hacer observaciones significativas y
oportunas.
Para esto, las empresas deben encontrar formas de equilibrar sus medidas de seguridad de datos con sus necesidades
de acceso a los datos.
Seguridad de datos Acceso a los datos
Por suerte, hay algunas medidas de seguridad que pueden ayudar a las empresas a lograr eso. Las dos de las que
hablaremos aquí son el cifrado y la tokenización.
El cifrado usa un algoritmo único para alterar los datos y hacer que los usuarios y las aplicaciones que no conocen el
algoritmo puedan usarlos. Este algoritmo se guarda como una “clave” que puede usarse para revertir el cifrado; por lo
tanto, si tienes la clave, puedes usar los datos en su forma original.
La tokenización reemplaza los elementos de datos que quieres proteger con datos generados aleatoriamente que se
denominan “token”. Los datos originales se almacenan en otra ubicación y se asignan en los tokens. Para acceder a los
datos originales completos, el usuario o la aplicación debe tener permiso para usar los datos tokenizados y la
asignación del token. Esto significa que, si se piratean los datos tokenizados, los datos originales siguen estando
seguros en otra ubicación.
El cifrado y la tokenización son algunas de las opciones de seguridad de datos que existen. Hay muchas otras, como
los dispositivos de autenticación para la tecnología de inteligencia artificial (IA).
Como analista de datos junior, probablemente, no tendrás la responsabilidad de crear estos sistemas. Muchas
empresas tienen equipos completos dedicados a la seguridad de datos o contratan empresas externas que se
especializan en seguridad de datos para crear estos sistemas. Pero es importante saber que todas las empresas tienen
la responsabilidad de mantener los datos seguros y de entender algunos de los posibles sistemas que el futuro
empleador podría usar.
1.
Pregunta 1
Ahora que aprendiste sobre la importancia de la seguridad de los datos, puedes detenerte un momento y pensar en lo
que estás aprendiendo. En esta autorreflexión, tendrás en cuenta tus ideas sobre la privacidad de los datos, la
colaboración y el control de las versiones, y luego, responderás unas preguntas breves.
Esta autorreflexión te ayudará a desarrollar conceptos sobre tu propio aprendizaje y te preparará para aplicar tus
conocimientos sobre la privacidad de los datos a tu experiencia con Kaggle. A medida que respondas las preguntas, y
plantees tus propias preguntas, tendrás en cuenta los conceptos, las prácticas y los principios que te ayudarán a refinar
tu comprensión y reforzar tu aprendizaje. Ya hiciste el trabajo duro, así que asegúrate de sacarle el máximo provecho:
¡Esta reflexión te ayudará a fijar tus conocimientos!
Privacidad
En Kaggle, puedes cargar tus propios conjuntos de datos y mantenerlos privados. Esto significa solo tú los ves y tienes
acceso a ellos. También tienes la opción de agregar colaboradores a tu conjunto de datos, a los que puedes agregar
como visualizadores o editores. Los visualizadores pueden ver tu conjunto de datos privado, y los editores pueden
hacer cambios en él.
Puedes compartir el enlace a tu conjunto de datos privados para que cualquiera que tenga el enlace pueda verlo. Si no
quieres esta función, puedes desactivarla en la pestaña Configuración de tu conjunto de datos.
Nota: Si tienes un conjunto de datos privado en Kaggle y decides hacerlo público, no podrás volver a ponerlo como
conjunto de datos privado. La única opción que tendrías es eliminar el conjunto de datos de Kaggle por completo.
Colaboración
En forma predeterminada, cualquier bloc de notas que creas en Kaggle es privado. Al igual que en los conjuntos de
datos, puedes agregar colaboradores como visualizadores o editores. También puedes hacer que un bloc de notas sea
público, lo que hará que se comparta con toda la comunidad de Kaggle.
Si agregas colaboradores en tu bloc de notas de Kaggle, ellos pueden hacer cambios en él. Debes asegurarte de
comunicarte y coordinar con tus colaboradores, ya que la última persona que guarde el bloc de notas sobrescribirá todo
el trabajo anterior. Si quieres tener un control más detallado de los cambios en tu código, un sistema como GitHub
ofrece un mejor control de las versiones.
Control de las versiones
En cuanto al control de las versiones, Kaggle tiene su propio estilo para dejarte conservar los registros de tu progreso.
Puedes leer todos los detalles en esta publicación, pero piensa en cuando hiciste tu trabajo en un bloc de notas de
Kaggle e hiciste clic en el botón Guardar versión.
Cuando hiciste clic en este botón y luego hiciste clic en Guardar, lo hiciste sin cambiar nada. Pero también tienes la
opción de agregar una breve nota sobre los cambios que realizaste.
Esto puede ser útil cuando realizaste cambios en tu bloc de notas, pero quieres volver a una versión anterior. Para esto,
ve al modo Editar y haz clic en el número que está junto al texto Guardar versión en la parte superior de tu bloc de
notas.
Esto abrirá una barra de navegación a la derecha de la pantalla, donde se enumerarán todas las versiones de tu bloc
de notas. Cuando hagas clic en las distintas versiones de tu bloc de notas, la izquierda de la pantalla se llenará con el
código y el texto de esa versión.
Luego, una vez ejecutada la versión, tu pantalla se verá así:
Desde esta pantalla, también puedes abrir la versión en el modo Visualizador, anclar una versión como predeterminada
o, incluso, cambiar el nombre de la versión. Anclar una versión como la predeterminada puede ser útil cuando tienes
una versión de trabajo de tu bloc de notas disponible en la comunidad de Kaggle, pero quieres hacer cambios y
actualizaciones que podrían no funcionar la primera vez que los implementes. Esto te permite hacer cambios de
manera segura detrás de escena, mientras compartes con la comunidad de Kaggle la versión de trabajo más reciente
de tu bloc de notas.
Reflexión
Piensa en lo que aprendiste sobre seguridad de datos en Kaggle:
 ¿Cuáles son los casos en los que deberías usar las funciones de privacidad, colaboración y control de
versiones de Kaggle?
 ¿Qué otras situaciones se te ocurren en las que podrías querer anclar una versión de tu bloc de notas que no
sea la más reciente?
Ahora, escribe 2 o 3 oraciones (de 40 a 60 palabras) en respuesta a cada una de estas preguntas. Escribe tu respuesta
en el cuadro de texto que aparece a continuación.
1 / 1 punto
Correcto
¡Gran trabajo que refuerza tu aprendizaje con una autorreflexión seria! Una buena reflexión sobre este tema incluiría
cómo y cuándo deberías aplicar tu conocimiento sobre privacidad de datos y control de las versiones cuando trabajas
en Kaggle.
Entender cómo mantener la privacidad y registrar tu progreso con el control de las versiones son habilidades
fundamentales para el trabajo de los analistas de datos, en los que se espera que colabores con otros analistas.
Conocer los estándares de privacidad y saber cómo garantizar una colaboración efectiva impedirán que expongas
datos importantes o que pierdas tu valioso trabajo. En adelante, puedes aplicar tu conocimiento sobre seguridad de
datos a otras plataformas o proyectos futuros.
CUESTIONARIO:
Pregunta 1
Completa el espacio en blanco: La seguridad de datos implica usar _____ para proteger los datos contra el acceso no
autorizado o contra la corrupción.
1. validación de datos
2. metadatos
3. sistema de carpetas
4. medidas de seguridad
Correcto. La seguridad de datos implica usar medidas de seguridad para proteger los datos contra el acceso no autorizado o contra
la corrupción.
Pregunta 2
Cuando se usan medidas de seguridad de datos, los analistas pueden elegir entre proteger toda una hoja de cálculo o solo
ciertas celdas que están dentro de la hoja de cálculo.
1. Verdadero
2. Falso
Correcto. Cuando se usan medidas de seguridad de datos, los analistas pueden elegir entre proteger toda una hoja de cálculo o
solo ciertas celdas que están dentro de la hoja de cálculo. La seguridad de datos puede usarse para proteger toda una hoja de
cálculo, partes específicas de una hoja de cálculo o, incluso, solo una celda.
Pregunta 3
¿Qué herramientas pueden usar los analistas de datos para controlar quién tiene acceso a una hoja de cálculo o quién puede
editarla? Selecciona todas las opciones que correspondan.
1. Cifrado. Correcto.Los analistas de datos usan el cifrado y los permisos para compartir con el fin de controlar
quién tiene acceso a una hoja de cálculo o quién puede editarla.
2. Pestañas
3. Filtros
4. Permisos para compartir. Correcto. Los analistas de datos usan el cifrado y los permisos para compartir con el
fin de controlar quién tiene acceso a una hoja de cálculo o quién puede editarla.
Glosario
A
Agenda: Una vista de las citas programadas.
Alcance del trabajo (SOW): Un esquema acordado de las tareas a realizar durante un proyecto.
Archivo CSV (archivo de valores separados por coma): Archivo de texto delimitado que utiliza una coma para separar los
valores.
Archivo de vídeo: Conjunto de imágenes, archivos de audio y otros datos generalmente codificados en un formato
B
Base de datos normalizada: Base de datos en la que solo se almacenan datos relacionados en cada tabla.
Bloc de notas: Entorno de programación interactivo y editable para generar informes de datos y mostrar destrezas en el uso
de datos.
C
desconocido.
Clave externa: Campo en una tabla de una base de datos que constituye una clave primaria en otra tabla (Ver “Clave
primaria”).
Clave primaria: Identificador en una base de datos que hace referencia a una columna en la que cada valor es único (Ver
“Clave externa”).
Consentimiento: Aspecto de la ética de datos que presupone el derecho de una persona a conocer cómo y por qué se
utilizarán sus datos personales antes de aceptar proporcionarlos.
Contexto: Condición en la que algo existe o sucede.
Control de acceso: Funciones como la protección de contraseñas, permisos de usuario y cifrado que se usan para proteger
una hoja de cálculo.
Convenciones de nomenclatura: Pautas uniformes para el nombre de un archivo que describen el contenido, la fecha de
creación y la versión.
D
Datos en formato largo: Conjunto de datos en el que cada fila constituye un punto en el tiempo por tema, es decir que cada
tema tiene datos en varias filas.
DESDE: Sección de una consulta que indica el origen de los datos seleccionados.
DÓNDE: La sección de una consulta que especifica los criterios que deben cumplir los datos solicitados.
E
y compartir datos.
Esquema: Forma de describir cómo se organiza algo, por ejemplo, datos.
Ética de datos: Normas justificadas respecto de lo que está bien y lo que está mal a la hora de recopilar, compartir y usar
datos.
específicas.
Expresión matemática: Cálculo que implica suma, resta, multiplicación o división (también denominada “ecuación”).
F
Fuente de datos correctos: Fuente de datos confiable, original, integral, actual y citada (ROCCC).
hoja de cálculo.
G
Geolocalización: La ubicación geográfica de una persona o dispositivo mediante información digital.
Gobierno de datos: Proceso para garantizar la gestión formal de los recursos de datos de una empresa.
H
I
Informe: Recopilación estática de datos que se entrega periódicamente a los interesados.
Interoperabilidad de los datos: La capacidad de integrar datos de varias fuentes y un factor clave en el uso satisfactorio de los
datos abiertos entre las empresas y los gobiernos.
L
datos.
M
Macrodatos: Conjuntos de datos grandes y complejos que, generalmente, se recopilan durante largos períodos y que
permiten que los analistas de datos aborden los problemas comerciales de gran alcance.
y lógica.
Metadatos administrativos: Metadato que indica el origen técnico de un recurso digital.
Metadatos descriptivos: Metadatos que describen datos y que se pueden utilizar para identificarlos más adelante.
Metadatos estructurales: Metadatos que indican cómo se organizan ciertos datos y si forman parte de una recopilación de
datos o de varias.
Metadatos: Datos sobre datos; en la gestión de bases de datos, ayudan a los analistas de datos a interpretar el contenido de
los datos dentro de una base de datos.
Métrica: Tipo de datos únicos y cuantificables que se utiliza para medición.

N
Nube: Lugar para mantener los datos en línea, en lugar de tenerlos en el disco duro de una computadora.
O
Objetivo medible: Objetivo medible establecido por una empresa y evaluado mediante métricas.
Ordenación: El proceso de organizar los datos en un sistema de clasificación significativo para que sean más fáciles de
entender, analizar y visualizar
Organización Mundial de la Salud: Organización cuya función principal es la de controlar y coordinar la salud a nivel
internacional dentro del sistema de las Naciones Unidas.
P
Población: En el análisis computacional de datos, todos los valores posibles en un conjunto de datos.
de datos.
seleccionado.
R
Redundancia: Cuando los mismos datos se almacenan en dos o más lugares.
funciones.
Registro: Conjunto de datos relacionados en una tabla de datos, generalmente sinónimo de fila.
Reglamento general de protección de datos de la Unión Europea (GDPR): Organismo formulador de políticas en la Unión
Repositorio de metadatos: Base de datos creada para almacenar metadatos.
S
Seguridad de datos: Emplear medidas de seguridad para proteger los datos contra el acceso no autorizado o contra la
corrupción.
SELECCIONAR: Sección de una consulta que indica el subconjunto de un conjunto de datos.
Sesgo de confirmación: Tendencia a buscar o interpretar la información de manera que confirme creencias preexistentes.
Sesgo del investigador: Tendencia de distintas personas a observar las cosas de forma diferente (Ver “Sesgo del observador”).
T
promediar datos.
Tipo de datos: Un atributo que describe cierto dato según sus valores, su lenguaje de programación o las operaciones que
puede realizar.
debe comprenderlos.
V
Visualización: (Ver “Visualización de datos”).
CUESTIONARIO SEMANA 4:
Pregunta 1
¿Qué aspectos de un archivo suelen describir las convenciones de nomenclatura de archivos? Selecciona
todas las opciones que correspondan.
1 / 1 punto
1. Fecha de creación. Correcto. Las convenciones de nomenclatura de archivos describen el contenido, la fecha
de creación y el número de versión de un archivo.
2. Número de la versión. Correcto. Las convenciones de nomenclatura de archivos describen el contenido, la
fecha de creación y el número de versión de un archivo.
3. Colaboradores
4. Contenido. Correcto. Las convenciones de nomenclatura de archivos describen el contenido, la fecha de
creación y el número de versión de un archivo.
Pregunta 2
Un equipo de análisis computacional de datos usa datos sobre los datos para indicar convenciones de
nomenclatura uniformes para un proyecto. ¿Qué tipo de datos se usa en esta situación?
1. Datos agregados
2. Metadatos
3. Macrodatos
4. Datos en formato largo
Correcto. Los metadatosson los datos sobre los datos. Las prácticas de metadatos pueden ayudar a los equipos de
análisis a crear prácticas uniformes de convenciones de nomenclatura y de almacenamiento para sus archivos.
Pregunta 3
Una analista de datos crea un archivo en el que se enumeran las personas que donaron a la campaña para
recaudar fondos de su organización. Un nombre efectivo para el archivo es FundDriveDonors_20210216_V01.
1. Verdadero
2. Falso
Pregunta 4
¿Los analistas de datos pueden usar el sistema de carpetas para organizar las carpetas en qué?
1. Tablas
2. Bases de datos
3. Subcarpetas
4. Versiones
Correcto. Los analistas de datos pueden usar el sistema de carpetas para organizar las carpetas en subcarpetas.
Pregunta 5
Los analistas de datos usan el archivado para copiar archivos importantes y conservar copias de seguridad de
ellos. Estas copias de seguridad se usan si se pierden los archivos originales.
1. Verdadero
2. Falso
Correcto. Los analistas de datos usan el archivado para separar el trabajo actual del anterior. Esto implica mover
archivos de proyectos completados a otra ubicación.
Pregunta 6
Los analistas de datos crean jerarquías para organizar sus carpetas. ¿Cómo se estructuran las jerarquías de las
carpetas?
1. Los temas generales a la derecha y los más específicos a la izquierda
2. Los temas generales en la parte superior y los más específicos debajo
3. Los temas generales a la izquierda y los más específicos a la derecha
4. Los temas específicos en la parte superior y los temas generales debajo
Correcto. Las jerarquías de carpetas se estructuran con los temas generales en la parte superior y los más específicos
debajo.
Pregunta 7
¿Usar el cifrado para proteger los datos es un ejemplo de qué?

1. Ética de datos
2. Seguridad de datos
3. Validación de datos
4. Integridad de datos
Correcto. Usar el cifrado para proteger los datos es un ejemplo de seguridad de datos.
Pregunta 8
Para reducir el desorden, un analista de datos oculta celdas que contienen fórmulas largas y complejas. Para
volver a ver las fórmulas, el analista deberá modificar la configuración de cifrado y uso compartido de la hoja
de cálculo.
1. Verdadero
2. Falso
Correcto. Las celdas ocultas pueden mostrarse fácilmente mediante la función Mostrar. Ocultarlas no protege los datos.
MÓDULO 5:
Crear o mejorar tu presencia en línea:
VIDEO: Gestionar tu presencia como analista de datos
Hola, es genial tenerte de vuelta. Hasta ahora, hemos cubierto todo desde el uso de SQL hasta aspectos clave de la ética de
datos. Desarrollaste muchísimas destrezas que te ayudarán en tu carrera profesional en el análisis computacional de datos.
Pero no tienes que hacer todo por tu cuenta. Como analista de datos, formas parte de una comunidad de datos que crece
cada día más. Si generas una presencia coherente y profesional en línea, podrás conectarte con otras personas que trabajan
en el mismo sector y ampliar tu red de contactos. A continuación, aprenderás cómo puedes empezar a generar tu presencia
en línea. Si ya formas parte de la comunidad, aprenderás a ampliar aún más tu red de contactos en línea. El trabajo remoto y
en línea se está volviendo moneda corriente, y lo mismo pasa con los contactos en redes. Esto significa que crear y mantener
una buena presencia en línea, podría generarte muchas oportunidades nuevas. Me ha pasado de contactarme con personas
con las que trabajé a lo largo de mi carrera, solo para estar en contacto, hacerles preguntas acerca de su experiencia, y ver
también qué cosas interesantes están haciendo. Eso solo es posible porque mantengo mis redes activas. Nos vemos en el
siguiente video para empezar a generar tu presencia en línea y conectarte con otros.
VIDEO: Por qué es importante la presencia en línea
Hola de nuevo. Hoy en día, muchos de nosotros pasamos mucho tiempo vinculándonos con otras personas en línea. Estamos
en contacto con familiares y amigos a quienes no vemos todos los días, o publicamos algo que estamos haciendo, comiendo o
mirando, en fin... Compartimos cosas en redes sociales. Pero nuestra presencia en línea no solo tiene que ver con el ámbito
personal. Construir una presencia en línea que sea coherente y profesional es importante para ir haciendo carrera en el
análisis computacional de datos. La presencia profesional en línea es importante por varias razones clave. Primero, ayuda a
que posibles empleadores te encuentren. Segundo, te permite contactarte con otros analistas de datos que trabajan en el
mismo sector, aprender hallazgos sobre datos y compartirlos, ¡hasta puedes participar en distintos eventos de la comunidad!
No te olvides de que, hoy en día, hacemos muchos contactos en línea. Si no actualizas tu presencia en línea, puede que estés
perdiéndote buenas oportunidades sin siquiera saberlo. Hay muchos tipos de sitios web para profesionales que puedes
explorar para empezar a generar tu presencia en línea. Por ahora, nos enfocaremos en LinkedIn y GitHub. LinkedIn se diseñó
específicamente para ayudar a que las personas se contactaran con otras en su sector de trabajo. Es excelente para estar al
tanto de las tendencias de la industria, aprender de líderes del sector, e interactuar con una comunidad más amplia de
profesionales. Además, si estás buscando un trabajo nuevo, LinkedIn tiene paneles de trabajo para que hagas tu búsqueda.
Hasta puedes acotar la búsqueda por ubicación para ver quién está contratando cerca de ti. Además, los reclutadores suelen
usar LinkedIn para encontrar posibles analistas de datos para nuevos proyectos. Siempre es una buena idea mantener el
perfil de LinkedIn actualizado con tus datos del CV. Es posible que te llamen para contratarte. LinkedIn también te permite
conectarte con otras personas y generar una red de contactos. Puedes compartir lo que te esté pasando en tu vida
profesional y estar al tanto de dónde están tus contactos. Nunca sabes cuándo puedes llegar a trabajar con alguien de nuevo.
Con LinkedIn, puedes recibir la aprobación de otros por tener ciertas habilidades de trabajo y también puedes aprobar a los
demás. Si alguien en un trabajo anterior quedó contento con tu desempeño, puede contarles a otras personas lo increíble
que es trabajar contigo. GitHub, el otro sitio web que mencioné antes, es un poco distinto. GitHub se divide en dos: una parte
para compartir códigos, otra para redes sociales. Tiene una comunidad activa que trabaja en equipo y comparte información
para generar recursos. Puedes hablar con otros usuarios de GitHub en el foro, usar las wikis gestionadas por la comunidad, y
hasta usar el sitio para gestionar proyectos en equipo. GitHub también organiza eventos de la comunidad para conocer a
otras personas del sector y aprender cosas nuevas. GitHub tiene muchas funciones para que explores. La mejor forma de
aprender sobre GitHub es usar el sitio y ver todo con tus propios ojos. Más adelante en el programa, hablaremos un poco
más sobre GitHub. A veces, si buscas un giro en tu carrera profesional, puede ser bueno encontrar a alguien que tenga algo
en común contigo, que comparta tus intereses o haya nacido en el mismo lugar, y contactarlo. Quizá, una conversación breve
de 15 minutos con alguien puede ayudarte a dar el giro que necesitas, ya sea en un sitio para hacer contactos profesionales
como LinkedIn o en un evento de la comunidad organizado por GitHub. Hoy en día, LinkedIn es uno de los sitios de redes
sociales más usados a nivel profesional, así que es un buen punto de partida para generar tu presencia en línea. GitHub
ofrece muchísimas herramientas increíbles para los analistas de datos en la comunidad. Si todavía no tienes una cuenta en
estos sitios, un buen desafío puede ser registrarte y empezar a configurarlas. Contáctate con otras personas. Comparte
información sobre tu trabajo actual. Y si ya usas LinkedIn y GitHub, tengo excelentes noticias: vamos a hablar un poco más
sobre cómo mejorar tu presencia en línea la próxima. Nos vemos pronto.
Introducción a LinkedIn
Registrarse en LinkedIn
Registrarse en LinkedIn es simple. Solo tienes que seguir estos pasos fáciles:
1. Dirígete a linkedin.com.
2. Haz clic en Unirme ahora o Unirme con mi CV.
Si hiciste clic en Unirme ahora:
1. Ingresa tu dirección de correo electrónico y tu contraseña, y haz clic en Aceptar y unirme (también puedes hacer
clic en Unirme con Google para vincular una cuenta de Google).
2. Ingresa tu nombre y apellido y haz clic en Continuar.
3. Ingresa el país o la región donde vives, el código postal y la ubicación más exacta (así, LinkedIn te ayuda a
encontrar oportunidades laborales cerca de ti).
4. Ingresa tu puesto más reciente o selecciona Soy estudiante.
5. En caso de que hayas ingresado tu puesto más reciente, selecciona el tipo de trabajo e ingresa el nombre de la
empresa.
6. Si seleccionaste “Autónomo” o “Freelance”, LinkedIn te preguntará en qué industria trabajas.
7. Haz clic para confirmar tu dirección de correo electrónico. Recibirás un correo electrónico de LinkedIn.
8. Para confirmar la dirección de correo electrónico, haz clic en Aceptar y confirmar en tu casilla de correo.
9. Luego, LinkedIn te preguntará si estás buscando trabajo. Haz clic en la opción que quieras. Si seleccionaste Sí,
entonces LinkedIn te ayudará a buscar oportunidades laborales.
Si hiciste clic en Unirme con mi CV:
1. Haz clic en Subir mi CV y selecciona el archivo que quieres subir.

2. Sigue los pasos pertinentes después de hacer clic en Unirme ahora.
Si elegiste la opción de unirte con tu currículum, ahorrarás algo de tiempo, ya que LinkedIn completará
automáticamente muchos de los casilleros con la información de tu CV. En un abrir y cerrar de ojos, tu perfil inicial ya
está listo.
Incluir información básica en tu perfil

Siempre es buena idea pasar algo de tiempo completando cada una de las secciones de tu perfil. Así, los reclutadores
encontrarán tu perfil y otras personas con las que interactúes podrán conocerte un poco mejor. Primero lo primero: la
foto. A continuación, te damos algunos consejos para que elijas una foto increíble para tu nuevo perfil.
 Elige una imagen que te represente: Tu objetivo es que tu perfil te represente lo mejor posible, y eso incluye una
foto. Quieres que algún posible contacto o empleador te reconozca por tu foto de perfil si alguna vez se ven
cara a cara.
 Usa tu industria como ejemplo: Si no sabes bien qué sería adecuado para una foto de perfil, explora otros
perfiles en la misma industria u otras empresas que te interesen. Así, podrás saber mejor qué deberías hacer.
 Elige una imagen de alta resolución: A mejor resolución, mejor primera impresión. Así que asegúrate de que tu
imagen no esté borrosa. El tamaño ideal para tu foto de perfil en LinkedIn es 400 x 400 píxeles. Usa una foto en
la que tu rostro ocupe, al menos, el 60% del espacio.
 Recuerda sonreír: Tu foto de perfil es como un resumen de quién eres, así que puedes estar serio. Pero, si
sonríes, tus posibles contactos y empleadores se sentirán más a gusto.
Agregar contactos
Los contactos son una excelente forma de estar al día con excompañeros de trabajo, colegas, compañeros de clase y
hasta empresas con las que quisieras trabajar. El mundo es un lugar enorme y hay muchísimas personas. Así que te
brindamos algunos consejos para dar tus primeros pasos.
1. Conéctate con quienes conozcas personalmente.

2. Agrega tu toque personal a la invitación a conectarse. En lugar de decirles que te gustaría ponerte en contacto,
explícales por qué.
3. Asegúrate de que tu foto de perfil sea actual para que todos te reconozcan.
4. Agrega valor. En tu invitación, envíales un recurso, un enlace a un sitio web o incluso algo de contenido que les
pueda interesar.
Encontrar líderes y formadores de opinión
LinkedIn es un lugar excelente para encontrar personas increíbles con ideas increíbles. Desde tecnología hasta
marketing, pasando por todas las otras áreas que se te ocurran, en LinkedIn encontrarás todo tipo de formadores y
líderes de opinión. Si alguna vez quisiste saber qué creen algunos de los pensadores más influyentes y respetados de
algún sector, LinkedIn es un buen lugar para empezar a explorar. Solo tardarás unos minutos en seguir a tus personas
favoritas. Puedes buscar personas o empresas de forma individual, o usar estas listas como punto de partida.
Formadores de opinión más populares en LinkedIn “Top Voices” de LinkedIn 2020: Ciencia de datos & IA
Buscar un nuevo trabajo

En LinkedIn, es fácil contarles a reclutadores y posibles empleadores que estás buscando un nuevo trabajo. Solo tienes
que seguir estos pasos:
1. Haz clic en el ícono Yo ubicado en la parte superior de la página de inicio de LinkedIn.

2. Luego, haz clic en Ver perfil.
3. Haz clic en el menú desplegable Agregar sección y, en la parte de Presentación, selecciona Busco un nuevo
trabajo.
Recuerda elegir los filtros adecuados para los nuevos puestos que estés buscando y actualiza tu perfil de forma que se
adapte mejor al puesto que quieres aplicar.
Actualizar el perfil periódicamente

Agrega datos a tu perfil para que esté completo y actualizado, y que sea interesante. Por ejemplo, una vez que
completes este programa, no te olvides de agregar el Certificado de Análisis Computacional de Datos de Google.
Establecer conexiones en LinkedIn

Usar LinkedIn para conectarse
Cuando hablamos de contactos, nos referimos a personas que conoces y en quienes confías en términos personales o
profesionales. Tus contactos integran tu red de contactos. En cuanto a la red de contactos, es importante recordar algo:
calidad es mejor que cantidad. Así que no importa mucho cuántos contactos tengas. Lo que sí importa es que las
personas con las que interactúas le agreguen valor a tu red y viceversa.
Invitar a quienes conoces versus solicitudes espontáneas

Agregar contactos en LinkedIn es fácil. Lo único que tienes que hacer es invitar a quien quieras a unirse a tu red de
contactos y ellos deben aceptar la invitación. Cuando envías una invitación, puedes agregar una nota personal. Las
notas personales son muy, muy importantes.
Una buena forma de aumentar la cantidad de contactos que tienes es invitar a tus compañeros de clase, a tus amigos,
a tus docentes o, incluso, a miembros de algún club u organización de los que formes parte. LinkedIn también te
sugiere otros contactos según la información de tu perfil. A continuación, verás un ejemplo (plantilla) que puedes usar
para contactarte con un excompañero de trabajo:
Cuando hablamos de “solicitudes espontáneas”, nos referimos a invitar a personas que no conoces personal o
profesionalmente a que se contacten contigo en LinkedIn. Cuando empiezas a construir tu red de contactos, es mejor
contactarte con quienes conozcas. Sin embargo, las solicitudes espontáneas pueden llegar a ser la única forma de
contactarte con personas que trabajan en empresas que te interesan. Puedes obtener mucha información sobre la
cultura de una empresa y las vacantes laborales si hablas con empleados que trabajan allí. Una buena práctica es
enviar solicitudes espontáneas de vez en cuando, solo cuando no tienes otra forma de contactarte.
Solicitar recomendaciones (referencias)

En LinkedIn, las recomendaciones son excelentes para que otras personas te respalden. Puedes pedirles a las
personas que describan tu rendimiento en el pasado, cómo manejaste un proyecto complicado, o tus fortalezas como
analista de datos. Tú decides si aceptas o rechazas las recomendaciones, o si las muestras o no en tu perfil.
A continuación, te damos algunos consejos para solicitar recomendaciones:
 Ponte en contacto con distintas personas para ofrecer una visión integral de quién eres: supervisores, colegas,
personas a tu cargo, socios y clientes.
 Personaliza la solicitud de recomendación con un mensaje tuyo.
 En tu solicitud, sugiere ciertas fortalezas o habilidades que pueden destacar.
 Muéstrate dispuesto a escribir una recomendación a cambio.
 Lee bien la recomendación antes de publicarla en tu perfil.
A veces, la parte más difícil de obtener una recomendación es escribir la solicitud correcta. A continuación, verás un
ejemplo (plantilla) que puedes usar para solicitar una recomendación:
Pídeles a algunos contactos que te recomienden y que destaquen por qué deberías obtener el puesto que buscas. Las
recomendaciones ayudan a posibles empleadores a saber mejor quién eres y a conocer la calidad de tu trabajo.
En resumen
Cuando haces publicaciones serias y respondes a otras de forma honesta, las personas de tu red de contactos e,
incluso, las que no forman parte de tu red aún son más propensas a ayudarte durante tu búsqueda laboral.
VIDEO: Consejos para mejorar tu presencia en línea

¡Hola! Hablemos de redes sociales. Hoy en día, 3800 millones de personas usan redes sociales en todo el mundo. Es muy
probable que tú ya tengas tu propia presencia en línea. Eso está perfecto. Significa que ya te vinculas con otras personas en
línea, quizá hasta en el ámbito profesional, en sitios web como LinkedIn. Si todavía no empezaste, solo tienes que registrarte
hoy mismo. Si ya empezaste, algunos consejos muy simples pueden ayudarte a mejorar tu presencia en línea aún más para
que uses los perfiles que ya creaste y generes tu identidad profesional. Una de las primeras cosas que deberías preguntarte
cuando examinas tu presencia en línea, ya sea nueva o si ya tiene unos años, es esto: ¿te molestaría que posibles
empleadores y colegas vieran tus perfiles en las redes? Ponte en su lugar. Cuando un posible empleador mira tus perfiles
públicos, en realidad, se preguntan si eres la persona correcta para representar a su empresa y sus valores. ¿Hay algo en tus
cuentas actuales que podría hacerlos dudar? Si quieres limitar lo que compartes, asegúrate de corroborar la configuración de
privacidad de tus cuentas. Si son públicas, entonces todo el mundo puede ver lo que publicas. También puedes marcar ciertas
fotos o ciertos álbumes como privados, pero recuerda que eso no los elimina automáticamente de Internet. Y recuerda:
modificar tu configuración de privacidad no necesariamente significa proteger todas tus publicaciones, así que deberías
pensar dos veces antes de publicar algo en redes. La mejor forma de garantizar que todas tus publicaciones y fotos sean
apropiadas y profesionales es eliminar todas las que no querrías que viera tu futuro jefe o jefa. Si vas a subir fotos por
primera vez, piensa en qué forma te representan y, luego, publícalas. Quizá quieres guardar esas fotos en tus archivos
personales, pero no publicarlas en Facebook o Instagram. Hablando de Facebook e Instagram, ambas plataformas tienen
opciones simples para eliminar publicaciones. Tanto Facebook como Instagram tienen la función “Archivar” que te permite
eliminar publicaciones de tu perfil. En Facebook, hasta puedes eliminar muchas publicaciones a la vez. Ya que estás con eso,
¿por qué no miras tu Twitter también? Tus perfiles en redes sociales probablemente estén conectados, así que es importante
garantizar que todos te representan de la forma que quieres que te vean en términos profesionales. Una buena regla es esta:
publica cosas que no te molestaría que viera tu familia. Esto abarca fotos y también textos. Corrobora siempre que tu
contenido y la forma en que te expresas sean apropiados para toda la familia. Mientras trabajas en mejorar tu perfil en línea,
¿por qué no agregas también una foto profesional de perfil? Aunque tu cuenta sea privada, los reclutadores seguramente
puedan ver tu foto de perfil. Tener una foto en tu perfil de LinkedIn es importante porque aumenta significativamente las
chances de que te contacten. No te olvides: tu foto de perfil debe representar tu lado profesional de la mejor forma posible.
Una vez que tengas tus perfiles armados y listos, piensa dos veces antes de publicar. Piensa en la imagen profesional que
quieres crear y mantente fiel a ella. Esto significa adaptar tus publicaciones según la plataforma que uses. Decide qué
plataforma quieres usar para interactuar con familiares y amigos, por ejemplo, Facebook e Instagram, y sube contenido sobre
tu vida personal a esas plataformas. Usa plataformas profesionales, como LinkedIn, para publicaciones relacionadas con tu
vida laboral, y para generar contactos laborales. Muchísimas empresas y gerentes de contratación usan recursos en línea para
detectar y elegir candidatos. Así que es importante que tu presencia en línea tenga un impacto positivo en tu vida real.
Asegúrate de que tu presencia en línea sea apropiada según tu trabajo: pon tu perfil privado, elimina publicaciones que no
querrías que vieran ni tu jefe ni tus colegas, y publica a conciencia. También puedes pedirle a alguien cuya opinión profesional
respetes que le eche un vistazo a tus perfiles y te dé su opinión. Esto puede ser de mucha ayuda para generar tu presencia en
línea y usarla para crear contactos dentro de la comunidad profesional. Ahora que ya construiste y mejoraste tu presencia en
línea, ¿por qué no aprendemos un poco más sobre crear una red y contactarte con otros profesionales? Nos vemos pronto.
1.
Pregunta 1
Ahora que ya conoces la plataforma de Kaggle, puedes hacer una pausa y aplicar todo lo que estás aprendiendo. En
esta autorreflexión, pensarás acerca de tu presencia en línea y responderás unas breves preguntas.
Esta autorreflexión te ayudará a desarrollar conocimientos sobre tu propio aprendizaje y te preparará para relacionar
todo lo que aprendiste sobre Kaggle con los objetivos que estableciste respecto de tu presencia en línea. A medida
que respondas las preguntas, y plantees tus propias preguntas, tendrás en cuenta los conceptos, las prácticas y los
principios que te ayudarán a refinar tu comprensión y reforzar tu aprendizaje. Ya hiciste el trabajo duro, así que
asegúrate de sacarle el máximo provecho: ¡Esta reflexión te ayudará a fijar tus conocimientos!
Presencia en línea con Kaggle
A medida que conoces más sobre las opciones de trabajo disponibles para los analistas de datos, te vas dando cuenta
de que es importante estar activo en línea. Si interactúas con la comunidad de datos en línea, puedes hacer
preguntas, aprender nuevas destrezas y demostrar tus logros a posibles empleadores.
Ya aprendiste distintas formas de aumentar tu presencia en línea, desde LinkedIn hasta GitHub, pasando por
Medium. Para crear un vínculo más estrecho con la comunidad de datos e interactuar con otros profesionales de los
datos y también aficionados, puedes generar presencia en línea usando Kaggle.
Además de conjuntos de datos, Kaggle te ofrece cursos breves, competencias, foros y una gran comunidad de
usuarios. Gracias al Sistema de progreso de Kaggle, puedes realizar un seguimiento de tu evolución y tu crecimiento
en la plataforma, y demostrar todas tus destrezas y tu conocimiento sobre datos a empleadores y colegas.
Características de tu perfil
El primer paso en Kaggle es crear tu perfil. Tu página de perfil en Kaggle te permite recopilar todo tu trabajo y tus
logros en la plataforma. Mira este ejemplo de una página de perfil y explora cómo puedes usar tu perfil para
compartir información: Cara o cruz
A medida que exploras la página de perfil que armó Cara o cruz en Kaggle, también puedes ver todo el trabajo que
hicieron para obtener muy buenas calificaciones en cada categoría. Fíjate que incluyen enlaces. Por ejemplo,
incluyeron un enlace que lleva a la audiencia de la página desde su perfil al blog personal y a distintos videos. Así,
pueden compartir su perfil en Kaggle con posibles empleadores y destacar sus habilidades y su progreso.
Ahora bien: lleva tiempo crear tu perfil en Kaggle o en cualquier otra red social. Si eres paciente con tu progreso e
interactúas con constancia, más personas prestarán atención a tu trabajo.
Antes de pasar a la próxima sección, tómate unos minutos para mirar distintos perfiles en Kaggle, y piensa en
ciertas cosas que te inspiren. Si encuentras el perfil de alguien cuyo trabajo te gustaría seguir, haz clic en el botón
Seguir usuario en su perfil.
Cómo empezar
Para que sea más fácil dar tus primeros pasos en Kaggle, repasa cómo funciona la comunidad de Kaggle. Para ello,
puedes leer las Pautas de la comunidad y también ver la lista de reproducción en YouTube sobre Primeros pasos en
Kaggle. Luego, lee algunas publicaciones y pasa algo de tiempo en los foros. Cuando estés listo para empezar,
intenta responder algunas preguntas e interactúa en algunas publicaciones en las que alguien comparta algo útil o
interesante.
Reflexión
Piensa acerca de las características de la comunidad de Kaggle y cómo puedes usar las redes tú mismo:
 ¿Cómo puedes aprovechar los blocs de notas interactivos de Kaggle y la comunidad de datos para promover
tu carrera profesional?
 ¿Cómo puedes usar Kaggle para mejorar tu impacto en las redes sociales y cumplir tus objetivos
profesionales?
 Imagina cómo sería tu presencia ideal en las redes sociales como analista de datos. ¿Qué te gustaría incluir
en tu perfil? ¿Qué tipo de interacción te gustaría recibir de otras personas?
Piensa acerca de tus objetivos profesionales en redes sociales y cómo puedes usar Kaggle para construir tu presencia
en línea.
Ahora, escribe 2 o 3 oraciones (de 40 a 60 palabras) en respuesta a cada una de estas preguntas. Escribe tu respuesta
en el cuadro de texto que aparece a continuación.
1 / 1 punto
Correcto
¡Gran trabajo al reforzar tu aprendizaje con una autorreflexión seria! Una buena reflexión sobre este tema debería
incluir la forma en que construirás tu presencia en línea según las características de Kaggle o las de cualquier otra
plataforma.
Para perfeccionar tus habilidades y obtener un trabajo como analista de datos, es vital que tomes las riendas de tu
presencia en línea y dejes registro de todo el trabajo que estás haciendo. Ahora, puedes leer ciertas publicaciones de
debate que te interesen en Kaggle o en cualquier otro foro sobre ciencia de datos. Interactúa en los foros: agrega
comentarios o preguntas de seguimiento para mejorar tu presencia en línea y aprender nuevas habilidades sobre datos.
Establecer una red de análisis computacional de datos

VIDEO: Conocimientos sobre redes
¿Qué sector maneja mejor las redes? El de la pescadería. No, en serio, el trabajo que hacemos está íntimamente ligado a las
personas. Una vez que aprendiste las habilidades necesarias y desarrollaste un portfolio sólido, el siguiente paso es
conectarte con otros profesionales de tu área o sector para que te ayuden a usar esas destrezas y hacer tu carrera
profesional. En este video, vamos a conversar sobre cómo hacer contactos. Otro término para “hacer contactos” es “construir
relaciones profesionales”. Se trata de conocer personas, tanto en línea como en persona, y construir relaciones con ellos. Al
hacer contactos, conoces personas que se parecen a ti pero también que son distintas, y te mantienes al día con lo que está
pasando en tu sector. Incluso dentro de la empresa en la que trabajas, seguramente quieras contactarte con otros equipos
para entender mejor los proyectos en los que están trabajando. La verdad es que muchas de las mejores oportunidades no
están publicadas en paneles de trabajo. Están allá afuera, en el mundo real. Los problemas que aguardan solución, las
innovaciones que esperan algo de inspiración... Si haces contactos con otros analistas de datos puedes aumentar mucho las
chances de ingresar al mundo laboral. De hecho, hacer contactos con profesionales de cualquier industria puede ayudarte.
Estos son algunos consejos para que des los primeros pasos. ¿Por qué no buscas reuniones públicas por donde vives? Suele
haber al menos una en cada ciudad grande. Googlea “reuniones de análisis de datos” cerca de ti o también busca
“meetup.com”. Así podrás aprender más sobre los distintos tipos de análisis computacionales de datos o compartir con otros
en el sector las cosas que más te apasionan. También está bueno recordar que vivimos en un mundo digital, así que no es
necesario que solo hagas contactos cara a cara. Algunos de los líderes de opinión más importantes en análisis de datos están
en las redes. Puedes seguir a empresas interesantes o líderes de opinión en LinkedIn, Twitter, Facebook e Instagram, y
también puedes interactuar con ellos y compartir el contenido que suben. Si te gusta algo de lo que publican, puedes dejar
un comentario y explicar por qué. No hay límites para lo que puedes lograr haciendo contactos en el mundo digital. Además,
también hay muchos podcasts interesantes sobre datos, como Partially Derivative y O'Reilly Data Show. No solo te ayudan a
estar actualizado sobre los distintos progresos en el sector de datos, sino que cuando escuchas los mismos conceptos una y
otra vez, confías más en todo lo que ya sabes. También hay miles de blogs y comunidades en línea, como O'Reilly, Kaggle,
KDnuggets, GitHub y Medium. Allí puedes contactarte con colegas y expertos. Las posibilidades son virtualmente infinitas
cuando se trata de hacer contactos. En nuestro próximo video, hablaremos sobre uno de los métodos más efectivos:
encontrar un mentor. Créeme lo que te digo: no te lo vas a querer perder.
Desarrollar una red

En este artículo, verás oportunidades en línea y en persona para conectarte con otros analistas de datos. Esto forma
parte de cómo generas vínculos profesionales, algo que es muy importante cuando das tus primeros pasos en tu
carrera profesional.
Nota importante sobre este artículo
 Es posible que haya restricciones a las reuniones en persona debido a la pandemia global de COVID-19. Si
decides asistir a una reunión en persona, respeta las pautas estipuladas por las autoridades de salud locales.
Esperamos que las reuniones en persona puedan volver a celebrarse de forma segura pronto.
 Los enlaces que te brindamos en este artículo son solo ejemplos y están sujetos a modificaciones. Google no
los patrocina ni respalda específicamente.
Contactos en línea
Si todos los días pasas algunas horas en redes sociales, es posible que te sientas cómodo haciendo contactos con
otros analistas de datos en línea. Pero, ¿por dónde empezarías a buscar si no conocieras a ningún analista de datos?
Aunque no tengas redes sociales y hayas creado tu perfil en LinkedIn hace muy poco, puedes usar tu presencia en
línea para encontrar a otros analistas de datos y hacer contacto con ellos.
La clave es saber dónde buscar. A continuación, te damos algunas sugerencias para empezar en línea:
 Suscríbete a boletines como Data Elixir. No solo recibirás pequeñas gemas de información de forma regular,
sino que aprenderás los nombres de expertos en ciencia de datos a quienes puedes seguir o, incluso, con
quienes puedes ponerte en contacto si tienes una buena razón para hacerlo.
 Participa de hackatones (competencias) como las que patrocina Kaggle, una de las comunidades más grandes
de ciencia de datos y aprendizaje automático en el mundo. Ten en cuenta que no a todo el mundo le gustan los
hackatones. De todas formas, una vez que te unes a la comunidad, sueles tener acceso a foros en los que
puedes conversar con otros analistas de datos y conectarte con ellos.
 Las reuniones en línea suelen organizarse según tu ubicación geográfica. Puedes buscar “reuniones de ciencia
de datos cerca de mí” a ver qué resultados obtienes. Por lo general, hay una agenda con reuniones futuras para
que te conectes con otros analistas de datos de forma virtual. Obtén más información sobre reuniones virtuales
en todo el mundo.
 Usa plataformas como LinkedIn o Twitter. Usa el buscador en cualquier plataforma para encontrar hashtags
sobre ciencia de datos o analistas de datos para seguir. También puedes publicar tus propias preguntas o
artículos para generar respuestas y hacer contacto de esa forma. Cuando escribimos este artículo, el hashtag
#dataanalyst (analista de datos) en LinkedIn tenía 11,842 seguidores, el hashtag #dataanalytics (análisis de
datos) tenía 98,412 seguidores, y el hashtag #datascience (ciencia de datos), 746,945 seguidores. Muchos de
estos hashtags también funcionan en Twitter e, incluso, en Instagram.
 Participa de webinars: es posible que, en estas sesiones que suelen grabarse para poder mirarlas cuando
quieras y cuantas veces quieras, haya un panel de oradores. Puedes ver quién forma parte del panel de
oradores y seguirlos también. Además, muchos webinars son gratuitos. Una opción interesante es la serie de
webinars de Tableau on Tableau. En ellos, podrás descubrir cómo Tableau usó Tableau en sus departamentos
internos.
Reuniones en persona (fuera de línea)
Las reuniones en persona son súper valiosas en el mundo digital de hoy. Son una forma excelente de conocer
personas. Muchas veces, conoces a alguien en una reunión en persona y sigues el contacto en línea una vez que
vuelves a casa. Muchas organizaciones que patrocinan reuniones anuales también ofrecen reuniones y recursos
virtuales el resto del año.
A continuación, te sugerimos algunas ideas para encontrar reuniones en persona en tu área:
 Si asistes a una conferencia, seguramente escuches ideas y temas innovadores. El precio puede variar, y
algunas conferencias son bastante costosas. Sin embargo, muchas conferencias ofrecen descuentos a
estudiantes y otras, como la de Mujeres en la analítica, apuntan a aumentar la cantidad de personas que forman
parte de grupos poco representados en el sector. Las empresas líderes en investigación y consultoría, como
Gartner, también patrocinan conferencias sobre datos y analíticas. También puedes consultar la lista de
KDNuggets sobre eventos en línea y reuniones sobre IA, analítica, macrodatos, ciencia de datos y aprendizaje
automático.
 Las asociaciones o sociedades convocan miembros para promover cierto sector, como el de ciencia de datos.
Muchas membresías son gratuitas. La Asociación de Analítica Digital (Digital Analytics Association) es un buen
ejemplo. La lista de KDNuggets sobre sociedades y grupos de analítica, minería de datos, ciencia de datos y
descubrimiento del conocimiento es muy útil.
 Las comunidades de usuarios y los congresos ofrecen eventos para quienes usan herramientas de análisis de
datos y son una buena opción para aprender de los mejores. ¿Ya exploraste la comunidad de Tableau?
 En algunas ocasiones, las organizaciones sin fines de lucro que promocionan el uso ético de la ciencia de datos
organizan eventos para el desarrollo profesional de sus miembros. Un buen ejemplo es la Asociación de Ciencia
de Datos (Data Science Association).
Conclusiones clave
Tus contactos te ayudarán a mejorar tu conocimiento y tus habilidades. Es importante hacer contactos y mantenerlos,
aunque ya trabajes en el sector del análisis computacional de datos. Así que busca comunidades en línea que
promuevan distintas herramientas de análisis de datos o hagan progresar la ciencia de datos. Si hay reuniones donde
vives, búscalas para conectarte con más personas cara a cara. Aprovecha ambas opciones para tener lo mejor de los
dos mundos. Cuando estás con alguien en persona, es más fácil conversar e intercambiar información, pero la ventaja
clave de los contactos en línea es que no se limitan solo al área donde vives. Es posible que la comunidad en línea te
ponga en contacto con personas de otros países.
VIDEO: Beneficios de la tutoría

Maya Angelou lo fue para Oprah Winfrey. Steven Spielberg para JJ Abrams. Y Warren Buffett para Bill Gates. Mentores: tener
uno puede cambiar por completo tu carrera profesional y tu vida en general. En pocas palabras, un mentor es un profesional
que comparte contigo todo lo que sabe, así como sus habilidades y experiencia, para que mejores y crezcas.
Aproximadamente 3 de cada 4 personas piensan que tener un mentor es una parte importante del desarrollo profesional. Sin
embargo, ciertos estudios muestran que solo 37% tiene realmente un mentor. Como analista de datos, no es necesario que
tengas un mentor, pero quienes encuentran uno bueno nunca lo olvidan. No hay un solo tipo de mentor. Puede ser un asesor
de confianza, un grupo de expertos, un crítico, cierto recurso o todos los anteriores. A veces, la relación se da de forma
natural, pero, por lo general, hay que preguntar de manera formal que te guíen porque quizá no sepan que estás interesado
en su orientación. En cada etapa de mi carrera profesional, desde la universidad hasta mi rol actual en Google, siempre
busqué un mentor. Siempre es bueno estar seguro de que tu mentor tiene el tiempo necesario para respaldar tu crecimiento.
Y también es importante que tú mantengas una relación profesional con tu mentor. Además de un mentor, un patrocinador
puede ayudarte a crecer en términos profesionales. Pero hablaremos más sobre eso más adelante. Creo que es muy
importante saber qué buscas en un mentor. Así podrás acotar la lista de posibles profesionales. Piensa en tus fortalezas y los
desafíos que enfrentas en el trabajo y en cómo te gustaría crecer como analista de datos. No te olvides de contarles esto a tus
posibles mentores. También sirve pensar en experiencias compartidas o algún punto en común. ¿Quizá eres un veterano que
quiere recibir consejos de un analista de datos del ejército? ¿O tal vez piensas que sería muy beneficioso hablar con alguien
de tu pueblo natal? No hay una sola forma de encontrar el mentor perfecto. Tu mentor ni siquiera tiene que trabajar contigo.
Si no hay nadie con quien puedas conectarte en tu entorno laboral actual, puedes encontrar mentores en otros lugares,
desde plataformas de redes sociales, hasta eventos para hacer contactos, pasando por programas para encontrarlos. Por
ejemplo, ciertos sitios web, como score.org y micromentor.org, así como una app llamada “Mentorship”, te permiten buscar
referencias específicas según tus necesidades. Luego, pueden concertar ciertos horarios, quizá en la misma plataforma, para
encontrarse o conversar por teléfono. A mí me gusta usar correos o mensajes amigables en sitios profesionales para hacer
contactos. Si eliges esa opción, tómate un tiempo para describir tus objetivos profesionales, y cómo se alinean con las
experiencias de los mentores. Menciona algunas cosas que te hayan gustado sobre su trabajo o el contenido que publicaron.
Luego, puedes sugerir encontrarse para tomar un café, hacer una reunión virtual o intercambiar correos para ver cómo va
todo. Una vez que hayan tenido algunos intercambios, pregúntate a ti mismo si estás cómodo. Piensa si la relación se da de
forma natural y si estás obteniendo lo que necesitas. También sirve conversar con tu mentor para ver si él o ella están
cómodos también. Recuerda: es una alianza. Tú y tu mentor participan de forma equitativa. Cuanto más auténtico y honesto
seas, mejor irán las cosas. Por ejemplo, siempre es una buena idea dar las gracias por su tiempo y esfuerzo. Y si bien un
mentor te ayudará a obtener habilidades vitales y superar desafíos de trabajo, muchas personas piensan que un patrocinador
puede ayudarlos a llegar más lejos en el ámbito profesional. Un patrocinador es un profesional que se compromete a hacer
progresar la carrera de otra persona en una empresa. Para que entiendas la diferencia entre estos dos roles, piénsalo de esta
manera: un mentor te ayuda a mejorar tus habilidades; un patrocinador, a mejorar tu posición en la empresa. Contar con el
respaldo de un patrocinador es como tener una red de seguridad. Puede darte confianza para dar un salto en tu trabajo,
como pedir una nueva tarea o un ascenso. ¿Y cómo puedes obtener un patrocinador? Bueno, a diferencia de los mentores, tú
no eliges al patrocinador. Casi siempre, el patrocinador te elige a ti. Lo mejor que puedes hacer es comprometerte a hacer tu
mejor trabajo en todo momento. Es muy probable que alguien con influencia lo note. Ahora que vimos la importancia de
hacer contactos, una buena idea sería tomar acción. Primero, construye y alimenta tu presencia en LinkedIn. Luego, analiza tu
presencia actual en las redes sociales y asegúrate de que te ayude a dar lo mejor de ti. Por último, no te olvides de vincularte
con pares y colegas. Nunca sabes lo que puedes sacar de una buena conversación.
VIDEO: Rachel: Los tutores son la clave

Hola. Mi nombre es Rachel y soy directora de sistemas empresariales y análisis computacional de datos en Verily. Tuve la
suerte de tener algunos mentores realmente buenos durante el curso de mi carrera y no puedo enfatizar lo suficiente la
importancia de tener a alguien a tu lado mientras vas sorteando los buenos y malos momentos de tu carrera. Yo tuve algunos
mentores maravillosos que me guiaron a través de algunas decisiones realmente difíciles de mi carrera, comenzando allá, en
los albores de mi carrera. Mi primer mentor fue un profesor de la escuela y este profesor me dio consejos maravillosos sobre
cómo perseguir mis sueños y cómo inclinarme hacia lo que me interesaba. Creo que es muy importante también tener
buenos mentores en el trabajo. Mi mentor me ayuda a recorrer los pormenores de mi organización y los pormenores de la
política algunas veces y también me ayudan a tomar decisiones sobre qué hacer luego. Es bueno tener un mentor externo a
lo que está sucediendo, pero también, algunas veces, es realmente bueno tener un mentor que entienda el entorno. Me
pongo al día con mi mentor regularmente, como para estar al tanto, para ver cómo estamos, mantener la relación, pero
específicamente establezco una cita con mi mentor cuando estoy luchando con alguna cuestión difícil o cuando veo que llega
un punto de inflexión. Por ejemplo, he tenido algunas excelentes conversaciones con mi mentor acerca de si realmente debo
dedicarme a la parte financiera de mi carrera o debería inclinarme hacia el lado de computación y sistemas y me ha ayudado
a tomar esas decisiones sobre hacia dónde poner el foco y qué clases tomar, cómo continuar mi educación y hacia dónde
dirigirme con los proyectos que van surgiendo. Conversar eso con alguien realmente me ayudó a encontrarles sentido a
algunos pensamientos desordenados y pensar hacia dónde ir en el futuro. Creo que lo más importante para buscar en un
mentor es que sea alguien con quien te lleves bien y alguien en quien puedas confiar. Esa es la persona a la cual vas a
consultar sobre algunas de las posibles decisiones más difíciles de tu carrera, en busca de su consejo, ayuda y apoyo. Mis
mentores más exitosos, las relaciones con mentores más exitosas que he tenido han sido con personas que son cercanas a mí
personal o profesionalmente, en las que confío y con las que me siento cómoda compartiendo mis pensamientos más
profundos y muchos detalles potencialmente sensibles acerca de lo que estoy pensando, el momento que estoy atravesando
y lo que quiero de modo que puedan ayudarme a encontrar sentido en ello y reflexionar sobre qué hacer. Me encanta poder
ahora hacer lo mismo y compartir algo de los conocimientos adquiridos de mis mentores y de algunas experiencias que he
tenido en mi carrera y que ayudará compartirlas con alguien más, de modo que puedan atravesar algunas de esas mismas
decisiones y algunas de esas mismas situaciones y quizás aprendan de algunas de mis experiencias y algunos de mis errores.
Poder transmitir mi experiencia es lo que realmente me encanta de ser mentora.
CUESTIONARIO
1.
Pregunta 1
Escenario 1, preguntas 1-5
Durante los últimos seis meses, trabajaste en una empresa de consultoría de análisis computacional de datos. Tu
equipo trabaja con restaurantes para que utilicen sus datos a fin de entender mejor las preferencias de los clientes e
identificar oportunidades para ser más rentables.
Con esos objetivos en mente, tu equipo analiza los comentarios de los clientes para mejorar el rendimiento de los
restaurantes. Usas datos para que los restaurantes tomen mejores decisiones sobre la dotación de personal y fidelicen
a sus clientes. Con tu análisis, hasta puedes rastrear el número de veces que un cliente solicita un nuevo plato o
ingrediente y, así, revisar los menús.
En este momento, estás trabajando con un restaurante de sándwiches vegetarianos llamado “Garden”. El propietario
quiere que la entrega de comida sea más eficiente y rentable. Para cumplir con este objetivo, tu equipo utilizará los
datos de la entrega para comprender mejor cuándo salen los pedidos de Garden, cuándo llegan al cliente y qué tan
satisfechos están los clientes con los pedidos en general.
Antes de iniciar el proyecto, participas de una sesión de presentación con el vicepresidente de experiencia del cliente
de Garden. Él te brinda información para que tu equipo comprenda mejor los objetivos comerciales y del proyecto.
Como seguimiento, te envía un correo electrónico con conjuntos de datos.
Haz clic a continuación para leer el correo electrónico:
DA- C3 Scenario 1 Client Email _SPA
DOCX File
Y haz clic a continuación para acceder a los conjuntos de datos:

Course 3 Final Challenge Data Sets- Customer survey data (1)_SPA
XLSX File
DeliveryTimes_DistanceData_SPA
XLSX File
Cuando revisas los datos, puedes describir cómo los utilizarás para lograr los objetivos de tu cliente. Primero, observas que
todos los datos son datos de primera fuente. ¿Qué significa esto?
1 / 1 punto
1. Son datos subjetivos que miden cualidades y características.

2. Son datos recopilados de fuentes externas.
3. Es un tipo de datos que se categoriza sin ningún un orden establecido.
4. Son datos recopilados por los empleados de Garden utilizando los recursos propios de la empresa.
Correcto. Los datos de primera fuente son datos recopilados por una persona o por un grupo utilizando sus propios
recursos.
2.
Pregunta 2
Escenario 1, continuación
Luego, revisas los datos de la encuesta de satisfacción del cliente. Si quieres usar la plantilla para los datos de la
encuesta de satisfacción del cliente, haz clic en el enlace a continuación y selecciona "Usar plantilla".
Enlace a la plantilla: Datos de la encuesta de satisfacción del cliente
Si no tienes una cuenta de Google, descarga el archivo CSV directamente haciendo clic en el adjunto a continuación.
Course 3 Final Challenge Data Sets- Customer survey data (1)_SPA
XLSX File
Notas que, en la columna E, hay un ejemplo de datos booleanos. ¿Cómo llegaste a esa conclusión?
1 / 1 punto
1. Son datos organizados de cierta forma, por ejemplo, en filas y columnas.

2. Cada tema está dividido en varias filas.
3. Son datos cualitativos con un orden o escala preestablecidos.
4. Son datos que solo tienen dos valores posibles.
Correcto. Los datos booleanos solo tienen dos valores posibles, por ejemplo, sí o no.
Pregunta 3
Ahora, revisas los datos sobre los tiempos de entrega y la distancia entre los clientes y el restaurante.
Para utilizar la plantilla del conjunto de datos, haz clic en el enlace de abajo y selecciona “Usar plantilla”.
Enlace a la plantilla: Tiempos de entrega/Distancia

O
Si no tienes una cuenta de Google, descarga el archivo CSV directamente haciendo clic en el adjunto a continuación.
DeliveryTimes_DistanceData_SPA
XLSX File
Los datos de la columna E muestran cuánto tardan las entregas de Garden a sus clientes. ¿Qué tipo de datos es este?
Selecciona todas las opciones que correspondan.
0.5 / 1 punto
1. Datos continuos. Esto no debería estar seleccionado. Si necesitas hacer un repaso, vuelve a ver el video sobre
formatos de datos.
2. Datos cualitativos
3. Datos discretos
4. Datos cuantitativos. Correcto. Este es un ejemplo de datos discretos, que son datos contabilizables y tienen un
número limitado de valores. También son datos cuantitativos: datos específicos que miden hechos numéricos.
Pregunta 4
Ahora, revisas el archivo que contiene imágenes de la entrega de sándwiches durante un período de 30 días. Este es un
ejemplo de datos estructurados.
1 / 1 punto
1. Verdadero
2. Falso
Correcto. Este es un ejemplo de datos no estructurados, es decir, datos que no están organizados de una manera fácil
de identificar.
Pregunta 5
Ahora que estás familiarizado con los datos, quieres generar cierta confianza con el equipo de Garden.
¿Qué medidas empleas para resguardar la seguridad de los datos? Selecciona todas las opciones que correspondan.
0.5 / 1 punto
1. Hago copias de los archivos del cliente para mi propio uso. Esto no debería estar seleccionado. Si necesitas
hacer un repaso, vuelve a leer las secciones sobre organización y protección de datos.
2. Modifico las convenciones de nomenclatura de los archivos. Esto no debería estar seleccionado. Si necesitas
hacer un repaso, vuelve a leer las secciones sobre organización y protección de datos.
3. Agrego una contraseña a los archivos. Correcto. Para generar confianza con tu cliente, puedes demostrarle que
mantienes sus datos protegidos usando contraseñas y permisos para usuarios.
4. Asigno permisos para usuarios en los archivos. Correcto. Para generar confianza con tu cliente, puedes
demostrarle que mantienes sus datos protegidos usando contraseñas y permisos para usuarios.
Pregunta 6
Escenario 2, preguntas 6-10
Ya finalizaste este programa y, ahora, estás por presentarte a una entrevista para el puesto de científico junior de datos
en una empresa que se llama “Servicios Financieros Sewati”.
Haz clic a continuación para ver la descripción del trabajo:
C3 Course Challenge Junior Data Scientist Job Description (1).pdf
PDF File
Por ahora, pasaste con éxito la primera entrevista con el reclutador. Entonces, conciertan una segunda entrevista con el
equipo de Servicios Financieros Sewati.
Haz clic a continuación para leer el correo electrónico que te envió el director de Recursos Humanos:
Course 3 Scenario 2_Second Interview Email _SPA
DOCX File
Llegas a la entrevista 15 minutos antes. Enseguida te acompañan hasta la sala de conferencias donde conoces a Kai
Harvey, gerente senior de estrategia. Después de darte la bienvenida, comienza la entrevista conductual.
Considera y responde la siguiente pregunta. Selecciona todas las opciones que correspondan.
Nuestro equipo de análisis computacional de datos suele entrevistar clientes para conocer su opinión. Si formaras parte del
equipo, ¿cómo garantizarías que, durante el proceso, no se generen posibles sesgos?
1 / 1 punto
1. En la muestra, incluyo clientes con discapacidad. Correcto. La forma en que redactamos las preguntas, el
tiempo que les damos a los participantes para que respondan cada pregunta y la inclusión de distintos
participantes pueden generar sesgos.
2. Les doy a los participantes el tiempo necesario para que respondan cada pregunta de la encuesta.
Correcto. La forma en que redactamos las preguntas, el tiempo que les damos a los participantes para que
respondan cada pregunta y la inclusión de distintos participantes pueden generar sesgos.
3. Me aseguro de que la redacción de las preguntas de la encuesta no incite una respuesta específica de parte de
los participantes. Correcto. La forma en que redactamos las preguntas, el tiempo que les damos a los
participantes para que respondan cada pregunta y la inclusión de distintos participantes pueden generar
sesgos.
4. Les indico a los participantes que incluyan su nombre y su información de contacto.
Pregunta 7
Considera y responde la siguiente pregunta. Selecciona todas las opciones que correspondan.
Nuestro equipo de análisis computacional de datos suele usar datos externos. ¿Dónde puedes obtener datos externos útiles?
0.5 / 1 punto
1. Departamento de Marketing de Servicios Financieros Sewati. Esto no debería estar seleccionado

Si necesitas hacer un repaso del material, vuelve a ver el video sobre datos internos y externos.
2. Fuentes gubernamentales. Correcto. Puedes obtener datos externos de distintos lugares. Esto incluye, por
ejemplo, otras empresas, fuentes gubernamentales, asociaciones profesionales y más.
3. Una asociación financiera profesional . Correcto. Puedes obtener datos externos de distintos lugares. Esto
incluye, por ejemplo, otras empresas, fuentes gubernamentales, asociaciones profesionales y más.
4. Otras empresas financieras
Pregunta 8
Considera y responde la siguiente pregunta.
Nuestros analistas suelen trabajar en la misma hoja de cálculo, pero para diferentes propósitos. ¿Cómo ayudaría filtrar
datos en esta situación?
1 / 1 punto
1. Filtrar datos te permite destacar la fila de encabezado

2. El filtrado simplifica la hoja de cálculo, ya que solo te muestra la información que necesitas
3. El filtrado cifra la hoja de cálculo de modo que solo tú puedas acceder a ella
4. Filtrar datos te permite ordenarlos de forma que tengan sentido
Correcto. Cuando los analistas de datos filtran la hoja de datos, solo ven los datos que necesitan. Así, es más fácil que
analistas de datos del mismo equipo puedan usar el mismo conjunto de datos para distintos propósitos.
9.
Pregunta 9
Ahora, el entrevistador quiere ahondar un poco en tu conocimiento sobre comandos básicos de SQL. Entonces, te
pregunta: Imagina que usamos la tabla de Clientes de nuestra base de datos, ¿cómo escribirías una consulta para recuperar
solamente información sobre personas que trabajan en Boise?
0 / 1 punto
1.
2. ESTE
3. NO
4.
Incorrecto
Si necesitas hacer un repaso, vuelve a leer el artículo sobre las mejores prácticas de SQL.
Pregunta 10
En la última pregunta, el entrevistador te explica que Servicios Financieros Sewati se preocupa por la privacidad de los
datos. La empresa necesita generar confianza con sus clientes, y esa es una responsabilidad importante del equipo de análisis
computacional de datos.
Entonces, te pregunta: ¿Qué implica la privacidad de los datos? Selecciona todas las opciones que correspondan.
1 / 1 punto
1. Implica compartir permisos y cifrar

2. Implica preservar la información y la actividad de un sujeto de datos cada vez que se lleva a cabo una
transacción de datos. Correcto. La privacidad de los datos implica preservar la información y la actividad de un
sujeto de datos cada vez que se lleva a cabo una transacción de datos, así como el derecho de esta persona a
acceder a sus datos. También implica establecer medidas de privacidad para proteger los datos de las
personas.
3. Implica establecer medidas de privacidad para proteger los datos de las personas. Correcto. La privacidad de
los datos implica preservar la información y la actividad de un sujeto de datos cada vez que se lleva a cabo una
transacción de datos, así como el derecho de esta persona a acceder a sus datos. También implica establecer
medidas de privacidad para proteger los datos de las personas.
4. Implica el derecho legal de una persona sobre sus datos. Correcto. La privacidad de los datos implica preservar
la información y la actividad de un sujeto de datos cada vez que se lleva a cabo una transacción de datos, así
como el derecho de esta persona a acceder a sus datos. También implica establecer medidas de privacidad
para proteger los datos de las personas.

Curso 3 Analisis de Datos

Cargado por

Copyright:

Formatos disponibles

Curso 3 Analisis de Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Curso 3 Analisis de Datos

Cargado por

Copyright:

Formatos disponibles

CURSO 3: Preparar datos para la exploración

Programa del curso:

Contenido del curso

 Videos de instructores enseñando nuevos conceptos y demostrando el uso de herramientas.

VIDEO: Hallie: Datos fascinantes:

Decidir si tomar la vía rápida

Para ayudarte a decidir si te conviene tomar la vía rápida de este curso:

1. Realiza el cuestionario de diagnóstico opcional.

VIDEO: Determinar qué datos recoger

Seleccionar los datos adecuados:

Cómo se recogerán los datos

Resolver el problema empresarial:

Cuántos datos hay que recoger:

¿Qué método de recopilación de datos es el más utilizado por los científicos?

Diferenciar entre formatos y estructuras de datos:

Ejemplos de formatos de datos

Internos versus externos

Continuos versus discretos

Cualitativos versus cuantitativos

Nominal versus Ordinal

Estructurados versus no estructurados

Clasificación del formato

VIDEO: Entender los datos estructurados

La estructura de los datos

A continuación, te recordamos las características de los datos estructurados y no estructurados:

Datos estructurados Datos no estructurados

Niveles y técnicas de modelado de datos

¿Qué es el modelado de datos?

Niveles de modelado de datos:

Los tres tipos más comunes de modelado de datos:

Análisis de datos y modelado de datos

 Tienen una estructura claramente identificable

¿Cuál de los siguientes es un ejemplo de datos no estructurados?

Explorar los tipos de datos, campos y valores:

Entender la lógica booleana:

 Comprarás los zapatos solo si son rosas y grises

Lógica booleana para Si es Gris Y (NO Rosa), entonces

VIDEO: Conocer los datos en formato ancho y largo

A woman presenting data, a hand holding a medal, two people chatting, a

La transformación de datos suele implicar:

 Añadir, copiar o replicar datos

Ejemplo de transformación de datos: organización de datos (largo a ancho)

Ejemplo de datos en formato largo: Precios de las acciones

Ejemplo de datos en formato ancho: Precios de las acciones

Se prefieren los datos en formato ancho

¿Qué permite la transformación de datos a los analistas de datos?

1. Recuperar los datos más rápidamente

Algoritmo: Un proceso o conjunto de reglas a seguir para una tarea específica.

Análisis computacional de datos: La ciencia de los datos.

Base de datos: Recopilación de datos almacenados en un sistema informático.

Causa raíz: La razón por la que ocurre un problema.

Consulta: Solicitud de datos o información de una base de datos.

Contexto: La condición en la que algo existe o sucede.

Datos discretos: Datos que se cuentan y tienen un número limitado de valores

Datos externos: Datos que se alojan y se generan fuera de una organización.

Datos internos: Datos alojados en los sistemas propios de una empresa.

Datos ordinales: Datos cualitativos con un orden o escala establecidos.

Datos: Una colección de hechos.

Diseño de datos: Cómo se organiza la información.