La Tormenta
La Tormenta
La Tormenta
1.1 ¿Qué es un dato?
Según la Real academia española (RAE) es: “Información sobre algo concreto que permite su conocimiento
exacto o sirve para deducir las consecuencias derivadas de un hecho”. Básicamente, los datos son todo
aquello perceptible que nos permite entender la existencia de algo en concreto, ya sean hechos, eventos,
individuos o simplemente conceptos.
Estos datos pueden diferir de formato y de manera de obtención. Estos factores son tan variados entre sí que
en el ambiente estadístico se decidió dividirlos en diferentes categorías:
Fuente: https://www.questionpro.com/es/cualitativa-vs-cuantitativa.html
Actividad previa
◄ Foro general del curso
Ir a...
Siguiente actividad
1.2 La importancia de los datos ►
Mantente en contacto
http://civet.com.ar/
TEL.: 0810-666-1491
[email protected]
13-92 Aproximaciones al Big Data - Santa Fe
Área personal Mis cursos 19-92santafe Clase 1 1.2 La importancia de los datos
1.2 La importancia de los datos
Los datos son la herramienta principal que nos permite entender y
obtener información sobre la realidad. El hecho de que podamos
obtener datos en sí, indica que algo está sucediendo, más no nos
dicen específicamente qué.
Es por esto que para poder saber qué significan los datos y poder obtener la información detrás de los
mismos, se los tiene que procesar. Procesarla requiere de darle un orden y formato claro, para poder inferir
de manera más eficiente el significado detrás de los mismos. Finalmente, luego de obtener esta
información, se la interpreta, para poder alcanzar a tener el conocimiento de la situación, y poder actuar
sobre la misma, sea para identificar comportamientos, patrones o poder desarrollar estrategias y acciones
para un fin.
Yendo al caso, el concepto de análisis de datos ni siquiera es algo moderno. Desde los inicios de la
civilización se han obtenido datos mediante observación y experimentación, transformados estos datos en
información mediante registros, y finalmente procesados en conocimiento mediante la filosofía y el análisis.
Este proceso fue lo que llevó a los avances de la civilización, desarrollando teoremas y tecnologías que
hacían frente a problemas importantes de su cotidianeidad.
En el contexto del análisis de datos, esta frase se puede interpretar como que los datos pueden representar
la realidad, pero tienen un factor de limitación y sesgo además de una falta absoluta de contexto, por el
cual, si no se tienen estos factores en consideración, existe la posibilidad de un error de interpretación de la
información obtenida, y por ende las consecuencias de las acciones tomadas pueden diferir de lo
especulado, y pueden acabar en fracaso.
Imagen ejemplo de presentación de datos.
Fuente: Captura de pantalla de pc en UNSAM.
Actividad previa
◄ 1.1 ¿Qué es un dato?
Ir a...
Siguiente actividad
1.3 ¿Qué es la información? ►
Mantente en contacto
http://civet.com.ar/
TEL.: 0810-666-1491
[email protected]
13-92 Aproximaciones al Big Data - Santa Fe
Área personal Mis cursos 19-92santafe Clase 1 1.3 ¿Qué es la información?
1.3 ¿Qué es la información?
Podemos describir a la información como un mensaje, usualmente presentado como archivos de texto,
gráficos u otros formatos, presentando los resultados del procesamiento de los datos. Una de sus
propiedades principales al ser un mensaje, es que posee un emisor y un receptor. La información influye sobre
la perspectiva del receptor sobre un tema en particular, llegando al caso de cambiar sus opiniones y su
acciones frente a la misma información.
A diferencia de los datos, la información tiene significado (relevancia y propósito). No sólo puede informar
potencialmente al receptor, sino que ésta posee algún propósito.
Los datos se convierten en información cuando su creador les añade significado. Transformamos datos en
información añadiendoles valor en varios sentidos. Hay varios métodos:
Se puede interpretar a los datos como los ingredientes básicos y el hecho de ordenarlos y transformarlos
sería el equivalente a preparar una receta.
Las computadoras nos permiten trabajar con muchísimos datos, darles valor y transformarlos en información,
pero una computadora en la mayoría de los casos es incapaz de presentar el contexto de dicha información.
Un problema muy común es confundir la información (o el conocimiento) con la tecnología que la soporta.
Desde la televisión a Internet, es importante tener en cuenta que el medio no es el mensaje. En palabras más
simples, una imagen de una pipa no es una pipa, es una representación de una pipa.
Esto no es una pipa. Fuente: Blog
Actividad previa
◄ 1.2 La importancia de los datos
Ir a...
Siguiente actividad
1.4 A qué denominamos conocimiento ►
Mantente en contacto
http://civet.com.ar/
TEL.: 0810-666-1491
[email protected]
13-92 Aproximaciones al Big Data - Santa Fe
Área personal Mis cursos 19-92santafe Clase 1 1.4 A qué denominamos conocimiento
1.4 A qué denominamos conocimiento
Para Davenport y Prusak (1999) el conocimiento es una mezcla de
experiencia, valores, información y “saber hacer” que sirve como marco
para la incorporación de nuevas experiencias e información, yes útil para
la acción. Se origina y aplica en la mente de los conocedores. En las
organizaciones con frecuencia no sólo se encuentra dentro de
documentos o almacenes de datos, sino que también esta en rutinas
organizativas, procesos, prácticas, y normas.
Lo que inmediatamente deja claro la definición es que ese conocimiento no es simple. Es una mezcla de
varios elementos; es un flujo al mismo tiempo que tiene una estructura formalizada; es intuitivo y difícil de
captar en palabras o de entender plenamente de forma lógica. El conocimiento existe dentro de las personas,
como parte de la complejidad humana y de nuestra impredictibilidad. Aunque solemos pensar en activos
definibles y concretos, los activos de conocimiento son mucho más difíciles de manejar. El conocimiento
puede ser visto como un proceso (flujo) o como algo acumulado.
• Comparación.
• Consecuencias.
• Conexiones.
• Conversación.
Datos-Información-Conocimiento.
Fuente: Elaboración propia.
En el gráfico presentado se puede apreciar el proceso antes mencionado, de cómo los datos obtenidos por
muestreos pueden ser de utilidad mediante el orden de los mismos, para luego ser interpretados de manera
eficiente
En este diagrama tomamos, de manera demostrativa los datos de la performance estudiantil (colegio al que
pertenecen, calificaciones, ausencias) de los estudiantes de una región determinada que permitirían
determinar la calidad de los planes de estudio y en caso de detectar problemas y/o insuficiencias, de poder
diseñar un plan más efectivo. Este es solo uno de los ejemplos posibles de situaciones aplicables, cualquier
organización tanto empresarial como gubernamental podría utilizar estas herramientas para tomar
decisiones y lograr resultados notoriamente positivos.
Actividad previa
◄ 1.3 ¿Qué es la información?
Ir a...
Siguiente actividad
1.6 La escala del dato virtual ►
Mantente en contacto
http://civet.com.ar/
TEL.: 0810-666-1491
[email protected]
13-92 Aproximaciones al Big Data - Santa Fe
Área personal Mis cursos 19-92santafe Clase 1 1.6 La escala del dato virtual
1.6 La escala del dato virtual
Los sistemas informáticos para poder trabajar utilizan una unidad de almacenamiento llamada byte. Un
byte está compuesto por un conjunto de 8 bits.
Un bit es una unidad mínima de información que trabaja sobre un
sistema matemático binario, es decir, sus valores posibles son 0 o 1. En
base a esto, un byte puede almacenar 256 (28) posibles valores
diferentes.
Con el paso del tiempo, el almacenamiento de datos fue aumentando, por lo que se desarrollaron unidades
superiores al byte, siendo múltiplos del mismo. A continuación se puede apreciar una gráfica de las escalas
entre las diferentes escalas:
Hagamos un ejercicio mental para darnos una
idea de la escala de datos. En general:
• Una imagen de buena calidad puede pesar entre 2
MB a 30MB, en caso de que tenga una alta resolución.
• Los archivos de texto plano apenas pesan un par de
cientos de KB y pueden poseer cantidades enormes
de texto, fácilmente libros enteros, sin que su peso
crezca demasiado.
• Una canción en MP3 puede pesar entre 3 y 15 MB
dependiendo del largo y el bitrate.
• Una película en resolución 4K puede llegar a pesar
unos 100GB
• Una computadora estándar hoy día, suele almacenar
alrededor de 1TB.
Actividad previa
◄ 1.4 A qué denominamos conocimiento
Ir a...
Siguiente actividad
1.7 El origen de los datos ►
Mantente en contacto
http://civet.com.ar/
TEL.: 0810-666-1491
[email protected]
13-92 Aproximaciones al Big Data - Santa Fe
Área personal Mis cursos 19-92santafe Clase 1 1.7 El origen de los datos
1.7 El origen de los datos
Ya se habló de los datos y de la cantidad de datos que fluyen hoy día. La cuestión actual es el cómo se
consiguen estos datos. Hay múltiples fuentes en internet y por fuera de internet, las cuales presentan tipos
variados de datos. Esta heterogeneidad de formato de datos requiere un procesamiento previo, que puede
incluir filtros y/o conversiones de los datos. Hay tanto formatos analógicos de obtención de datos como
formatos digitales, pero a la hora de trabajar grandes cantidades de datos, se recomienda migrar los datos
analógicos a digitales, si es posible.
Actividad previa
◄ 1.6 La escala del dato virtual
Ir a...
Siguiente actividad
1.8 Moralidad de la obtención de datos ►
Mantente en contacto
http://civet.com.ar/
TEL.: 0810-666-1491
[email protected]
13-92 Aproximaciones al Big Data - Santa Fe
Área personal Mis cursos 19-92santafe Clase 1 1.8 Moralidad de la obtención de datos
1.8 Moralidad de la obtención de datos
En el mundo virtual, muchas de las grandes empresas, para mantenerse y crecer en el mercado, utilizan
grandes cantidades de datos de los individuos, para poder formar un entorno alrededor de los mismos, que
produzca un resultado beneficioso para la empresa. Muchas de estas empresas utilizan métodos de
dudosa transparencia para obtener los datos, entre ellas siendo extremadamente vagas con sus políticas
de privacidad, u ofuscando la ubicación de las opciones de seguimiento, y teniéndose activadas por
defecto.
Esto conlleva un análisis profundo sobre dónde se debería dibujar la
línea donde termina la privacidad de un individuo y dónde comienza la
extracción de datos. Por ejemplo, ¿qué tan moral sería que una
empresa registre con detalle los lugares físicos donde estuviste, cuánto
tiempo estuviste y qué cosas compraste? Suena paranoide, pero con
que tengas un celular en el bolsillo, es muy posible que al menos
alguna aplicación esté recopilando algún dato sobre vos.
La moralidad del muestreo de datos sigue siendo un tópico debatido fuertemente. Las empresas actúan en
base al conocimiento obtenido para obtener resultados óptimos para ellas, pero esos resultados, ¿Son
realmente óptimos para el individuo analizado, o puede tener efectos secundarios sobre el mismo?. Estas
son preguntas que se siguen debatiendo al día de hoy, y con el avance tecnológico actual, el muestreo
profundo sobre un individuo se hace cada vez más fácil.
• La Nación
Uno de los ejemplos más importantes de este tipo de dilemas fue el escándalo donde la consultora
Cambridge Analytica hizo uso de millones de datos personales de usuarios de Facebook y los utilizó con
fines político-comerciales violando completamente las políticas de uso. ¿Cuáles fueron los objetivos y
consecuencias de este accionar? Generar un ambiente personalizado para los individuos afectados,
explotando las disconformidades y enojo de los afectados, en el cual éstos terminen votando a favor del
ahora ex presidente Donald Trump, y a favor del Brexit (la salida del Reino Unido de la unión europea).
Nota para leer
• el incidente
Fuente: OVRIK.
Actividad previa
◄ 1.7 El origen de los datos
Ir a...
Siguiente actividad
1.9 Moralidad del objetivo del análisis ►
Mantente en contacto
http://civet.com.ar/
TEL.: 0810-666-1491
[email protected]
Resumen de retención de datos
Descargar la app para dispositivos móviles
13-92 Aproximaciones al Big Data - Santa Fe
Área personal Mis cursos 19-92santafe Clase 1 1.9 Moralidad del objetivo del análisis
1.9 Moralidad del objetivo del análisis
Como se pudo apreciar en el ejemplo anterior, no solo el método de obtención de datos incumple las políticas
de privacidad de los individuos, si no que el objetivo detrás del muestreo fue totalmente corrupto. Intentar
disuadir a la gente utilizando datos personales para que voten a un candidato en específico y/o que voten a
favor del Brexit raya en lo corrupto, amoral y potencialmente ilegal.
Un paper con un impacto tan serio propone un riesgo enorme. Las posibles consecuencias de que ese
algoritmo genere un número alto de falsos positivos causaría que mucha gente inocente sea erróneamente
etiquetada como potencial delincuente, y de que dé falsos negativos, dejando pasar criminales como gente
inocente. Y dicho y hecho, el algoritmo terminó teniendo un margen de error enorme, producto de un
muestreo enormemente sesgado.
Lo que sucedió es que, las muestras utilizadas eran fotos frontales de varios individuos, varios con el legajo
limpio y otros con delitos a su nombre(de este último grupo, la mayoría eran delitos no violentos). Las fotos de
los “inocentes” fueron tomadas como cualquier foto cotidiana para un perfil laboral, mientras que las fotos de
lo “delincuentes” fueron proporcionadas por la fuerza policial.
Ejemplos de muestras utilizadas en el paper de Xiaolin Wu y Xi Zhang.
Fuente: CallingBS
Aunque suene ridículo y obvio, las situaciones en las que se sacaron las fotos difieren enormemente, mientras
que un grupo estaba en un contexto relajado, el otro grupo se encontraba en un ambiente tenso durante la
toma de fotos. Un análisis exhaustivo de este algoritmo demostró al final que los “patrones de delincuente”
identificados eran expresiones de gente cansada, enojada y estresada, lo cual, hubiese generado falsos
positivos en todo aquél que haya tenido un mal día de trabajo y lo hayan hecho pasar por la identificación
facial.
Referencias bibliográficas
https://www.lanacion.com.ar/el-mundo/martin-hilbert-corremos-el-riesgo-de-que-la-
humanidad-deje-de-existir-nid20062021/
https://www.infobae.com/america/tecno/2018/03/20/7-datos-para-entender-el-
escandalo-de-facebook-y-cambridge-analytica/
https://www.callingbullshit.org/case_studies/case_study_criminal_machine_learning.html
http://iibi.unam.mx/voutssasmt/documentos/dato%20informacion%20conocimiento.pdf
Actividad previa
◄ 1.8 Moralidad de la obtención de datos
Última modificación: domingo, 4 de julio de 2021, 19:24
Ir a...
Siguiente actividad
Actividad obligatoria de la clase 1 ►
Mantente en contacto
http://civet.com.ar/
TEL.: 0810-666-1491
[email protected]