0% encontró este documento útil (0 votos)
17 vistas24 páginas

La Tormenta

Descargar como pdf o txt
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 24

13-92 Aproximaciones al Big Data - Santa Fe



Área personal Mis cursos 19-92santafe Clase 1 1.1 ¿Qué es un dato?


1.1 ¿Qué es un dato?

Según la Real academia española (RAE) es: “Información sobre algo concreto que permite su conocimiento
 exacto o sirve para deducir las consecuencias derivadas de un hecho”. Básicamente, los datos son todo
aquello perceptible que nos permite entender la existencia de algo en concreto, ya sean hechos, eventos,
 individuos o simplemente conceptos.

 Estos datos pueden diferir de formato y de manera de obtención. Estos factores son tan variados entre sí que
en el ambiente estadístico se decidió dividirlos en diferentes categorías:

Cualitativos: Son todos los datos que no pueden ser registrados


mediante valores numéricos, sino que son representados mediante
sustantivos y/o adjetivos. Esta categoría a su vez se divide en dos
categorías fundamentales:

• Nominal: Son datos que en su representación no admiten un orden


ni jerarquía específico. Ejemplos: Color de ojos, sabor de una comida,
tipo de ropa usada.

• Ordinal: Son datos que cumplen una especie de orden o jerarquía


entre sus posibles resultados. Ejemplos: Calificaciones con letras,
satisfacción de un cliente

Cuantitativos: Son todos los datos cuyo formato de descripción es


mediante un valor numérico. Esta categoría a su vez se divide en dos
categorías fundamentales:

• Cuantitativos discretos: Son aquellos que se expresan con


números enteros, y no hay manera de expresar valores intermedios
entre si. Ejemplo: Cantidad de alumnos presentes, Cantidad de
intentos de un examen, Cantidad de ausencias a un curso.

• Cuantitativos continuos: Son aquellos que no tienen necesidad de


ser expresadas por un número entero y pueden presentarse infinitos
resultados posibles dentro de un intervalo numérico. Ejemplos:
Altura de una persona, duración de una carrera de 100 metros lisos.
Etc.


 Cómic ejemplo de tipos de datos

Fuente: https://www.questionpro.com/es/cualitativa-vs-cuantitativa.html

 

Última modificación: domingo, 4 de julio de 2021, 19:22

Actividad previa
◄ Foro general del curso

Ir a...

Siguiente actividad
1.2 La importancia de los datos ►

Mantente en contacto



http://civet.com.ar/


TEL.: 0810-666-1491

[email protected]

 


  Resumen de retención de datos

 Descargar la app para dispositivos móviles




13-92 Aproximaciones al Big Data - Santa Fe

Área personal Mis cursos 19-92santafe Clase 1 1.2 La importancia de los datos


1.2 La importancia de los datos


Los datos son la herramienta principal que nos permite entender y
 obtener información sobre la realidad. El hecho de que podamos
obtener datos en sí, indica que algo está sucediendo, más no nos
 dicen específicamente qué. 


Es por esto que para poder saber qué significan los datos y poder obtener la información detrás de los
mismos, se los tiene que procesar. Procesarla requiere de darle un orden y formato claro, para poder inferir
de manera más eficiente el significado detrás de los mismos. Finalmente, luego de obtener esta
información, se la interpreta, para poder alcanzar a tener el conocimiento de la situación, y poder actuar
sobre la misma, sea para identificar comportamientos, patrones o poder desarrollar estrategias y acciones
para un fin.

Todo esto suena a conceptos avanzados en la ciencia, pero, en


realidad, estos procesos son más frecuentes de lo que uno cree y
uno lo hace diariamente a nivel casi instintivo. Uno puede
identificar patrones en el día a día y actuar en base a ellos.

Yendo al caso, el concepto de análisis de datos ni siquiera es algo moderno. Desde los inicios de la
civilización se han obtenido datos mediante observación y experimentación, transformados estos datos en
información mediante registros, y finalmente procesados en conocimiento mediante la filosofía y el análisis.
Este proceso fue lo que llevó a los avances de la civilización, desarrollando teoremas y tecnologías que
hacían frente a problemas importantes de su cotidianeidad.

“El mapa no es el territorio”- Alfred Korzybski. Fuente: La Nacion

En el contexto del análisis de datos, esta frase se puede interpretar como que los datos pueden representar
la realidad, pero tienen un factor de limitación y sesgo además de una falta absoluta de contexto, por el
cual, si no se tienen estos factores en consideración, existe la posibilidad de un error de interpretación de la
información obtenida, y por ende las consecuencias de las acciones tomadas pueden diferir de lo
especulado, y pueden acabar en fracaso.



Imagen ejemplo de presentación de datos.
 Fuente: Captura de pantalla de pc en UNSAM.

Última modificación: domingo, 4 de julio de 2021, 19:22

Actividad previa
◄ 1.1 ¿Qué es un dato?

Ir a...

Siguiente actividad
1.3 ¿Qué es la información? ►



Mantente en contacto



http://civet.com.ar/


TEL.: 0810-666-1491

[email protected]





 Resumen de retención de datos



 Descargar la app para dispositivos móviles



13-92 Aproximaciones al Big Data - Santa Fe

Área personal Mis cursos 19-92santafe Clase 1 1.3 ¿Qué es la información?


1.3 ¿Qué es la información?

Podemos describir a la información como un mensaje, usualmente presentado como archivos de texto,
 gráficos u otros formatos, presentando los resultados del procesamiento de los datos. Una de sus
propiedades principales al ser un mensaje, es que posee un emisor y un receptor. La información influye sobre
 la perspectiva del receptor sobre un tema en particular, llegando al caso de cambiar sus opiniones y su
acciones frente a la misma información. 

 El objetivo de la información, como su nombre lo indica, es informar.


El significado original de informar es “dar forma a”, y esto es lo que
sucede con los datos, se les da forma y se convierten en información.
La información es capaz de formar a la persona que la consigue,
proporcionando ciertas diferencias en su interior o exterior. Por lo
tanto, queda del lado del receptor el poder de definir si un mensaje
recibido es información o es un conjunto de datos irrelevantes.

A diferencia de los datos, la información tiene significado (relevancia y propósito). No sólo puede informar
potencialmente al receptor, sino que ésta posee algún propósito.

Los datos se convierten en información cuando su creador les añade significado. Transformamos datos en
información añadiendoles valor en varios sentidos. Hay varios métodos:

• Contextualizando: identificar el contexto en el cual se


presentan y se obtienen los datos
• Categorizando: separando los datos en categorías
pertinentes, de manera que puedan proceder a analizarse
• Calculando: Se suele generar diferentes cálculos
procesando datos para obtener información de un nivel
superior que simples datos
• Corrigiendo: Usualmente los conjuntos de datos carecen
de algún que otro dato suelto, por lo que se suelen hacer
correcciones de manera que se puedan presentar con
mínimos errores
• Condensando: se organizan los datos de manera tal que
la información puede ser interpretada de manera ágil e
intuitiva

Se puede interpretar a los datos como los ingredientes básicos y el hecho de ordenarlos y transformarlos
sería el equivalente a preparar una receta.


Las computadoras nos permiten trabajar con muchísimos datos, darles valor y transformarlos en información,
pero una computadora en la mayoría de los casos es incapaz de presentar el contexto de dicha información.
Un problema muy común es confundir la información (o el conocimiento) con la tecnología que la soporta.
Desde la televisión a Internet, es importante tener en cuenta que el medio no es el mensaje. En palabras más
 simples, una imagen de una pipa no es una pipa, es una representación de una pipa.


Esto no es una pipa. Fuente:  Blog

Lo que se intercambia es más importante que el medio que se


usa para hacerlo. Muchas veces se comenta que tener un
teléfono no garantiza mantener conversaciones brillantes. En
definitiva, que actualmente tengamos acceso a más
tecnologías de la información no implica que hayamos
mejorado nuestro nivel de información.

Última modificación: domingo, 4 de julio de 2021, 19:23


Actividad previa
◄ 1.2 La importancia de los datos

 Ir a...

Siguiente actividad

1.4 A qué denominamos conocimiento ►


Mantente en contacto



http://civet.com.ar/

TEL.: 0810-666-1491

[email protected]




 Resumen de retención de datos

 Descargar la app para dispositivos móviles



13-92 Aproximaciones al Big Data - Santa Fe

Área personal Mis cursos 19-92santafe Clase 1 1.4 A qué denominamos conocimiento


1.4 A qué denominamos conocimiento


Para Davenport y Prusak (1999) el conocimiento es una mezcla de
 experiencia, valores, información y “saber hacer” que sirve como marco
para la incorporación de nuevas experiencias e información, yes útil para
la acción. Se origina y aplica en la mente de los conocedores. En las
 organizaciones con frecuencia no sólo se encuentra dentro de
documentos o almacenes de datos, sino que también esta en rutinas
 organizativas, procesos, prácticas, y normas. 

Lo que inmediatamente deja claro la definición es que ese conocimiento no es simple. Es una mezcla de
varios elementos; es un flujo al mismo tiempo que tiene una estructura formalizada; es intuitivo y difícil de
captar en palabras o de entender plenamente de forma lógica. El conocimiento existe dentro de las personas,
como parte de la complejidad humana y de nuestra impredictibilidad. Aunque solemos pensar en activos
definibles y concretos, los activos de conocimiento son mucho más difíciles de manejar. El conocimiento
puede ser visto como un proceso (flujo) o como algo acumulado. 

El conocimiento se deriva de la información, así como


la información se deriva de los datos.

Para que la información se convierte en conocimiento, las


personas deben hacer prácticamente todo el trabajo. Esta
transformación se produce gracias a: 

• Comparación.
• Consecuencias. 
• Conexiones. 
• Conversación. 

Estas actividades de creación de conocimiento tienen lugar


dentro y entre personas. Al igual que encontramos datos
en registros, e información en mensajes, podemos
obtenemos conocimiento de individuos, grupos de
conocimiento, o incluso en rutinas organizativas.

Masividad del dato


Durante las últimas décadas, el avance de la informática junto al desarrollo de herramientas de muestreo nos
da la posibilidad de obtener cantidades de información que serían totalmente impensables hace siquiera 50
años. La cantidad de fuentes de información, y la cantidad absoluta de datos generados por las mismas son
colosales, y continúan aumentando día a día. Toda esta cantidad de datos nos permite hacer vastos análisis
para comprender la realidad y buscar la manera de mejorarla con los conocimientos aprendidos en base a
estos datos. 

 


Datos-Información-Conocimiento.


Fuente: Elaboración propia.

En el gráfico presentado se puede apreciar el proceso antes mencionado, de cómo los datos obtenidos por
muestreos pueden ser de utilidad mediante el orden de los mismos, para luego ser interpretados de manera
eficiente

En este diagrama tomamos, de manera demostrativa los datos de la performance estudiantil (colegio al que
pertenecen, calificaciones, ausencias) de los estudiantes de una región determinada que permitirían
determinar la calidad de los planes de estudio y en caso de detectar problemas y/o insuficiencias, de poder
diseñar un plan más efectivo. Este es solo uno de los ejemplos posibles de situaciones aplicables, cualquier
organización tanto empresarial como gubernamental podría utilizar estas herramientas para tomar
decisiones y lograr resultados notoriamente positivos.

Cabe destacar que, aunque todo el mundo puede hacer un análisis


general de los datos que se encuentra de manera cotidiana, solo los que
tienen un cierto nivel de recursos puede llegar a hacer análisis
exhaustivos de diferentes contenidos y situaciones en un tiempo
razonable. Esto plantea una dificultad y un desafío al que varias
estructuras están trabajando para poder optimizar el proceso de
muestreo y análisis y superar estos obstáculos, o por lo menos mitigar el
impacto de los mismos. 

A lo largo de la historia de la civilización humana siempre hubo registro


de eventos de diferentes maneras y métodos, pero en los últimos
tiempos la cantidad de datos que se registran es un monstruo de una
escala completamente diferente. Este crecimiento de los datos
registrados va a la par del avance tecnológico, el cual se encuentra
constantemente desarrollando equipamiento para facilitar el
almacenamiento de estos datos. Estos crecimientos, en los últimos años
fueron creciendo de manera exponencial, y probablemente continuarán
creciendo con el paso de los años por venir.


Última modificación: domingo, 4 de julio de 2021, 19:23

Actividad previa
◄ 1.3 ¿Qué es la información?

Ir a...

Siguiente actividad
1.6 La escala del dato virtual ►


Mantente en contacto



http://civet.com.ar/

TEL.: 0810-666-1491

[email protected]





 Resumen de retención de datos

 Descargar la app para dispositivos móviles



13-92 Aproximaciones al Big Data - Santa Fe

Área personal Mis cursos 19-92santafe Clase 1 1.6 La escala del dato virtual


1.6 La escala del dato virtual

Los sistemas informáticos para poder trabajar utilizan una unidad de almacenamiento llamada byte. Un
 byte está compuesto por un conjunto de 8 bits.


Un bit es una unidad mínima de información que trabaja sobre un
 sistema matemático binario, es decir, sus valores posibles son 0 o 1. En
base a esto, un byte puede almacenar 256 (28) posibles valores
 diferentes.

Con el paso del tiempo, el almacenamiento de datos fue aumentando, por lo que se desarrollaron unidades
superiores al byte, siendo múltiplos del mismo. A continuación se puede apreciar una gráfica de las escalas
entre las diferentes escalas:


Hagamos un ejercicio mental para darnos una
idea de la escala de datos. En general:

• Una imagen de buena calidad puede pesar entre 2
 MB a 30MB, en caso de que tenga una alta resolución.
• Los archivos de texto plano apenas pesan un par de
 cientos de KB y pueden poseer cantidades enormes
de texto, fácilmente libros enteros, sin que su peso
 crezca demasiado.
• Una canción en MP3 puede pesar entre 3 y 15 MB
 dependiendo del largo y el bitrate.
• Una película en resolución 4K puede llegar a pesar
 unos 100GB
• Una computadora estándar hoy día, suele almacenar

alrededor de 1TB.

 Estos valores suenan normales, ¿no? Bueno, Google, el


conocido buscador, procesa una cantidad superior a 20
 petabytes(si, petabytes) por día de pura información. Y
este valor aumenta día a día, a medida que las
tecnologías avanzan y más personas obtienen acceso a
internet. Esto hace que se requiera cada vez más y más
un mecanismo que permita obtener las muestras y
analizarlas rápidamente para poder obtener
conocimiento a un ritmo que permita actuar sobre estos
datos en tiempo y forma, de manera de no estar
desactualizado.

Última modificación: domingo, 4 de julio de 2021, 19:23

Actividad previa
◄ 1.4 A qué denominamos conocimiento

Ir a...

Siguiente actividad
1.7 El origen de los datos ►


Mantente en contacto



http://civet.com.ar/

TEL.: 0810-666-1491

[email protected]





 Resumen de retención de datos

 Descargar la app para dispositivos móviles



13-92 Aproximaciones al Big Data - Santa Fe

Área personal Mis cursos 19-92santafe Clase 1 1.7 El origen de los datos


1.7 El origen de los datos

Ya se habló de los datos y de la cantidad de datos que fluyen hoy día. La cuestión actual es el cómo se
 consiguen estos datos. Hay múltiples fuentes en internet y por fuera de internet, las cuales presentan tipos
variados de datos. Esta heterogeneidad de formato de datos requiere un procesamiento previo, que puede
 incluir filtros y/o conversiones de los datos. Hay tanto formatos analógicos de obtención de datos como
formatos digitales, pero a la hora de trabajar grandes cantidades de datos, se recomienda migrar los datos
 analógicos a digitales, si es posible.

Posibles fuentes de datos.

Fuente: Curso ciencia de datos UNTREF.

Hay empresas dedicadas específicamente a la recopilación y


presentación de datos, que brindan sus servicios a organizaciones y/o
empresas, las cuales requieren del uso de datos, pero no poseen o no
consideran conveniente poseer los recursos para hacer el proceso por
ellas mismas.

Incluso las propias redes sociales brindan muestras de datos para


aquellos que quieran hacer estudios de menor escala. Twitter es un
buen ejemplo al permitir obtener una muestra de datos que permiten
hacer diferentes análisis.


 Última modificación: domingo, 4 de julio de 2021, 19:23

Actividad previa
◄ 1.6 La escala del dato virtual

Ir a...

Siguiente actividad
1.8 Moralidad de la obtención de datos ►

Mantente en contacto


http://civet.com.ar/

TEL.: 0810-666-1491

[email protected]




 Resumen de retención de datos

 Descargar la app para dispositivos móviles



13-92 Aproximaciones al Big Data - Santa Fe

Área personal Mis cursos 19-92santafe Clase 1 1.8 Moralidad de la obtención de datos


1.8 Moralidad de la obtención de datos

En el mundo virtual, muchas de las grandes empresas, para mantenerse y crecer en el mercado, utilizan
 grandes cantidades de datos de los individuos, para poder formar un entorno alrededor de los mismos, que
produzca un resultado beneficioso para la empresa. Muchas de estas empresas utilizan métodos de
 dudosa transparencia para obtener los datos, entre ellas siendo extremadamente vagas con sus políticas
de privacidad, u ofuscando la ubicación de las opciones de seguimiento, y teniéndose activadas por
 defecto.


Esto conlleva un análisis profundo sobre dónde se debería dibujar la
línea donde termina la privacidad de un individuo y dónde comienza la
extracción de datos. Por ejemplo, ¿qué tan moral sería que una
empresa registre con detalle los lugares físicos donde estuviste, cuánto
tiempo estuviste y  qué cosas compraste? Suena paranoide, pero con
que tengas un celular en el bolsillo, es muy posible que al menos
alguna aplicación esté recopilando algún dato sobre vos.

La moralidad del muestreo de datos sigue siendo un tópico debatido fuertemente. Las empresas actúan en
base al conocimiento obtenido para obtener resultados óptimos para ellas, pero esos resultados, ¿Son
realmente óptimos para el individuo analizado, o puede tener efectos secundarios sobre el mismo?. Estas
son preguntas que se siguen debatiendo al día de hoy, y con el avance tecnológico actual, el muestreo
profundo sobre un individuo se hace cada vez más fácil.

Nota para leer

“Las redes sociales van cambiando nuestras


personalidades, cambiando lo que somos”- Martin Hilbert.

• La Nación

Las redes sociales son la mina explotable de datos por excelencia, y


como tales son las que mayor se encuentran en el foco de atención del
mercado de datos Aunque muchas prometan políticas de privacidad
decentes, muchas hacen tratos por debajo de la mesa, ya sea con
empresas privadas, o tratos con el gobierno y/o la milicia de diferentes
países.

Uno de los ejemplos más importantes de este tipo de dilemas fue el escándalo donde la consultora
Cambridge Analytica hizo uso de millones de datos personales de usuarios de Facebook y los utilizó con
fines político-comerciales violando completamente las políticas de uso. ¿Cuáles fueron los objetivos y
consecuencias de este accionar? Generar un ambiente personalizado para los individuos afectados,
explotando las disconformidades y enojo de los afectados, en el cual éstos terminen votando a favor del
ahora ex presidente Donald Trump, y a favor del Brexit (la salida del Reino Unido de la unión europea).

Nota para leer

Para más información, acá hay un enlace a una nota donde


 explaya en detalle:

•  el incidente

Fuente: OVRIK.

Última modificación: domingo, 4 de julio de 2021, 19:24

Actividad previa
◄ 1.7 El origen de los datos

Ir a...

Siguiente actividad
1.9 Moralidad del objetivo del análisis ►


Mantente en contacto



http://civet.com.ar/


TEL.: 0810-666-1491

[email protected]






 Resumen de retención de datos

 Descargar la app para dispositivos móviles



13-92 Aproximaciones al Big Data - Santa Fe

Área personal Mis cursos 19-92santafe Clase 1 1.9 Moralidad del objetivo del análisis


1.9 Moralidad del objetivo del análisis

Como se pudo apreciar en el ejemplo anterior, no solo el método de obtención de datos incumple las políticas
 de privacidad de los individuos, si no que el objetivo detrás del muestreo fue totalmente corrupto. Intentar
disuadir a la gente utilizando datos personales para que voten a un candidato en específico y/o que voten a
 favor del Brexit raya en lo corrupto, amoral y potencialmente ilegal.

 La moralidad de un análisis de datos no solo


abarca la moralidad del objetivo en sí, si no las
posibles consecuencias llegado el caso de que el
análisis sea completamente erróneo debido a
factores no contemplados durante la toma de
datos. Los falsos positivos y los falsos negativos a
la hora de obtener resultados pesan fuerte sobre
la moral.
Un ejemplo realmente importante del riesgo que puede
causar un análisis mal orientado y con posibles
consecuencias severas, es el caso del paper lanzado en
2016 por los investigadores chinos Xiaolin Wu y Xi Zhang.
El título del mismo es "La inferencia automatizada de la
criminalidad mediante el uso de imágenes faciales". En
este paper, mediante un análisis profundo de datos en
formato de imagen, analizado por una inteligencia
artificial de reconocimiento facial, se generó un algoritmo
que podía determinar cuáles eran rasgos faciales que
podían determinar la criminabilidad de un individuo.

Un paper con un impacto tan serio propone un riesgo enorme. Las posibles consecuencias de que ese
algoritmo genere un número alto de falsos positivos causaría que mucha gente inocente sea erróneamente
etiquetada como potencial delincuente, y de que dé falsos negativos, dejando pasar criminales como gente
inocente. Y dicho y hecho, el algoritmo terminó teniendo un margen de error enorme, producto de un
muestreo enormemente sesgado.

Lo que sucedió es que, las muestras utilizadas eran fotos frontales de varios individuos, varios con el legajo
limpio y otros con delitos a su nombre(de este último grupo, la mayoría eran delitos no violentos). Las fotos de
los “inocentes” fueron tomadas como cualquier foto cotidiana para un perfil laboral, mientras que las fotos de
lo “delincuentes” fueron proporcionadas por la fuerza policial.



 

 Ejemplos de muestras utilizadas en el paper de Xiaolin Wu y Xi Zhang.

 Fuente: CallingBS

Aunque suene ridículo y obvio, las situaciones en las que se sacaron las fotos difieren enormemente, mientras
 que un grupo estaba en un contexto relajado, el otro grupo se encontraba en un ambiente tenso durante la
toma de fotos. Un análisis exhaustivo de este algoritmo demostró al final que los “patrones de delincuente”
identificados eran expresiones de gente cansada, enojada y estresada, lo cual, hubiese generado falsos
positivos en todo aquél que haya tenido un mal día de trabajo y lo hayan hecho pasar por la identificación
facial.

Esta situación demuestra enormemente que se tiene que procesar


con delicadeza el conjunto de datos a trabajar y a analizar, con qué
objetivos, y las posibles consecuencias de las acciones tomadas en
base a los resultados.
Debido a todos estos ejemplos dados, uno debe estar consciente del
posible impacto del análisis de datos y las acciones tomadas en base
al mismo. Es una herramienta poderosa, y toda herramienta
poderosa es capaz de dañar si se usa de manera errónea y/o
maliciosa. Esto no implica que uno tenga que tenerle miedo al
análisis, al contrario, uno tiene que ver el potencial de la herramienta
y cómo utilizarla, pero nunca olvidarse del alcance y con
consecuencias inesperadas

Referencias bibliográficas

https://www.lanacion.com.ar/el-mundo/martin-hilbert-corremos-el-riesgo-de-que-la-
humanidad-deje-de-existir-nid20062021/

https://www.infobae.com/america/tecno/2018/03/20/7-datos-para-entender-el-
escandalo-de-facebook-y-cambridge-analytica/

https://www.callingbullshit.org/case_studies/case_study_criminal_machine_learning.html

http://iibi.unam.mx/voutssasmt/documentos/dato%20informacion%20conocimiento.pdf



Actividad previa
◄ 1.8 Moralidad de la obtención de datos
Última modificación: domingo, 4 de julio de 2021, 19:24

Ir a...

Siguiente actividad
Actividad obligatoria de la clase 1 ►

Mantente en contacto


http://civet.com.ar/

TEL.: 0810-666-1491

[email protected]




 Resumen de retención de datos

 Descargar la app para dispositivos móviles

También podría gustarte