Introduccion Al Big Data
Introduccion Al Big Data
Introduccion Al Big Data
Introduccin
El fenmeno complejo que identificamos como big data tiene sus races en las
nuevas capacidades de gestionar grandes conjuntos de datos digitales, que se
basan en una potencia de almacenamiento y procesamiento habitualmente
superior a la de un solo ordenador. Una vez generadas las condiciones para
procesar la abundante informacin procedente de todo tipo de prcticas sociales,
la puesta en marcha de estudios que se derivan de aplicar el big data en la vida
cotidiana requiere comprender este fenmeno como algo ms que un artefacto
tecnolgico.
Otras interpretaciones consideran que el fenmeno del big data es ms bien una
moda, otra ms en el marco de la llamada narrativa de Silicon Valley (Weller,
2015). En las ltimas dcadas la industria digital ha sido capaz de introducir en el
discurso social los argumentos en favor de sus intereses y este sera un nuevo
caso de xito. El discurso de Silicon Valley plantea que la aplicacin de una
determinada tecnologa considerada disruptiva en un sector concreto altera el
funcionamiento normal de ese sector beneficiando con ello al productor de la
tecnologa responsable del cambio, ya que en adelante la evolucin de dicho
sector depender de los avances en la industria tecnolgica. El big data se
explicara entonces como la aparicin de un nuevo servicio adecuado y dispuesto
para la comercializacin, cuyo desarrollo responde principalmente a los intereses
de la industria digital y no a los objetivos de los diversos sectores de la sociedad
donde se aplica la gestin de los datos.
La educacin es un mbito propicio para experimentar los relatos sobre el big data
y analizar el alcance de los nuevos enfoques vinculados al anlisis de datos
masivos. El intercambio y la adquisicin de conocimientos en espacios digitales es
creciente. Y con ello se abre la posibilidad a utilizar la explosin masiva de
informacin que se genera en esos espacios para mejorar el aprendizaje y, en
general, para apoyar la investigacin bsica sobre los procesos de enseanza.
Mtodos como la minera de datos y las tcnicas de anlisis del aprendizaje
basadas en esos datos, han proliferado especialmente a partir de la expansin de
los llamados cursos abiertos masivos online MOOC, por sus siglas en ingls.
Al igual que ocurre en otros muchos sectores que trabajan con big data, uno de los
elementos ms controvertidos de la gestin de datos en el mbito educativo es
precisamente todo lo relacionado con su recopilacin, anlisis y las diversas
formas de utilizacin, incluida su monetizacin. La mayor parte de los educadores
y estudiantes no es consciente de la cantidad de clasificacin algortmica directa
que puede producirse en los procesos educativos mediados digitalmente. El
anlisis y la clasificacin de los estudiantes comienza mucho antes de su acceso a
la universidad, o de que los padres elijan un centro educativo. A partir del cdigo
postal de un candidato es posible establecer su probabilidad de xito en los
estudios. Los sistemas de recomendacin sugieren los siguientes cursos que
vendran bien al estudiante. Una vez en el curso, el uso de las herramientas
digitales produce modelos predictivos que en general suelen resultar adecuados.
Se sugieren recursos de ayuda y apoyo para los estudiantes en situacin de
riesgo potencial. Y todo esto sucede detrs de la pantalla, en el sistema de gestin
del curso, donde los algoritmos, adecuadamente estructurados y diseados a
partir del conjunto de valores que el administrador ha asociado a los procesos de
organizacin y seleccin de datos, procesan el flujo de entrada y salida de la
informacin tratando de condicionar directa o indirectamente una amplia gama de
las prcticas de los estudiantes.
Los algoritmos actan sobre la mayor parte de las prcticas educativas cuando es-
tas se dan en escenarios mediados digitalmente y sometidos al control de actores
principales. Su programacin incorpora enfoques pedaggicos ms o menos rudi-
mentarios que determinan aspectos bsicos que aparentemente no tienen ese
mismo nivel de condicionante valorativo, pero que resultan decisivos como sucede
con el diseo de las funciones de apoyo o las actividades de estudio. Algunos
agentes educativos estn comenzando a utilizar los datos masivos procedentes de
la comunidad para codificar y disear los modelos de la educacin de los prximos
aos. Las investigaciones se realizan principalmente desde la llamada analtica de
aprendizaje learning analytics, una disciplina que crece sometida a una
permanente redefinicin de sus bases ticas y epistmicas (Borgman, 2015;
Metcalf, Crawford & Keller, 2016; Tijerina, 2016). La aplicacin de esta disciplina,
el diseo de los estudios y los resultados obtenidos a travs de esos mtodos
estn generando una serie de tensiones, que han derivado en dos grandes
narrativas.
De una parte, una posicin maximalista respecto a las posibilidades abiertas por el
big data, que conduce al intento de medir y contabilizar cualquier actividad conec-
tada directa o indirectamente con el aprendizaje. Es la posicin principal defendida
por la industria de la tecnologa educativa e incluso por algunos gobiernos
(Kamenetz, 2015), que insiste en las nuevas capacidades de gestin que surgen
cuando es posible disponer masivamente de datos directos de los estudiantes. Su
principal argumento es que el anlisis de los datos obtenidos en situaciones de
aprendizaje resulta clave para desbloquear la caja negra de la mente humana,
mejorar con ello los procesos educativos haciendo que el aprendizaje sea ms
eficiente y, a partir de esos datos y su anlisis, permitir tomar decisiones mejor
informadas (Cuban, 2015; Westervelt, 2015). Se trata de un enfoque que asume
un modelo determinista de la accin humana que se sustenta en la supuesta
posibilidad de que los agentes puedan optimizar una serie de variables
predefinidas que condicionan su conducta. Desde luego, en paralelo a esta actitud
maximalista se genera una fuerte preocupacin por los posibles abusos de una
gestin educativa basada en datos, puesto que su recoleccin es demasiado
amplia, pretende recoger todo tipo de datos y puede suponer una violacin de la
privacidad. Sin olvidar que el simple almacenamiento de datos conlleva riesgos de
seguridad, al tiempo que su anlisis y uso propicia la consolidacin de un entorno
de control y vigilancia algortmica (Watters, 2015).
De otra parte, en abierto contraste con los modelos tradicionales de la teora eco-
nmica, que sugieren la optimizacin de una funcin de utilidad ajustada a las pro-
pias preferencias, se proponen otras aproximaciones menos exigentes que tienen
en cuenta las prcticas efectivas de los sujetos y apuestan por esquemas valorati-
vos explcitos. Estos enfoques tratan de satisfacer conjuntamente algunas
variables buscando un equilibrio aunque sea inestable que permita avanzar
en la accin con menos costes informativos y en una senda de eficiencia
reversible y corregible con sujetos activos (Echeverra & lvarez, 2008). En esta
lnea aparecen las alternativas que plantean avanzar en los estudios de la
analtica de aprendizaje con el fin de comprender el comportamiento de los
estudiantes en espacios digitales. Se parte de la asuncin de que los grandes
conjuntos de datos, ya sea inherentemente o en virtud de su tamao, no poseen
respuestas directas a las preguntas ms interesantes. Por ejemplo, en el caso de
los MOOC hay pocos estudios que hagan afirmaciones slidas sobre el
aprendizaje de los estudiantes y menos an sobre los pequeos elementos
didcticos que generan mejores aprendizajes. En palabras de Justin Reich (2015,
34), tenemos terabytes de datos sobre dnde han hecho clic los estudiantes y
muy poca comprensin de lo que ha cambiado en sus cabezas.
3. Deslizamiento de las categoras analticas
La posibilidad de acceder a bases de datos que contienen abundante informacin
sobre el comportamiento de los usuarios en plataformas digitales de aprendizaje
abre nuevas lneas a la investigacin educativa. Las tcnicas de anlisis de big
data proporcionan a los investigadores la informacin necesaria para monitorizar
la totalidad de los comportamientos que son posibles en un sistema digital. Esta
circunstancia ampla el rango clsico de la investigacin educativa, incorporando
de forma creciente las visiones procedentes de otras disciplinas como la economa
o la antropologa, y desde luego el enfoque propio de la informtica.
Desde la aparicin de la llamada computacin personal, la informtica se ha
convertido en una disciplina de marcado carcter aplicado que trata de plantear
soluciones ante situaciones sociales de todo tipo. Los requisitos de la
programacin ocupan un lugar central en la mayora de estudios que requieren del
procesamiento de grandes volmenes de datos. Su prevalencia llega al punto de
condicionar los mtodos y la forma de plantear cualquier investigacin basada en
datos. Esta situacin, unida a algunos otros factores, hace que abunde el uso de
metforas procedentes de las ciencias de la computacin aplicadas para la
interpretacin de fenmenos propios de las disciplinas de carcter social1. Se trata
de un giro que est afectando especialmente a las dimensiones analticas que
sirven de base a la investigacin educativa en contextos digitales.
En el campo de la teora de la argumentacin se denomina argumento resbaladizo
a las instancias de un esquema argumental en el que una parte afirma que un re-
sultado particular se da probablemente o incluso inevitablemente a partir de la
aceptacin de un argumento previo. Se apoya en un abuso de la analoga del
tenor siguiente: las diferencias son pequeas, por lo tanto no importan las
diferencias. Como ha sealado Carlos Pereda (1994, 274), ello es falso,
diferencias poco importantes son, pese a todo, diferencias y adems, acumuladas,
a menudo suelen conformar diferencias importantes. El argumento resbaladizo
trata de justificar un posible efecto domin: propone un pequeo primer paso y
mediante una cadena argumentativa conduce a una serie de eventos relacionados
que culminan con un efecto significativo, por lo general negativo. Tambin se
asemeja al pequeo empujn dado a un objeto en el borde de una pendiente y
que hace que se deslice hasta la parte inferior.
Uno de los efectos negativos del uso falaz de esta figura retrica reside en la li-
nealidad acumulativa que lleva a reformular el contexto argumental y que puede
desvirtuar el sentido inicial de la discusin alrededor de un tema (Volokh, 2003).
La introduccin en el anlisis de fenmenos sociales de determinados
significantes a travs de metforas y marcos analticos procedentes de la
informtica, as como el nfasis en los modelos deterministas y optimizadores
basados en construcciones apriorsticas sobre la eficacia de la educacin y la
calidad de la instruccin algortmica referidos en el apartado anterior, puede
estar propiciando un efecto que equivale en sus consecuencias al de los
argumentos resbaladizos. Una de esas consecuencias sera el desplazamiento de
las categoras y dimensiones analticas en la investigacin sobre el aprendizaje en
espacios digitales. Por ejemplo, se procede a identificar de un modo directo el
aprendizaje con los comportamientos que suceden durante la adquisicin de
nuevos conocimientos, de tal modo que un registro de esos comportamientos
como el acceso a un foro digital, la consulta de un video, la descarga de un
material de aprendizaje, etc. se propone como la medida para valorar el
aprendizaje en su conjunto, obviando que este es un fenmeno mucho ms
complejo de evaluar (Gil-Jaurena, 2013). En este caso, el comportamiento en el
sentido de hacer un clic en un entorno digital se convierte en la dimensin ana-
ltica, deslizando al aprendizaje como la dimensin realmente relevante que
debera de ser objeto de anlisis.
Consideremos cuatro estudios llevados a cabo en las plataformas Udacity, Khan
Academy, Google Course Builder y EdX (Collins, 2013; Murphy et al., 2014; Reich
et al., 2014; Wilkowski, Deutsch & Russell, 2014). Cada estudio abord una
correlacin entre las medidas de xito por ejemplo, las puntuaciones en los test
de evaluacin o la tasa de finalizacin de un curso y las medidas de la actividad
de los estudiantes. Los cuatro estudios trataron de registrar los datos de la
actividad de un modo parecido, reduciendo la enorme cantidad de datos
disponibles a una simple variable aplicable a una persona: el nmero de
problemas intentados (Udacity), los minutos de permanencia en el sitio (Khan
Academy), la tasa de finalizacin semanal (Google), o el nmero de clics por
estudiante registrados en una sesin (EdX). A travs de comparaciones simples o
de regresiones, los cuatro llegaron a la conclusin de que existe una correlacin
positiva entre la actividad de los estudiantes y el xito. Un resultado altamente
probable para el que seguramente no hara falta tanta parafernalia.
Ese tipo de estudios ponen de manifiesto la dificultad que tienen los anlisis
basados en datos masivos para informar acerca de la complejidad de la actividad
del estudiante. No es necesario analizar miles de registros de las entradas a un
curso digital para demostrar que el esfuerzo del estudiante se correlaciona con el
rendimiento. Lo que no es tan claro es el vnculo causal entre hacer, hacer ms y
hacerlo mejor (Reich, 2015). Y sin embargo, ms all de exhortar a los estudiantes
a ser ms activos en un curso digital, no se estn planteando nuevas formas de
re-disear las secuencias de aprendizaje a partir de los datos obtenidos. De
manera que la prxima generacin de estudios en este terreno necesita adoptar
una gama ms amplia de diseos de investigacin, que presten una mayor
atencin a los factores causales y funcionales que promueven el aprendizaje del
estudiante. Para lo que ser necesario crear nuevas herramientas que ayuden a
organizar y seleccionar la gran cantidad de datos que es posible analizar mediante
el registro de la actividad digital de los estudiantes.
4. Racionalidad acotada, atajos cognitivos y educacin
La evolucin de las ciencias del comportamiento est abriendo nuevos escenarios
para la investigacin sobre el anlisis de las acciones sociales cotidianas. En el
campo educativo actualmente existe una amplia gama de enfoques interpretativos
que se definen a partir de las prcticas sociales de los estudiantes, y cuya
consideracin permite ampliar el rango de la investigacin tratando de evitar el
determinismo en el establecimiento de las dimensiones analticas. Es el caso de
las teoras de la racionalidad, que se alejan de modelos formales optimizadores de
la accin e intentan explicar el comportamiento efectivo de las personas durante la
toma de decisiones relativas a la ejecucin de acciones (lvarez, 2002). Entre
otros temas plantean que, en los escenarios de prctica real, a diferencia de los
modelos de laboratorio, se presentan mltiples variables que afectan a las
acciones a realizar y, en esos casos, las personas aplican mecanismos de
decisin rpida y poco costosos informativamente hablando, denominados
heursticos, con los que tratan de adaptarse y explotar en su beneficio los
requerimientos del ambiente (March, 2002; Evans, 2006; Gigerenzer &
Gaissmaier, 2011).
La caracterizacin de los heursticos que se considera en este texto es la propia
del modelo de la racionalidad acotada (Kahneman, 2003 & 2012; Klaes & Sent,
2005; Echeverra & lvarez, 2008) y que tambin se corresponde con las
propuestas desarrolladas en el campo de la ciencia cognitiva (Hutchins, 1995). De
acuerdo con Gerd Gigerenzer & Reinhard Selten (2001), para la racionalidad
acotada las acciones son racionales a tenor del modo en el que el individuo es
capaz de sacar un buen partido a la estructura de accin en la que se encuentra,
teniendo en cuenta las restricciones contextuales e informativas en las que se
produce la accin. Por su parte, los heursticos son atajos cognitivos que
permiten a los individuos realizar evaluaciones de una situacin sobre la base de
una o varias reglas bsicas, evitando as los costes relacionados con una
exploracin exhaustiva de un conjunto amplio y complejo de opciones y, a su vez,
admitiendo las circunstancias que surgen en el contexto. La ventaja de la
racionalidad acotada y los heursticos es que ambas teoras explican
sencillamente cmo las personas pueden buscar las opciones adecuadas de
forma rpida, fructfera y en funcin del ambiente. Cuando un sujeto utiliza un
heurstico evita el esfuerzo de buscar, conocer y valorar todas las opciones
posibles en un contexto en el que stas no estn a nuestra disposicin con
facilidad (Robles, 2007).
En educacin los heursticos han sido utilizados frecuentemente como recurso
metodolgico en disciplinas que demandan una alta capacidad cognitiva y meta-
cognitiva (p.e. aplicado al caso de las matemticas: Chvez, 2007; Hoon, Kor &
Singh, 2013). A su vez las teoras del aprendizaje tambin recurren habitualmente
a modelos y frameworks con fines analticos, como una forma de operativizar las
variables relacionadas con el comportamiento de los sujetos y explicar su
funcionamiento en situaciones concretas. Por ejemplo, en el campo especfico del
aprendizaje conectado en espacios digitales, el uso de heursticos y frameworks
se ha empleado en numerosas ocasiones para analizar los procesos relacionados
con el comportamiento de los estudiantes en situaciones mediadas
tecnolgicamente (Conole, Galley & Culver, 2010; Domnguez & Trillo, 2014;
Wang, Chen & Anderson, 2014).