Taller de Análisis textual con Sketch Engine
Herramientas Digitales para el análisis de textos, 2023 – Escuela de Doctorado - UCM
Ana Fernández-Pampillón Cesteros
[email protected] https://www.ucm.es/afpc/
Taller de Análisis textual con Sketch Engine
Objetivo del taller:
Conocer la herramienta de análisis textual Sketch Engine con el fin de
poder aplicarla a las diferentes líneas de investigación filológica: en
lingüística, la enseñanza del español como primera y segunda lengua, la
gestión terminológica o la traducción (entre otras).
Bibliografía de apoyo:
• La propia guía de SketchEngine
• Taller de Sketch Engine (buscar última actualización):
https://eprints.ucm.es/id/eprint/13796/
• Taller de Sketch Engine (parte 1): https://youtu.be/rLNs2UUVHB8
• Taller de Sketch Engine (parte 2): https://youtu.be/MDu7pwNgfwA
• Taller de Sketch Engine (parte 3): https://youtu.be/Cac6poj7VU8
Taller de Análisis textual con SketchEngine
• Alta en la plataforma (Sign up)
• Licencia 30 días gratuita
• Licencia institucional
Taller de Análisis textual con Sketch Engine
1. Qué es Sketch Engine y para qué sirve
2. Explorar corpus (consultas)
i. El continente: tipos de corpus, datos del corpus
ii. El contenido
i. Exploración global: lista palabras-frecuencias, n-gramas, palabras clave
ii. Exploración focalizada mediante consultas predefinidas: concordancias, relaciones
gramaticales, tendencias
iii. Exploración focalizada mediante consultas personalizadas: CQL
iii. Creación de recursos léxicos: tesauros, GDEX, vocabularios
3. Crear un corpus
i. De texto puro
ii. Etiquetado
iii. Con subcorpus
Pasos
- Qué es - Corpus Global: Focalizado Tesauros - Sin patrones
- Para qué disponibles Recuento predefinido: GDEX sintácticos ni términos
sirve - Tipos de palabras, concordancias, Vocabularios - Con patrones
corpus relaciones
n-gramas, sintáticos y términos
- Datos del gramaticales,
corpus palabras clave tendencias - Con subcorpus
- Focalizado - Paralelo
personalizado
: CQL
3. Explorar el 4. Explorar el
1. Comprender 2. Comprender 5. Crear 6. Crear un
contenido del contenido de
Sketch Engine el corpus recursos léxicos corpus
corpus un corpus
1. Sketch Engine
• ¿Qué es?
Sketch Engine es una herramienta de análisis textual en línea
que recibe como entrada un corpus en cualquier idioma con,
posiblemente, un cierto nivel de anotación especializada para su
posterior análisis. Sketch Engine ofrece múltiples funciones para
el análisis filológico.
• ¿Para qué sirve?
- Para explorar el texto de manera semiautomática
- Para crear corpus
Pasos
- Qué es - Corpus Global: Focalizado Tesauros - De texto puro
- Para qué disponibles recuento predefinido: GDEX - Etiquetado
sirve - Tipos de palabras, concordancias, Vocabularios - Con subcorpus
corpus relaciones
n-gramas,
- Datos del gramaticales,
corpus palabras clave tendencias
- Focalizado
personalizado:
CQL
3. Explorar el 4. Explorar el
1. Comprender 2. Comprender 5. Crear 6. Crear un
contenido del contenido de
Sketch Engine el corpus recursos léxicos corpus
corpus un corpus
1. Sketch Engine
2. Comprender el
corpus
• Corpus disponibles
• Tipos de corpus
• Exploración del
corpus
En Sketch Engine:
1º Seleccionar corpus
2º Aparece el Tablero
1. Sketch Engine
2. Comprender el
corpus
• Corpus disponibles
• Externos
• Propios
• Compartidos
En Sketch Engine:
1º Seleccionar corpus
2º Aparece el Tablero
1. Sketch Engine
2. Comprender el
corpus
• Tipos de corpus según compilado:
• Texto etiquetado básico (estructura y morfo-sintáctico)
• Texto etiquetado completo (estructura, morfo-sintáctico,
sintáctico, terminológico)
• Con subcorpus
1. Sketch Engine
2. Comprender el
corpus
• ¿Cómo compila (=construye) SE un corpus?
Fuente (archivos txt, pdf, doc, html, …) Tokenizador Tokens
Analizador morfológico (FreeLing/TreeTagger/…) palabras + lemas + etiquetas morfo-sintácticas
(archivo vertical txt con 8 columnas)
Etiquetas estructurales
Etiquetas lingüísticas
1. Sketch Engine
2. Comprender el
corpus
• ¿Cómo compila (=construye) SE un corpus?
Fuente (archivos texto) Tokenizador Tokens Analizador morfológico (+Gramática de términos)
palabras-lemas-pos-términos multipalabra)
Fuente (archivos texto) Tokenizador Tokens Analizador morfológico (+Gramática de términos)
palabras-lemas-pos (+términos multipalabra)Analizador sintáctico (Word Sketch Grammar)
palabras-lemas-pos-términos-patrones sintácticos de una palabra
1. Sketch Engine
2. Comprender el
corpus
• Tipos de corpus según compilado:
• Texto etiquetado básico (estructura y categoría-gramatical)
• Texto etiquetado completo (estructura, categoría-gramatical,
sintáctico, terminológico)
• Con subcorpus
1. Sketch Engine
2. Comprender el
corpus
• Tipos de corpus según la lengua
• Monolingüe
• Multilingüe paralelo
• Multilingüe comparable
+ Info. en: https://www.sketchengine.eu/corpora-and-languages/corpus-types/
1. Sketch Engine
2. Comprender el
corpus
• Tipos de corpus según la temporalidad
• Diacrónicos
• Sincrónicos
+ Info. en: https://www.sketchengine.eu/corpora-and-languages/corpus-types/
1. Sketch Engine
2. Comprender el
corpus
• Otros tipos en Sketch Engine:
• Referencia (estáticos) / monitor
• De aprendientes
• De errores
• Especializado
• Multimedia
+ Info. en: https://www.sketchengine.eu/corpora-and-languages/corpus-types/
1. Sketch Engine
2. Comprender el
corpus
• Corpus disponibles
• Tipos de corpus
• Exploración del corpus
En Sketch Engine:
1º Seleccionar corpus (CHILDES Spanish Corpus)
2º Aparece el Tablero
3º Seleccionar Corpus info
1. Sketch Engine
2. Comprender el
corpus
• Datos del corpus
Actividad: Elige CHILDES y esTenTen y obtén toda la información del corpus ¿cómo
ha sido compilado? ¿puedo usar wordSktech? ¿puedo extraer términos? ¿qué
elementos estructurales tiene (metadatos)
Pasos
- Qué es - Corpus Global: Focalizado Tesauros - De texto puro
- Para qué disponibles recuento predefinido: GDEX - Etiquetado
sirve - Tipos de palabras, concordancias, Vocabularios - Con subcorpus
corpus relaciones
n-gramas,
- Datos del gramaticales,
corpus palabras clave tendencias
- Focalizado
personalizado:
CQL
3. Explorar el 4. Explorar el
1. Comprender 2. Comprender 5. Crear 6. Crear un
contenido del contenido de
Sketch Engine el corpus recursos léxicos corpus
corpus un corpus
3. Explorar el
1. Sketch Engine
2. Comprender
el corpus contenido del
corpus
• Exploración global
• Recuento de palabras, n-gramas, palabras clave
3. Explorar el
1. Sketch Engine
2. Comprender
el corpus contenido del
corpus
• Exploración global
• recuento de palabras (word list)
• formas/lemas/etiquetas
• expresiones regulares
• n-gramas
• blacklist (no deben incluirse en el
recuento)
• whitelist (han de incluirse)
Pronombres
150
100
50
0
te
ellos
quien
todo
tú
uno
cuando
se
que
yo
qué
nadie
otro
ello
le
cómo
alguien
3. Explorar el
1. Sketch Engine
2. Comprender
el corpus contenido del
corpus
• Exploración global
• En corpus paralelos es semejante: elegir lengua origen,
buscar token o grupos de tokens, elegir lengua destino
(opcionalmente posible traducción)
4. Explorar el
1. Sketch Engine
2. Comprender
el corpus
3. Explorar el
contenido del corpus contenido de
un corpus
• Comodines (en búsqueda
simple)
• ? (0 o 1 carácter)
• * (0, 1 o más caracteres)
• | (or)
• -- (guión)
4. Explorar el
1. Sketch Engine
2. Comprender
el corpus
3. Explorar el
contenido del corpus contenido de
un corpus
• Expresiones regulares (lema, frase, forma) ¿qué palabras busco?
• Caracteres especiales: .i.*o
a(c|p).*(ba)*
• . (1 carácter) Ejemplo: (s.n) a(c|p).*(ba)+
• [a,e] (OR exclusivo) Ejemplo: com[a,e]
¿cómo encontrar los
• [^a,e] (NOT OR exclusivo Ejemplo: com[^a,e] verbos acabados en –er?
• | (OR) Ejemplo l(e|o) ¿y las interjecciones más
• ? (0 o 1 apariciones de algo) Ejemplo: les? frecuentes?
• * (0, 1 o más apariciones de algo) Ejemplo: per*o
• + (1 o más apariciones de algo) Ejemplo: per+o
• {3,4} (entre 3 y 4 repeticiones) Ejemplo: per{1,3}o
3. Explorar el
1. Sketch Engine
2. Comprender
el corpus contenido del
corpus
• Exploración global
• Palabras clave
Pasos
- Qué es - Corpus Global: Focalizado Tesauros - De texto puro
- Para qué disponibles recuento predefinido: GDEX - Etiquetado
sirve - Tipos de palabras, concordancias, Vocabularios - Con subcorpus
corpus relaciones
n-gramas,
- Datos del gramaticales,
corpus palabras clave tendencias
- Focalizado
personalizado
: ER, CQL
3. Explorar el 4. Explorar el
1. Comprender 2. Comprender 5. Crear 6. Crear un
contenido del contenido de
Sketch Engine el corpus recursos léxicos corpus
corpus un corpus
4. Explorar el
1. Sketch Engine
2. Comprender
el corpus
3. Explorar el
contenido del corpus contenido de
un corpus
• Exploración de concordancias
• ¿qué es?
• La lista de todas las apariciones de un
token con su contexto
• ¿para qué?
• ¿dónde?
• En todo el corpus o en subcorpus o en
Tipos de texto o en contextos determinados
• ¿Cómo?
• Simple
• Lema
• Frase
• Forma
• Carácter
• CQL
4. Explorar el
1. Sketch Engine
2. Comprender
el corpus
3. Explorar el
contenido del corpus contenido de
un corpus
• Exploración de concordancias
• ¿Cómo?
• Predefinido (con comodines)
• Expresiones Regulares
• CQL
4. Explorar el
1. Sketch Engine
2. Comprender
el corpus
3. Explorar el
contenido del corpus contenido de
un corpus
• ¿Cómo? concretamente
• Simple (comodines): una palabra, o grupo de palabras y devuelve todas sus formas (mayúsculas o
minúsculas). Ejemplo: hidalgo (hidalgo *)/ la?
• Lema (ER): todas las formas con una categoría gramatical determinada. Ejemplo: pronombres
personales 3 persona la, lo, le y sus plurales (ej. lo?|le?)
• Frase (ER): exactamente el sintagma o grupo de palabras (no todas las formas, ej. el molinero)
• Forma (ER): exactamente la forma y categoría gramatical (ej. molinero)
• Carácter: todas las palabras que incluyan la cadena de caracteres
• CQL: búsquedas de patrones de palabras por atributo-valor: [patrón1] [patrón2] ....
• Ejemplo: todas las formas que tengan como lema “estar” [lemma = "estar"]
• Ejemplo: [word=“la" & tag=“P.*"] ¿qué busco? (¿y singular y plural?)
• Ejemplo: todas las apariciones del verbo "deber" seguidas de un verbo en infinitivo :
[lemma ="deber"][tag ="VMN000.*"]
4. Explorar el
1. Sketch Engine
2. Comprender
el corpus
3. Explorar el
contenido del corpus contenido de
un corpus
• Comodines (en búsqueda
simple)
• ? (0 o 1 carácter)
• * (0, 1 o más caracteres)
• | (or)
• -- (guión)
4. Explorar el
1. Sketch Engine
2. Comprender
el corpus
3. Explorar el
contenido del corpus contenido de
un corpus
• Expresiones regulares (lema, frase, forma) ¿qué palabras busco?
• Caracteres especiales: .i.*o
a(c|p).*(ba)*
• . (1 carácter) Ejemplo: (s.n) a(c|p).*(ba)+
• [a,e] (OR exclusivo) Ejemplo: com[a,e]
¿cómo encontrar los
• [^a,e] (NOT OR exclusivo Ejemplo: com[^a,e] verbos acabados en –
aba?
• | (OR) Ejemplo l(e|o)
• ? (0 o 1 aparición) Ejemplo: les? ¿y las interjecciones más
frecuentes?
• * (0, 1 o más apariciones) Ejemplo: per*o
• + (1 o más apariciones) Ejemplo: per+o
• {3,4} (entre 3 y 4 repeticiones) Ejemplo: per{1,3}o
4. Explorar el
1. Sketch Engine
2. Comprender
el corpus
3. Explorar el
contenido del corpus contenido de
un corpus
• CQL (Corpus Query Language)
• [atributo=“valor”] [atributo=“valor”] ….
4. Explorar el
1. Sketch Engine
2. Comprender
el corpus
3. Explorar el
contenido del corpus contenido de
un corpus
• Exploración de relaciones gramaticales (Word Sketch)
• Se ordena por la puntuación (tiene en cuenta que los patrones sean
distintivos)
• Búsquedas en subcorpus
• Ejemplo: “decir” (busquemos los pronombres de objeto directo PP3.*)
4. Explorar el
1. Sketch Engine
2. Comprender
el corpus
3. Explorar el
contenido del corpus contenido de
un corpus
• Exploración de relaciones gramaticales (Diferencia Sketch)
• Compara colocaciones entre dos lemas o formas o un lema o forma en
subcorpus
4. Explorar el
1. Sketch Engine
2. Comprender
el corpus
3. Explorar el
contenido del corpus contenido de
un corpus
• Exploración de Tendencias (Trends)
• Compara las tendencias de uso de palabras en diferentes periodos
• El corpus tiene que estar organizado (metadatos) en intervalos temporales
• Ejemplo: Timestamped SJI Web Corpus
Pasos
- Qué es - Corpus Global: Focalizado Tesauros - De texto puro
- Para qué disponibles recuento predefinido: GDEX - Etiquetado
sirve - Tipos de palabras, concordancias, Vocabularios - Con subcorpus
corpus relaciones
n-gramas,
- Datos del gramaticales,
corpus palabras clave tendencias
- Focalizado
personalizado
: CQL
3. Explorar el 4. Explorar el
1. Comprender 2. Comprender 5. Crear 6. Crear un
contenido del contenido de
Sketch Engine el corpus recursos léxicos corpus
corpus un corpus
3. Explorar el 4. Explorar el
2. Comprender 5. Crear
1. Sketch Engine contenido del contenido de un
el corpus recursos léxicos
corpus corpus
• Tesauro
• GDEX
• Vocabularios
Adam Kilgarriff, Miloš Husák, Katy McAdam, Michael Rundell and Pavel
Rychlý (2008). GDEX: Automatically finding good dictionary examples in a
corpus. In Proceedings of the 13th EURALEX International Congress.
Spain, July 2008, pp. 425–432.
Pasos
- Qué es - Corpus Global: Focalizado Tesauros - De texto puro
- Para qué disponibles recuento predefinido: GDEX - Etiquetado
sirve - Tipos de palabras, concordancias, Vocabularios - Con subcorpus
corpus relaciones
n-gramas,
- Datos del gramaticales,
corpus palabras clave tendencias
- Focalizado
personalizado
: CQL
3. Explorar el 4. Explorar el
1. Comprender 2. Comprender 5. Crear 6. Crear un
contenido del contenido de
Sketch Engine el corpus recursos léxicos corpus
corpus un corpus
1. Sketch Engine
2. Comprender
3. Explorar el
contenido del
4. Explorar el
contenido de un
5. Crear 6. Crear
el corpus recursos léxicos
corpus corpus un corpus
Tarea 1. Crear un corpus etiquetado
• A partir de textos propios
• Descargarlo de internet
• Uso de palabras semilla
• Uso de URLs concretas
• Uso de un Website
1. Sketch Engine
2. Comprender
3. Explorar el
contenido del
4. Explorar el
contenido de un
5. Crear 6. Crear
el corpus recursos léxicos
corpus corpus un corpus
Tarea 1. Crear un corpus etiquetado
1. Crear corpus inicial
2. Descargar
3. Etiquetar
4. Volver a crear pero con el texto etiquetado
Tarea 2. Explorar el contenido (pasos 3 y 4)
- Qué es - Corpus Global: Focalizado Tesauros - De texto puro
- Para qué disponibles recuento predefinido: GDEX - Etiquetado
sirve - Tipos de palabras, concordancias, Vocabularios - Con subcorpus
corpus relaciones
n-gramas,
- Datos del gramaticales,
corpus palabras clave tendencias
- Focalizado
personalizado
: CQL
3. Explorar el 4. Explorar el
1. Comprender 2. Comprender 5. Crear 6. Crear un
contenido del contenido de
Sketch Engine el corpus recursos léxicos corpus
corpus un corpus
Tarea 3. Crear recursos léxicos (paso 5)
- Qué es - Corpus Global: Focalizado Tesauros - De texto puro
- Para qué disponibles recuento predefinido: GDEX - Etiquetado
sirve - Tipos de palabras, concordancias, Vocabularios - Con subcorpus
corpus relaciones
n-gramas,
- Datos del gramaticales,
corpus palabras clave tendencias
- Focalizado
personalizado
: CQL
3. Explorar el 4. Explorar el
1. Comprender 2. Comprender 5. Crear 6. Crear un
contenido del contenido de
Sketch Engine el corpus recursos léxicos corpus
corpus un corpus
Resumen de funciones trabajadas
-concordancias, KWIC, CQL
-concordancias paralelas
-Word Sketch
-Word Sketch Difference
-Word list
-Thesaurus
-N-grams
-GDEX (Good dictionary examples)
-Keywords
-Trends
-Creación de corpus propios
Gracias
Ana Fernández-Pampillón Cesteros
[email protected]https://www.ucm.es/afpc/