0% encontró este documento útil (0 votos)

57 vistas7 páginas

WebScraping WebCrawling

Este documento describe las técnicas de web scraping y web crawling para obtener datos de sitios web. El web crawling implica que un robot explora sistemáticamente sitios web siguiendo enlaces, mientras que el web scraping se enfoca en transformar datos no estructurados en datos estructurados. La biblioteca Beautiful Soup se utiliza comúnmente para web scraping en Python ya que permite extraer y transformar contenido web fácilmente. Los ejemplos muestran cómo utilizar Beautiful Soup para obtener enlaces de las páginas de Reddit y El Universal.

Cargado por

Nancy Grisell Ramirez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

57 vistas7 páginas

WebScraping WebCrawling

Cargado por

Nancy Grisell Ramirez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 7

Introducción a la

GEOINTELIGENCIA
COMPUTACIONAL

WEB SCRAPING y WEB CRAWLING

Derechos reservados © Centro de Investigación en

Ciencias de Información Geoespacial, A.C.
En este documento se revisan dos técnicas para la obtención de datos: Web Crawling y Web Scraping.

WEB SCRAPING y WEB CRAWLING

Web Crawling: Es un proceso por el cual un robot web navega sistemáticamente a través de internet
explorando webs y siguiendo links con el propósito de recoger el contenido web en otro sistema.
Todos los buscadores utilizan estos bots, llamados crawlers, para indexar las diferentes webs en sus
buscadores.

Web Scraping: Otro proceso que comparte las mismas características que el webcrawling pero que se
enfoca más en la transformación de datos sin estructura en la Web (como el formato HTML) en datos
estructurados que pueden ser almacenados y analizados en una base de datos central, en una hoja de
cálculo o en alguna otra fuente de almacenamiento.

Se puede pensar que el Web Crawler dirige al Web Scraper a través de la red para que pueda recabar
la información solicitada en un sistema de almacenamiento concreto. En otras palabras, el Web
Crawler explora la red en busca de sitios y el Web Scraper obtiene información de los sitios
seleccionados.

La combinación de los procesos de Data Crawling y Data Scraping sirve para mejorar las operaciones
y dotar de información que permite tomar decisiones que pueden resultar de gran impacto para
investigaciones de diversos temas.

La técnica del Web Scraping suele ser muy utilizada para obtener un gran volumen de información de
manera automatizada. Analizar esta información puede resultar muy útil en los procesos de toma de
decisiones ya que las fuentes pueden tener información de múltiples temas.

Otros posibles fines del Web Scraping pueden ser la automatización de tareas como, por ejemplo:
reserva de productos o servicios web, agregación de información bancaria, iniciación de pagos,
verificación de servicios Web.

En ocasiones estas dos técnicas se suelen confundir. Si bien, poseen una relación entre ambas y parte
de la técnica es similar, hay una diferencia muy marcada en cuanto a su metodología. En el caso de
Web Scraping, se conoce como el “raspado web” o bien “raspado de datos” y en el caso de Web
Crawling se conoce como el “rastreo web”.

Particularmente el “rastreo web” tiene que ver con el proceso de lograr ubicar diversos datos en
Internet y saber de qué link (hipervínculo) fueron obtenidos. Esta técnica, además, permite que se
guarden dichos links como parte del proceso de rastreo. El proceso de rastreo web se lleva a cabo con
un software que permite acceder a diversos sitios web, y luego, realizar una lectura de la página en
forma completa para crear un índice de motores de búsqueda. Los principales motores de búsqueda
del mercado que utilizan esta técnica son: Google o Bing, los cuales poseen un programa de este estilo,
lo que también se conoce más comúnmente como: “araña web” o "bot". Estos programas permiten
generar un índice para luego poder realizar consultas contra el índice generado, para así localizar
páginas web que coincidan con la consulta de filtros realizadas. Otro de los fines que se le puede dar

Derechos reservados © Centro de Investigación en

Ciencias de Información Geoespacial, A.C.
a este tipo de método es un uso de minería de datos para el análisis de diversas propiedades
estadísticas sobre los datos extraídos. Finalmente, se puede lograr un servicio más sofisticado de
monitoreo de datos para generar un aviso o alerta a los usuarios que requieran determinada
información del rastreo

En resumen, el rastreo web es el método que realizan los motores de búsqueda, es decir, se busca
cualquier tipo de información, en cambio, el raspado web está apuntado a determinados sitios web
específicos para localizar datos determinados.

Beautiful soup
La biblioteca Beautiful Soup permite extraer contenido y transformarlo en una lista, matriz o
diccionario de Python.

Esta biblioteca es muy popular porque tiene una documentación completa y sus funcionalidades están
bien estructuradas. Además, existe una gran comunidad que ofrece soluciones variadas para utilizar
esta biblioteca.

Es una biblioteca de Python para analizar documentos HTML (incluyendo los que tienen un marcado
incorrecto). Esta biblioteca crea un árbol con todos los elementos del documento y puede ser utilizado
para extraer información. Por lo tanto, esta biblioteca es útil para realizar Web Scraping.

EJEMPLO
Para entender mejor los conceptos mencionados anteriormente, revisa estos ejemplos. Para poder
realizarlos no es necesario instalar absolutamente nada, simplemente basta con contar con una
cuenta de Google (Gmail).

Lo primero que hay que hacer es, en el navegador, realizar la búsqueda de Google Colab. Sin entrar
en detalle, Google Colab (Google Colaboratory) es una plataforma que permite escribir y probar código
en Python sin la necesidad de instalar o configurar software adicional.

Derechos reservados © Centro de Investigación en

Ciencias de Información Geoespacial, A.C.
Una vez realizada la búsqueda, tendremos que seleccionar la opción que nos da acceso a la plataforma
(generalmente es el primer resultado de la lista), como se muestra a continuación.

Es posible que lo siguiente que veamos sea una ventana emergente que nos de la opción de crear un
nuevo cuaderno de trabajo.

De no ser así, podremos crear un nuevo cuaderno de trabajo seleccionando la opción destinada para
ello en el menú principal como se muestra en la siguiente imagen.

Lo que obtendremos como resultado es un cuaderno de trabajo vacío, en el cual tenemos la opción
de agregar celdas de código y celdas de texto. Agrega tantas celdas de código como sean necesarias
con el botón +Code. Si necesitas agregar algún comentario, es recomendable hacerlo en las celdas de
texto. Para agregar celdas de texto utiliza el botón +Text

Ya que hemos preparado el cuaderno de trabajo, en la primera celda de código escribe lo siguiente:
from bs4 import BeautifulSoup
import urllib.request

Lo que hemos hecho es “importar” la librería BeautifulSoup junto con algunos métodos que nos
permitirán extraer, a partir de un requerimiento (request), información de un sitio web mediante su
url.
Para este ejemplo obtendremos información del sitio de Reddit (México). Para ello crea una nueva
celda de código y escribe lo siguiente:
redditFile = urllib.request.urlopen('https://www.reddit.com/r/mexico/')
redditHtml = redditFile.read()
redditFile.close()

Derechos reservados © Centro de Investigación en

Ciencias de Información Geoespacial, A.C.
Como te darás cuenta, le hemos pedido a BeautifulSoup que acceda al sitio de Reddit mediate su url
('https://www.reddit.com/r/mexico/) y que almecene su contenido en un archivo (redditFile). Lo
siguiente fue leer ese archivo, transformar su contenido en un formato html y almacenarlo en
redditHtml y, finalmente, cerrar redditFile.
Dado que el contenido ya se encuentra en formato Html, podremos ahora buscar contenido dentro
de sus etiquetas. Una de las etiquetas de mayor interés son los enlaces que se encuentran en la página.
En html los enlaces se identifican por tener una etiqueta similar a:

<a href="URL">Hypervínculo</a>

Para encontrar todos los enlaces lo haremos con el siguiente código.

En una nueva celda escribe ahora:

soup = BeautifulSoup(redditHtml)
redittAll = soup.find_all('a')
for links in redittAll:
print(links.get('href'))

Lo que hemos hecho es identificar todas las etiquetas que comiencen con ‘a’ seguidas de ‘href’
Probemos el funcionamiento.
En cada una de las celdas que acabas de crear pulsa sobre el botón “play” que aparece del lado
izquierdo de cada celda.

El resultado que verás es una relación de enlaces (links) contenidos en la página de

'https://www.reddit.com/r/mexico/', sin embargo, no todos los enlaces dirigen hacia una nota o una
noticia, solo aquellas que contienen la palabra ‘comments’ dentro del enlace. Entonces, para “filtrar”
los enlaces con noticias haremos un pequeño cambio como se muestra a continuación. En una nueva
celda escribe lo siguiente y vuelve a ejecutar con el botón play.
soup = BeautifulSoup(redditHtml)
redittAll = soup.find_all('a')
for links in redittAll:
if 'comments' in links.get('href'):
print(links.get('href'))

La línea

if 'comments' in links.get('href'):

verifica que la palabra “comments” se encuentre dentro del enlace. De esta forma el resultado es un
poco diferente.

Ciencias de Información Geoespacial, A.C.
Hagamos un segundo ejemplo con el contenido de un periódico. En una nueva celda de código escribe
los siguiente:
UniversalFile = urllib.request.urlopen('https://www.eluniversal.com.mx/')
UniversalHtml = UniversalFile.read()
UniversalFile.close()

Eso nos permitirá tener acceso al contenido de la página web del periódico El Universal a través de su
url. Nota que el código es el mismo que el anterior (utilizado para Reddit) pero con unos pequeños
cambios. Ahora escribe, en una nueva celda lo siguiente:
soup = BeautifulSoup(UniversalHtml)
UniversalAll = soup.find_all('a')
for links in UniversalAll:
print(links.get('href'))

Como ya hemos visto, eso nos permite tener acceso a los enlaces dentro de una página, en este caso,
la página de El Universal.

Como verás, se genera una lista bastante extensa de enlaces. Si quisiéramos tener acceso a las
noticias de alguna sección en específico, por ejemplo, a la sección de tendencias, tendríamos que
identificar la palabra por la cual deberíamos de filtrar. Para ejemplificar este caso, en una nueva
celda de código escribe lo siguiente:
soup = BeautifulSoup(UniversalHtml)
UniversalAll = soup.find_all('a')
for links in UniversalAll:
if 'tendencias' in links.get('href'):
print(links.get('href'))

Ahora tenemos la lista de enlaces de la sección de tendencias.

Para tener acceso al texto de una de las notas en la lista anterior lo primero es identificar su enlace y,
posteriormente, solicitar el contenido de la etiqueta <p> como se muestra a continuación.

nota = 'https://www.eluniversal.com.mx/tendencias/los-mejores-memes-y-reacciones-por-concierto-
de-rosalia-en-el-zocalo/'
UniversalFile = urllib.request.urlopen(nota)
UniversalHtml = UniversalFile.read()
UniversalFile.close()

soup = BeautifulSoup(UniversalHtml)
UniversalAll = soup.find_all('p')
for etiqueta in UniversalAll:
print(etiqueta)

Lo que obtendremos como resultado es un conjunto de etiquetas que contienen texto, sin embargo,
el texto aún requiere un poco de limpieza.

Ciencias de Información Geoespacial, A.C.
BIBLIOGRAFÍA

- Web Scraping with Python: Collecting Data from the Modern Web. Consultado en marzo del 2023.
- Python Automation Cookbook: 75 Python automation ideas for web scraping, data wrangling, and
processing Excel, reports, emails, and more, 2nd Edition. Consultado en marzo del 2023.
- Getting Structured Data from the Internet: Running Web Crawlers/Scrapers on a Big Data Production
Scale. Consultado en marzo del 2023.
- Web Scraping with PHP, 2nd Edition A php[architect] guide Matthew Turland, Oscar Merida, Ben
Ramsey. Consultado en marzo del 2023.
- Practical Web Scraping for Data Science Best Practices and Examples with Python Seppe vanden
Broucke, Bart Baesens. Consultado en marzo del 2023.

Ciencias de Información Geoespacial, A.C.

También podría gustarte

Kindfulnessok
0% (1)
Kindfulnessok
17 páginas
A512 UdeSA Gestión y Arquitectura de Datos Clase 10 Web Scraping 21052024
Aún no hay calificaciones
A512 UdeSA Gestión y Arquitectura de Datos Clase 10 Web Scraping 21052024
20 páginas
Web Scraping
Aún no hay calificaciones
Web Scraping
8 páginas
Web - Scraping - Jaime Lopez
Aún no hay calificaciones
Web - Scraping - Jaime Lopez
5 páginas
Lec Ing Sist 0086 2020
Aún no hay calificaciones
Lec Ing Sist 0086 2020
7 páginas
Clase
Aún no hay calificaciones
Clase
5 páginas
Web Scraping - Google Drive
Aún no hay calificaciones
Web Scraping - Google Drive
27 páginas
Webscraping
Aún no hay calificaciones
Webscraping
3 páginas
Web Scraping 2
Aún no hay calificaciones
Web Scraping 2
66 páginas
Qué Es Web Scraping
Aún no hay calificaciones
Qué Es Web Scraping
9 páginas
Introduccion A WebScraping
Aún no hay calificaciones
Introduccion A WebScraping
12 páginas
Web Scraping
Aún no hay calificaciones
Web Scraping
3 páginas
Gráfico Mapa Conceptual Geométrico Rosado
Aún no hay calificaciones
Gráfico Mapa Conceptual Geométrico Rosado
1 página
Consultoria Web Scraping
Aún no hay calificaciones
Consultoria Web Scraping
6 páginas
Mod - 03 - 02 - 01 - Extracción de Datos Web (Web Scraping)
Aún no hay calificaciones
Mod - 03 - 02 - 01 - Extracción de Datos Web (Web Scraping)
12 páginas
Presentacion Taller Scraping Santiago Espinosa
Aún no hay calificaciones
Presentacion Taller Scraping Santiago Espinosa
17 páginas
Master Penetration Testing Web
Aún no hay calificaciones
Master Penetration Testing Web
81 páginas
Web Scraping - INICIACION2 Envio
Aún no hay calificaciones
Web Scraping - INICIACION2 Envio
182 páginas
Web Scraping
Aún no hay calificaciones
Web Scraping
1 página
Imprimir Es
Aún no hay calificaciones
Imprimir Es
8 páginas
Entregable Web Scraping
Aún no hay calificaciones
Entregable Web Scraping
6 páginas
Web Scraping, Web Crawling y Parsing - Omar Manrique
Aún no hay calificaciones
Web Scraping, Web Crawling y Parsing - Omar Manrique
2 páginas
Scraping Con Python
Aún no hay calificaciones
Scraping Con Python
14 páginas
Curso de Web Scraping
Aún no hay calificaciones
Curso de Web Scraping
1 página
Consulta Scraping Python
Aún no hay calificaciones
Consulta Scraping Python
1 página
Webscraping
Aún no hay calificaciones
Webscraping
60 páginas
Workshop Web Scraping
Aún no hay calificaciones
Workshop Web Scraping
24 páginas
M1 - Proyecto Scraping
Aún no hay calificaciones
M1 - Proyecto Scraping
14 páginas
Web Scraping Con Python. Guía de Inicio de Beautiful Soup PDF
Aún no hay calificaciones
Web Scraping Con Python. Guía de Inicio de Beautiful Soup PDF
11 páginas
Memoria EPSU1195
Aún no hay calificaciones
Memoria EPSU1195
44 páginas
Web Scraping
0% (1)
Web Scraping
3 páginas
Scrapeando Web
Aún no hay calificaciones
Scrapeando Web
40 páginas
Taller 2 Big Data - Entrega - Final
Aún no hay calificaciones
Taller 2 Big Data - Entrega - Final
11 páginas
RAI2020 21 Tema4 Crawlers
Aún no hay calificaciones
RAI2020 21 Tema4 Crawlers
13 páginas
Busquedas Web
Aún no hay calificaciones
Busquedas Web
95 páginas
Introducción A La Extracción de Datos de Sitios Web - Scraping - Escuela de Datos - Evidencia Es Poder PDF
Aún no hay calificaciones
Introducción A La Extracción de Datos de Sitios Web - Scraping - Escuela de Datos - Evidencia Es Poder PDF
5 páginas
Web Scraping
Aún no hay calificaciones
Web Scraping
34 páginas
Scraping
Aún no hay calificaciones
Scraping
2 páginas
Entregable Web Scraping
Aún no hay calificaciones
Entregable Web Scraping
6 páginas
UADE CD - Clase 9 - Web Scraping
Aún no hay calificaciones
UADE CD - Clase 9 - Web Scraping
36 páginas
Web Scrapping
Aún no hay calificaciones
Web Scrapping
4 páginas
Aplicacion Web para Obtener de Manera Automatica Llorens Vera Jeronimo Jose
Aún no hay calificaciones
Aplicacion Web para Obtener de Manera Automatica Llorens Vera Jeronimo Jose
63 páginas
Python WebScraping
Aún no hay calificaciones
Python WebScraping
50 páginas
Herramientas y Técnicas Básicas de Scraping
Aún no hay calificaciones
Herramientas y Técnicas Básicas de Scraping
22 páginas
Charla Python Fli Sol 2016
Aún no hay calificaciones
Charla Python Fli Sol 2016
31 páginas
02 - Information Gathering
Aún no hay calificaciones
02 - Information Gathering
50 páginas
Fundamentos de Web Scrapping Con Python y Xpath
100% (1)
Fundamentos de Web Scrapping Con Python y Xpath
33 páginas
Web Scraping Formulario
Aún no hay calificaciones
Web Scraping Formulario
3 páginas
Web Scraping
Aún no hay calificaciones
Web Scraping
18 páginas
Gathering
Aún no hay calificaciones
Gathering
37 páginas
SP+ +Web+Scraping+Formulario+2.0
Aún no hay calificaciones
SP+ +Web+Scraping+Formulario+2.0
3 páginas
LAB Hackeando Servidores Web
Aún no hay calificaciones
LAB Hackeando Servidores Web
12 páginas
Taller 7-18
Aún no hay calificaciones
Taller 7-18
51 páginas
Documento de Apoyo - CEHSP PDF
Aún no hay calificaciones
Documento de Apoyo - CEHSP PDF
101 páginas
Hacking Etico - DuocUC-1
Aún no hay calificaciones
Hacking Etico - DuocUC-1
97 páginas
Guión Presentación Del Proyecto Final.
Aún no hay calificaciones
Guión Presentación Del Proyecto Final.
1 página
Imagens Raspadas de Páginas Da Web
Aún no hay calificaciones
Imagens Raspadas de Páginas Da Web
12 páginas
Unidad 3 Blog Tics
Aún no hay calificaciones
Unidad 3 Blog Tics
4 páginas
Prog Datasci 5 API Tutorial Scrapy
Aún no hay calificaciones
Prog Datasci 5 API Tutorial Scrapy
6 páginas
RAIn2025 TP03 GRUPO11
Aún no hay calificaciones
RAIn2025 TP03 GRUPO11
9 páginas
Joe Biden Renuncio - Buscar Con Google
Aún no hay calificaciones
Joe Biden Renuncio - Buscar Con Google
1 página
Como Curar La Apnea Del Sueño en Adultos - Tratamiento
Aún no hay calificaciones
Como Curar La Apnea Del Sueño en Adultos - Tratamiento
1 página
Rutinas
Aún no hay calificaciones
Rutinas
2 páginas
Herramientas Gratuitas para Comercio Electronico
Aún no hay calificaciones
Herramientas Gratuitas para Comercio Electronico
11 páginas
Solucion Formato Ovi
Aún no hay calificaciones
Solucion Formato Ovi
12 páginas
La Estructura Básica de Una Página Web
Aún no hay calificaciones
La Estructura Básica de Una Página Web
14 páginas
Ofimatica 111111111111111111
Aún no hay calificaciones
Ofimatica 111111111111111111
6 páginas
80X100X10 Hmsa10 RG - 20220728
Aún no hay calificaciones
80X100X10 Hmsa10 RG - 20220728
3 páginas
Aprende A Crear Un Sitio Web Con Photoshop y Dreamweaver. Aprende A Diseñar Paginas Web Con Photoshop y Dreamweaver
100% (2)
Aprende A Crear Un Sitio Web Con Photoshop y Dreamweaver. Aprende A Diseñar Paginas Web Con Photoshop y Dreamweaver
52 páginas
LINEA DEL TIEMPO DE LA EVOLUCIÓN DE LA INFORMÁTICA. Timeline - Timetoa
Aún no hay calificaciones
LINEA DEL TIEMPO DE LA EVOLUCIÓN DE LA INFORMÁTICA. Timeline - Timetoa
8 páginas
Fundamentos Del Marketing Digital
Aún no hay calificaciones
Fundamentos Del Marketing Digital
46 páginas
1.4 Planificacion de Aplicaciones Web
Aún no hay calificaciones
1.4 Planificacion de Aplicaciones Web
11 páginas
Practica Internet
Aún no hay calificaciones
Practica Internet
6 páginas
Documento de Consulta - Norma NTC 5854
Aún no hay calificaciones
Documento de Consulta - Norma NTC 5854
35 páginas
Propuesta Actualizada
Aún no hay calificaciones
Propuesta Actualizada
4 páginas
A SUV Kodiaq OwnersManual
Aún no hay calificaciones
A SUV Kodiaq OwnersManual
356 páginas
Colisiones
Aún no hay calificaciones
Colisiones
9 páginas
Componentes de Una Aplicacion
Aún no hay calificaciones
Componentes de Una Aplicacion
1 página
Mapa Mental Robinson
Aún no hay calificaciones
Mapa Mental Robinson
1 página
Modelo Carta de Presentacion
100% (2)
Modelo Carta de Presentacion
4 páginas
Alexandrina Romero Introducción Diseño Comunicación I Clase 3 PDF
Aún no hay calificaciones
Alexandrina Romero Introducción Diseño Comunicación I Clase 3 PDF
25 páginas
Proyectodeinvetsigacion2023 10 DCL
Aún no hay calificaciones
Proyectodeinvetsigacion2023 10 DCL
56 páginas
Plan Anual Diseño y Desarrollo Web
78% (9)
Plan Anual Diseño y Desarrollo Web
5 páginas
Informe Tecnico de Residencia Profesional..
Aún no hay calificaciones
Informe Tecnico de Residencia Profesional..
47 páginas
Monografía - Fernández Jiménez
Aún no hay calificaciones
Monografía - Fernández Jiménez
73 páginas
Cim Hospital Bartolome
Aún no hay calificaciones
Cim Hospital Bartolome
20 páginas
Agenda Semana 29 (28) 2ib 22 Hasta El 26 de Noviembre
Aún no hay calificaciones
Agenda Semana 29 (28) 2ib 22 Hasta El 26 de Noviembre
7 páginas
Caracteristicas de Las TIC PDF
Aún no hay calificaciones
Caracteristicas de Las TIC PDF
7 páginas
Manual Técnico Sistema de Informacion Web María Eva
Aún no hay calificaciones
Manual Técnico Sistema de Informacion Web María Eva
61 páginas
Retorica Literatura y Periodismo Actas Del V Seminario Emilio Castelar 0
Aún no hay calificaciones
Retorica Literatura y Periodismo Actas Del V Seminario Emilio Castelar 0
312 páginas
Google Hacking Completo
100% (5)
Google Hacking Completo
20 páginas
Digitalizar Las Noticias - Pablo Boczkowski (Capitulo 3)
100% (1)
Digitalizar Las Noticias - Pablo Boczkowski (Capitulo 3)
21 páginas
Curso de Kompozer - CDM Informática
Aún no hay calificaciones
Curso de Kompozer - CDM Informática
27 páginas