0% encontró este documento útil (0 votos)

179 vistas12 páginas

Introduccion A WebScraping

El documento describe las técnicas de web scraping utilizando Python. El web scraping se usa para extraer datos de forma automática de páginas web a través del análisis del código HTML. Python es popular para web scraping debido a librerías como BeautifulSoup, Scrapy y Selenium que facilitan la extracción de datos y navegación web. El documento guía al lector a través de los pasos para instalar Python e implementar un proyecto básico de web scraping.

Cargado por

Jimmy Muñoz

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

179 vistas12 páginas

Introduccion A WebScraping

Cargado por

Jimmy Muñoz

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 12

WebScraping

El Web Scraping (o también llamados bots) son un conjunto de técnicas que se

utilizan para obtener de forma automática el contenido de texto de codigo
fuente que fue procesado e interpretado para formar páginas web a través de
etiquetas HTML.
El uso de estas técnicas tiene como finalidad buscar patrones de texto de
código fuente para extraerlos y recopilarlos en forma de datos provenientes de
diferentes páginas web para diferentes propósitos:
 Comparación de datos de diversas fuentes.
 Observación de cambios de contenido web.
 Tratamiento de contenido para la extracción de conocimiento.
 Explorar y reunir datos en una web con fines de investigación.

1. Características
 El desarrollador del scraper analiza el texto fuente en HTML de la página web,
buscando patrones para extraer información deseada
 Necesita de la URL del sitio web para extraer los datos estructurados a través de la
búsqueda de patrones, resumiendo, almacenando, evaluando o combinado los
datos extraídos.

2. Usando Python para Web Scraping

Python es un gestor de procesamiento de texto que consta de bibliotecas,
código abierto para entrada a foros, informes de error o artículos de blog para
contenidos de sitios web que son actualizadas, por lo tanto también se modifica
código fuente mediante diversas herramientas consolidadas de scraping. para
realizar proyectos de scraping: Scrapy, Selenium y BeautifulSoup

2.1.Scrapy
Utiliza un analizador sintáctico o parser HTML para extraer datos del texto
fuente (en HTML) de la web, que incluye una herramienta de línea de
comandos, la Scrapy Shell, para recolectar texto de una web correcta. Posee
este esquema:
 URL → Solicitud HTTP → HTML → Scrapy

2.2.Selenium
Es un framework para realizar simulaciones automatizados de software
(presionar botones, rellenar formularios, etc.) a aplicaciones web sin necesidad
de recolectar texto de código fuente de sitio web HTML. La estructura del
proceso de web scraping con Selenium es la siguiente:
 URL → Solicitud HTTP → HTML → Selenium → DOM
2.3.BeautifulSoup
Es un analizador sintáctico HTML que no requiere una programación orientada
a objetos, sino que el scraper se redacta como una sencilla secuencia de
comandos o script. tiene la siguiente estructura:
 URL → Solicitud HTTP → HTML → BeautifulSoup

3. Instalar Python
La instalación se va a realizar en sistema operativo Windows, requiriendo
descargar el instalador de Python desde su sitio web:
https://www.python.org/downloads/

Nota: En caso de usar Windows 7, se recomienda usar la versión de Python 3.8

Una vez descargado, comenzar la instalación

Ejecutar “Python Idle” dentro del menú de inicio de Windows para empezar a
ingresar los comandos:

Inmediatamente abrirá la siguiente ventana

4. Archivos de Python
Como trabaja con un “Shell”, permite generar archivos de código Python,
siendo útil para generar comandos para web scrapping.
El archivo que se va a generar, guardar bajo extensión “PY”

También deberá de especificar la localización del archivo

Una vez guardado, seleccionar la opción de ejecutar “Run”

5. Empezar a usar Webscraping
Dentro de la ventana IDLE de Python, se requiere importar la librería urlopen
>>> From urllib.request import urlopen

Luego especificar la ruta y guardarla en una variable (por ejemplo, se llamara

url)
>>> url = "http://olympus.realpython.org/profiles/aphrodite"

Se requiere una variable que abra la ruta, necesitando pasar la ruta URL a
través de la librería urlopen();
>>> page = urlopen(url)

Ahora podrá mostrar los objetos HTTPresponse

>>> page

Para extraer la pagina HTML, se emplea el objeto HTTPResponse, y usar la

función “decode” y transformar a formato “UTF-8”, adjuntadas a una variable.
>>> html_bytes = page.read()

>>> html = html_bytes.decode("utf-8")

Se imprime el contenido mediante la variable que transformo el objeto

HTTPResponse.
>>> print(html)
6. Proyecto webscrapping
Web scraping es una técnica mediante software para extraer información de
una web, por ejemplo google y otros buscadores lo usan para extraer la
información de una web que luego es la que se muestra en los resultados de
búsqueda.
Dentro de CMD de Windows, ejecutar los siguientes comandos:
pip install requests

pip install bs4

pip install lxml

Se requiere generar un entorno virtual en una carpeta guardada en una

ubicación especifica, siendo necesario ejecutar comandos en CMD ubicados en
la carpeta, e ingresar comando para instalar una librería de framework
pip install Django

Luego, generar el proyecto, por ejemplo se va a llamar “simple_blog”, ejecutar

el siguiente comando dentro del CMD
django-admin startproject simple_blog
Esto nos generará la siguiente estructura de proyecto:

Dentro del nuevo proyecto, generar el entorno de trabajo llamado “env”

python -m venv env

Se va a generar la carpeta “env”, en cmd dirigirse a la carpeta “Scripts” e

ingresar el comando “activate” para activar el entorno

Ahora lo que haremos será crear el archivo requirements.txt en la raíz de

nuestro proyecto con el siguiente contenido:
Django==2.2.4
django-ckeditor==5.8.0
Pillow==6.2.0

Donde:

 Django es básicamente el framework

 django-ckeditor es un editor de texto con varias funcionalidades.

Instalar con el siguiente comando:

pip install -r requirements.txt

Por ultimo, arrancar el proyecto, en el mismo directorio del proyecto ejecutar el

comando
python manage.py runserver
Para verificar si el proyecto esta activo, en un navegador web, ingresar la
siguiente url: http://localhost:8000/

7. Instalar scrappy
- Requiere de anaconda navigator:
https://www.anaconda.com/products/individual
- Abrir comando “base” dentro de sección “enviorements”, e ingresar comando:
conda install -c conda-forge scrapy
- Abrir cmd de Windows, y ejecutar línea: pip install Scrapy

Abrir Python, generar nuevo archivo que tendrá como nombre

quotes_spider.py

import scrapy

class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'http://quotes.toscrape.com/tag/humor/',
]

def parse(self, response):

for quote in response.css('div.quote'):
yield {
'text': quote.css('span.text::text').extract_first(),
'author': quote.xpath('span/small/text()').extract_first(),
}

next_page = response.css('li.next a::attr("href")').extract_first()

if next_page is not None:
next_page = response.urljoin(next_page)
yield scrapy.Request(next_page, callback=self.parse)

- Presionar tecla F5, o accede a opcion Run.

Abrir la ventana de comandos CMD, ubicar el directorio donde esta guardado el

archivo, y colocar: scrapy runspider quotes_spider.py -o quotes.json

8. Cambiar directorio en Python

Conocer la ruta actual:

Obtener lista de archivos en ruta actual:

Cambiar directorio:
- Primera forma:
- Segunda forma:

9. Enlaces de Interes
https://docs.scrapy.org/en/latest/intro/install.html
https://careerkarma.com/blog/python-pip-install-invalid-syntax/

https://www.ionos.mx/digitalguide/paginas-web/desarrollo-web/web-scraping-con-
python/

http://www.openbookproject.net/courses/webappdev/units/softwaredesign/
resources/install_python_win7.html

https://cosasdedevs.com/posts/web-scraping-con-requests-y-beautifulsoup-
en-python/

https://cosasdedevs.com/posts/crear-un-blog-con-django-parte-1-
instalacion/

https://cosasdedevs.com/posts/manejar-el-gestor-de-dependencias-pip-y-el-
entorno-virtual-en-python/
https://realpython.com/python-web-scraping-practical-introduction/

https://likegeeks.com/es/web-scraping-beautiful-soup-y-selenium/

También podría gustarte

1-Fundamentos de Web Scraping Con Python-Slidesxpath
100% (1)
1-Fundamentos de Web Scraping Con Python-Slidesxpath
34 páginas
Clase 6 - Introducción A La Manipulación de Datos Con Pandas (Parte II)
Aún no hay calificaciones
Clase 6 - Introducción A La Manipulación de Datos Con Pandas (Parte II)
73 páginas
Scraping Con Python
Aún no hay calificaciones
Scraping Con Python
14 páginas
Gemini - Manual
Aún no hay calificaciones
Gemini - Manual
12 páginas
Web Scraping - Google Drive
Aún no hay calificaciones
Web Scraping - Google Drive
27 páginas
Clase 2 - Web Scraping
0% (1)
Clase 2 - Web Scraping
15 páginas
Curso de Redes Neuronales 1
Aún no hay calificaciones
Curso de Redes Neuronales 1
45 páginas
ECDI & DAMA - Analítica y Gobierno de Datos para Ejecutivos - Módulo 9 - Gestión Del Cambio
100% (2)
ECDI & DAMA - Analítica y Gobierno de Datos para Ejecutivos - Módulo 9 - Gestión Del Cambio
36 páginas
Consulta Scraping Python
Aún no hay calificaciones
Consulta Scraping Python
1 página
Python Data Analytics - With Pandas, NumPy, and Matplotlib
Aún no hay calificaciones
Python Data Analytics - With Pandas, NumPy, and Matplotlib
396 páginas
Slides-Del-Curso-De-Analisis-De-Datos-Con-Power-Bi 3
Aún no hay calificaciones
Slides-Del-Curso-De-Analisis-De-Datos-Con-Power-Bi 3
23 páginas
Acceso A Bases de Datos Desde Python Con Pyodbc - Cursos de Programación de 0 A Experto © Garantizados
Aún no hay calificaciones
Acceso A Bases de Datos Desde Python Con Pyodbc - Cursos de Programación de 0 A Experto © Garantizados
6 páginas
Web Scraping Formulario
Aún no hay calificaciones
Web Scraping Formulario
3 páginas
Redes Neuronales - 2
Aún no hay calificaciones
Redes Neuronales - 2
44 páginas
Machine Learning Con Python Aprendizaje Supervisado
100% (1)
Machine Learning Con Python Aprendizaje Supervisado
114 páginas
Clase - Librería Numpy
Aún no hay calificaciones
Clase - Librería Numpy
41 páginas
Desarrollo de Una Aplicación de Reconocimiento en Imágenes Utilizando Deep Learning Con O...
Aún no hay calificaciones
Desarrollo de Una Aplicación de Reconocimiento en Imágenes Utilizando Deep Learning Con O...
104 páginas
Curso de Redes Neuronales 2
Aún no hay calificaciones
Curso de Redes Neuronales 2
117 páginas
Curso Bsico de Visualizacin de Datos Con Matplotlib y Seaborn
Aún no hay calificaciones
Curso Bsico de Visualizacin de Datos Con Matplotlib y Seaborn
66 páginas
Modelo Predictivo
Aún no hay calificaciones
Modelo Predictivo
10 páginas
Manual - Arquitectura Big Data (Ifct127po)
Aún no hay calificaciones
Manual - Arquitectura Big Data (Ifct127po)
457 páginas
Aprende Python - Sergio Delgado Quintero
Aún no hay calificaciones
Aprende Python - Sergio Delgado Quintero
489 páginas
Integración de Datos Con Azure
100% (1)
Integración de Datos Con Azure
22 páginas
Web Scraping Con Python Ejemplo
100% (2)
Web Scraping Con Python Ejemplo
4 páginas
Tipos de Proyecto Multimedia 11
Aún no hay calificaciones
Tipos de Proyecto Multimedia 11
4 páginas
Aprendeml
Aún no hay calificaciones
Aprendeml
318 páginas
Dossier Big Data Data Science Inteligencia Artificial 23 24
Aún no hay calificaciones
Dossier Big Data Data Science Inteligencia Artificial 23 24
32 páginas
Regresion Lineal Simple Con Python
Aún no hay calificaciones
Regresion Lineal Simple Con Python
21 páginas
Ciencia de Datos en El Sector Público (2022)
Aún no hay calificaciones
Ciencia de Datos en El Sector Público (2022)
62 páginas
Eboook - Mejores Practicas Modelado de Datos
Aún no hay calificaciones
Eboook - Mejores Practicas Modelado de Datos
23 páginas
Taller Big Data
100% (1)
Taller Big Data
6 páginas
Clase 5 - Programación Con Arrays - Introducción A NumPy
Aún no hay calificaciones
Clase 5 - Programación Con Arrays - Introducción A NumPy
72 páginas
Técnicas de Aprendizaje Automático
Aún no hay calificaciones
Técnicas de Aprendizaje Automático
15 páginas
Conceptos BW
100% (1)
Conceptos BW
61 páginas
Introducción A Pandas para Análisis de Series Temporales
Aún no hay calificaciones
Introducción A Pandas para Análisis de Series Temporales
46 páginas
Python Ciencia de Datos
Aún no hay calificaciones
Python Ciencia de Datos
3 páginas
Ejercicios de Redes Neuronales
Aún no hay calificaciones
Ejercicios de Redes Neuronales
10 páginas
Exposicion Python Flask (Autoguardado)
100% (1)
Exposicion Python Flask (Autoguardado)
25 páginas
Econometria Vs Ciencia de Datos
Aún no hay calificaciones
Econometria Vs Ciencia de Datos
5 páginas
Activación Office 2019 & 2016
Aún no hay calificaciones
Activación Office 2019 & 2016
10 páginas
Metodologia de Implementacion (Preparacion)
100% (1)
Metodologia de Implementacion (Preparacion)
25 páginas
Lenguaje de Programación
Aún no hay calificaciones
Lenguaje de Programación
32 páginas
Resumen Numpy y Pandas
Aún no hay calificaciones
Resumen Numpy y Pandas
41 páginas
Slides Del Curso de Python Intermedio
100% (1)
Slides Del Curso de Python Intermedio
91 páginas
Seaborn
Aún no hay calificaciones
Seaborn
46 páginas
Big Data, Web Scraping y Data Mining
Aún no hay calificaciones
Big Data, Web Scraping y Data Mining
94 páginas
Coursera 2
100% (1)
Coursera 2
81 páginas
Ebook Ciencia de Datos Con R
Aún no hay calificaciones
Ebook Ciencia de Datos Con R
27 páginas
Libro - Python y Los Datos
Aún no hay calificaciones
Libro - Python y Los Datos
27 páginas
Sílabo Especialización Analítica en Ciencia de Datos Con Python - N
Aún no hay calificaciones
Sílabo Especialización Analítica en Ciencia de Datos Con Python - N
26 páginas
Ciencia de Datos Con R
Aún no hay calificaciones
Ciencia de Datos Con R
54 páginas
Portafolio Hemisemestre FTI
Aún no hay calificaciones
Portafolio Hemisemestre FTI
153 páginas
Aprendizaje Supervisado
Aún no hay calificaciones
Aprendizaje Supervisado
61 páginas
Aprendeml Sample
Aún no hay calificaciones
Aprendeml Sample
126 páginas
Sesion01 - MachineLearningInmersionPython
Aún no hay calificaciones
Sesion01 - MachineLearningInmersionPython
49 páginas
Aprendizaje Automático 8
Aún no hay calificaciones
Aprendizaje Automático 8
30 páginas
Python Numpy
Aún no hay calificaciones
Python Numpy
14 páginas
Clase 3 Numpy Pandas
Aún no hay calificaciones
Clase 3 Numpy Pandas
16 páginas
ML001 Python para Ciencia de Datos y Aprendizaje de Maquina
Aún no hay calificaciones
ML001 Python para Ciencia de Datos y Aprendizaje de Maquina
33 páginas
SMART CONTRACTS Análisis Jurídico. Carlos Tur Faúndez Abogado Profesor Asociado en La Universidad de Las Islas Baleares. e Incluye Libro Electrónico
Aún no hay calificaciones
SMART CONTRACTS Análisis Jurídico. Carlos Tur Faúndez Abogado Profesor Asociado en La Universidad de Las Islas Baleares. e Incluye Libro Electrónico
22 páginas
Pymongo
Aún no hay calificaciones
Pymongo
27 páginas
Manejo de Entornos de Python
Aún no hay calificaciones
Manejo de Entornos de Python
5 páginas
VII Programa de Especialización en Machine Learning Con Python2020
Aún no hay calificaciones
VII Programa de Especialización en Machine Learning Con Python2020
7 páginas
Esl ES
Aún no hay calificaciones
Esl ES
45 páginas
Manual de Adobe Indesing
Aún no hay calificaciones
Manual de Adobe Indesing
23 páginas
Manual Claves Acceso
Aún no hay calificaciones
Manual Claves Acceso
19 páginas
Letra Capital y Encabezado y Pie de Página
50% (2)
Letra Capital y Encabezado y Pie de Página
3 páginas
203 Fisica
Aún no hay calificaciones
203 Fisica
10 páginas
14 Data Mart
100% (1)
14 Data Mart
6 páginas
Analisis de Curvas Roc
Aún no hay calificaciones
Analisis de Curvas Roc
61 páginas
FCE 053 - Wordpress
Aún no hay calificaciones
FCE 053 - Wordpress
100 páginas
Taller de Aplicación Guia 2
Aún no hay calificaciones
Taller de Aplicación Guia 2
56 páginas
Importancia de Las Redes de Apoyo Social para Las Personas Mayores
Aún no hay calificaciones
Importancia de Las Redes de Apoyo Social para Las Personas Mayores
9 páginas
Marketng Digital 1
Aún no hay calificaciones
Marketng Digital 1
40 páginas
Manual de Registro y Control de Contratos en SIGEP II
Aún no hay calificaciones
Manual de Registro y Control de Contratos en SIGEP II
37 páginas
3falcon Sensor para Windows - Documentación - Apoyo - Halcón
Aún no hay calificaciones
3falcon Sensor para Windows - Documentación - Apoyo - Halcón
33 páginas
Carta Práctica
Aún no hay calificaciones
Carta Práctica
8 páginas
Huawei G7 Guía de Inicio Rápido (G760-L03, 01, ES-LA)
Aún no hay calificaciones
Huawei G7 Guía de Inicio Rápido (G760-L03, 01, ES-LA)
27 páginas
6.3. Desarrollo de La Competencia Digital Del Alumnado - Uso Responsable, Bienestar Digital y Resolución de Problemas
Aún no hay calificaciones
6.3. Desarrollo de La Competencia Digital Del Alumnado - Uso Responsable, Bienestar Digital y Resolución de Problemas
16 páginas
Ejercicios Guia Ingles Respuestas
Aún no hay calificaciones
Ejercicios Guia Ingles Respuestas
2 páginas
Woppy - Bazar - Plan de Negocio
Aún no hay calificaciones
Woppy - Bazar - Plan de Negocio
46 páginas
Autorizacion Biopsia
Aún no hay calificaciones
Autorizacion Biopsia
1 página
Check List de Actualización de Ios Mediante TFTP
Aún no hay calificaciones
Check List de Actualización de Ios Mediante TFTP
3 páginas
Como Crear Un Hosting Gratis para Páginas Web en HTML
Aún no hay calificaciones
Como Crear Un Hosting Gratis para Páginas Web en HTML
2 páginas
Metros Cuadrados de Un Terreno Irregular
Aún no hay calificaciones
Metros Cuadrados de Un Terreno Irregular
5 páginas
Introducción A Android
Aún no hay calificaciones
Introducción A Android
11 páginas
Configuracion de Nodo B Huawei PDF
Aún no hay calificaciones
Configuracion de Nodo B Huawei PDF
14 páginas
Municipalidad de Talamanca - Actas
Aún no hay calificaciones
Municipalidad de Talamanca - Actas
2 páginas
SaaS - Fresh To Table PDF
Aún no hay calificaciones
SaaS - Fresh To Table PDF
11 páginas
Inducción Blackboard
Aún no hay calificaciones
Inducción Blackboard
1 página