Introduccion A WebScraping
Introduccion A WebScraping
1. Características
El desarrollador del scraper analiza el texto fuente en HTML de la página web,
buscando patrones para extraer información deseada
Necesita de la URL del sitio web para extraer los datos estructurados a través de la
búsqueda de patrones, resumiendo, almacenando, evaluando o combinado los
datos extraídos.
2.1.Scrapy
Utiliza un analizador sintáctico o parser HTML para extraer datos del texto
fuente (en HTML) de la web, que incluye una herramienta de línea de
comandos, la Scrapy Shell, para recolectar texto de una web correcta. Posee
este esquema:
URL → Solicitud HTTP → HTML → Scrapy
2.2.Selenium
Es un framework para realizar simulaciones automatizados de software
(presionar botones, rellenar formularios, etc.) a aplicaciones web sin necesidad
de recolectar texto de código fuente de sitio web HTML. La estructura del
proceso de web scraping con Selenium es la siguiente:
URL → Solicitud HTTP → HTML → Selenium → DOM
2.3.BeautifulSoup
Es un analizador sintáctico HTML que no requiere una programación orientada
a objetos, sino que el scraper se redacta como una sencilla secuencia de
comandos o script. tiene la siguiente estructura:
URL → Solicitud HTTP → HTML → BeautifulSoup
3. Instalar Python
La instalación se va a realizar en sistema operativo Windows, requiriendo
descargar el instalador de Python desde su sitio web:
https://www.python.org/downloads/
Se requiere una variable que abra la ruta, necesitando pasar la ruta URL a
través de la librería urlopen();
>>> page = urlopen(url)
Donde:
7. Instalar scrappy
- Requiere de anaconda navigator:
https://www.anaconda.com/products/individual
- Abrir comando “base” dentro de sección “enviorements”, e ingresar comando:
conda install -c conda-forge scrapy
- Abrir cmd de Windows, y ejecutar línea: pip install Scrapy
import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'http://quotes.toscrape.com/tag/humor/',
]
Cambiar directorio:
- Primera forma:
- Segunda forma:
9. Enlaces de Interes
https://docs.scrapy.org/en/latest/intro/install.html
https://careerkarma.com/blog/python-pip-install-invalid-syntax/
https://www.ionos.mx/digitalguide/paginas-web/desarrollo-web/web-scraping-con-
python/
http://www.openbookproject.net/courses/webappdev/units/softwaredesign/
resources/install_python_win7.html
https://cosasdedevs.com/posts/web-scraping-con-requests-y-beautifulsoup-
en-python/
https://cosasdedevs.com/posts/crear-un-blog-con-django-parte-1-
instalacion/
https://cosasdedevs.com/posts/manejar-el-gestor-de-dependencias-pip-y-el-
entorno-virtual-en-python/
https://realpython.com/python-web-scraping-practical-introduction/
https://likegeeks.com/es/web-scraping-beautiful-soup-y-selenium/