0% encontró este documento útil (0 votos)
179 vistas12 páginas

Introduccion A WebScraping

El documento describe las técnicas de web scraping utilizando Python. El web scraping se usa para extraer datos de forma automática de páginas web a través del análisis del código HTML. Python es popular para web scraping debido a librerías como BeautifulSoup, Scrapy y Selenium que facilitan la extracción de datos y navegación web. El documento guía al lector a través de los pasos para instalar Python e implementar un proyecto básico de web scraping.

Cargado por

Jimmy Muñoz
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
179 vistas12 páginas

Introduccion A WebScraping

El documento describe las técnicas de web scraping utilizando Python. El web scraping se usa para extraer datos de forma automática de páginas web a través del análisis del código HTML. Python es popular para web scraping debido a librerías como BeautifulSoup, Scrapy y Selenium que facilitan la extracción de datos y navegación web. El documento guía al lector a través de los pasos para instalar Python e implementar un proyecto básico de web scraping.

Cargado por

Jimmy Muñoz
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 12

WebScraping

El Web Scraping (o también llamados bots) son un conjunto de técnicas que se


utilizan para obtener de forma automática el contenido de texto de codigo
fuente que fue procesado e interpretado para formar páginas web a través de
etiquetas HTML.
El uso de estas técnicas tiene como finalidad buscar patrones de texto de
código fuente para extraerlos y recopilarlos en forma de datos provenientes de
diferentes páginas web para diferentes propósitos:
 Comparación de datos de diversas fuentes.
 Observación de cambios de contenido web.
 Tratamiento de contenido para la extracción de conocimiento.
 Explorar y reunir datos en una web con fines de investigación.

1. Características
 El desarrollador del scraper analiza el texto fuente en HTML de la página web,
buscando patrones para extraer información deseada
 Necesita de la URL del sitio web para extraer los datos estructurados a través de la
búsqueda de patrones, resumiendo, almacenando, evaluando o combinado los
datos extraídos.

2. Usando Python para Web Scraping


Python es un gestor de procesamiento de texto que consta de bibliotecas,
código abierto para entrada a foros, informes de error o artículos de blog para
contenidos de sitios web que son actualizadas, por lo tanto también se modifica
código fuente mediante diversas herramientas consolidadas de scraping. para
realizar proyectos de scraping: Scrapy, Selenium y BeautifulSoup

2.1.Scrapy
Utiliza un analizador sintáctico o parser HTML para extraer datos del texto
fuente (en HTML) de la web, que incluye una herramienta de línea de
comandos, la Scrapy Shell, para recolectar texto de una web correcta. Posee
este esquema:
 URL → Solicitud HTTP → HTML → Scrapy

2.2.Selenium
Es un framework para realizar simulaciones automatizados de software
(presionar botones, rellenar formularios, etc.) a aplicaciones web sin necesidad
de recolectar texto de código fuente de sitio web HTML. La estructura del
proceso de web scraping con Selenium es la siguiente:
 URL → Solicitud HTTP → HTML → Selenium → DOM
2.3.BeautifulSoup
Es un analizador sintáctico HTML que no requiere una programación orientada
a objetos, sino que el scraper se redacta como una sencilla secuencia de
comandos o script. tiene la siguiente estructura:
 URL → Solicitud HTTP → HTML → BeautifulSoup

3. Instalar Python
La instalación se va a realizar en sistema operativo Windows, requiriendo
descargar el instalador de Python desde su sitio web:
https://www.python.org/downloads/

Nota: En caso de usar Windows 7, se recomienda usar la versión de Python 3.8

Una vez descargado, comenzar la instalación


Ejecutar “Python Idle” dentro del menú de inicio de Windows para empezar a
ingresar los comandos:

Inmediatamente abrirá la siguiente ventana


4. Archivos de Python
Como trabaja con un “Shell”, permite generar archivos de código Python,
siendo útil para generar comandos para web scrapping.
El archivo que se va a generar, guardar bajo extensión “PY”

También deberá de especificar la localización del archivo

Una vez guardado, seleccionar la opción de ejecutar “Run”


5. Empezar a usar Webscraping
Dentro de la ventana IDLE de Python, se requiere importar la librería urlopen
>>> From urllib.request import urlopen

Luego especificar la ruta y guardarla en una variable (por ejemplo, se llamara


url)
>>> url = "http://olympus.realpython.org/profiles/aphrodite"

Se requiere una variable que abra la ruta, necesitando pasar la ruta URL a
través de la librería urlopen();
>>> page = urlopen(url)

Ahora podrá mostrar los objetos HTTPresponse


>>> page

Para extraer la pagina HTML, se emplea el objeto HTTPResponse, y usar la


función “decode” y transformar a formato “UTF-8”, adjuntadas a una variable.
>>> html_bytes = page.read()

>>> html = html_bytes.decode("utf-8")

Se imprime el contenido mediante la variable que transformo el objeto


HTTPResponse.
>>> print(html)
6. Proyecto webscrapping
Web scraping es una técnica mediante software para extraer información de
una web, por ejemplo google y otros buscadores lo usan para extraer la
información de una web que luego es la que se muestra en los resultados de
búsqueda.
Dentro de CMD de Windows, ejecutar los siguientes comandos:
pip install requests

pip install bs4

pip install lxml

Se requiere generar un entorno virtual en una carpeta guardada en una


ubicación especifica, siendo necesario ejecutar comandos en CMD ubicados en
la carpeta, e ingresar comando para instalar una librería de framework
pip install Django

Luego, generar el proyecto, por ejemplo se va a llamar “simple_blog”, ejecutar


el siguiente comando dentro del CMD
django-admin startproject simple_blog
Esto nos generará la siguiente estructura de proyecto:

Dentro del nuevo proyecto, generar el entorno de trabajo llamado “env”


python -m venv env

Se va a generar la carpeta “env”, en cmd dirigirse a la carpeta “Scripts” e


ingresar el comando “activate” para activar el entorno

Ahora lo que haremos será crear el archivo requirements.txt en la raíz de


nuestro proyecto con el siguiente contenido:
Django==2.2.4
django-ckeditor==5.8.0
Pillow==6.2.0

Donde:

 Django es básicamente el framework


 django-ckeditor es un editor de texto con varias funcionalidades.

Instalar con el siguiente comando:


pip install -r requirements.txt

Por ultimo, arrancar el proyecto, en el mismo directorio del proyecto ejecutar el


comando
python manage.py runserver
Para verificar si el proyecto esta activo, en un navegador web, ingresar la
siguiente url: http://localhost:8000/

7. Instalar scrappy
- Requiere de anaconda navigator:
https://www.anaconda.com/products/individual
- Abrir comando “base” dentro de sección “enviorements”, e ingresar comando:
conda install -c conda-forge scrapy
- Abrir cmd de Windows, y ejecutar línea: pip install Scrapy

Abrir Python, generar nuevo archivo que tendrá como nombre


quotes_spider.py

import scrapy

class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'http://quotes.toscrape.com/tag/humor/',
]

def parse(self, response):


for quote in response.css('div.quote'):
yield {
'text': quote.css('span.text::text').extract_first(),
'author': quote.xpath('span/small/text()').extract_first(),
}

next_page = response.css('li.next a::attr("href")').extract_first()


if next_page is not None:
next_page = response.urljoin(next_page)
yield scrapy.Request(next_page, callback=self.parse)

- Presionar tecla F5, o accede a opcion Run.

Abrir la ventana de comandos CMD, ubicar el directorio donde esta guardado el


archivo, y colocar: scrapy runspider quotes_spider.py -o quotes.json

8. Cambiar directorio en Python


Conocer la ruta actual:

Obtener lista de archivos en ruta actual:

Cambiar directorio:
- Primera forma:
- Segunda forma:

9. Enlaces de Interes
https://docs.scrapy.org/en/latest/intro/install.html
https://careerkarma.com/blog/python-pip-install-invalid-syntax/

https://www.ionos.mx/digitalguide/paginas-web/desarrollo-web/web-scraping-con-
python/

http://www.openbookproject.net/courses/webappdev/units/softwaredesign/
resources/install_python_win7.html

https://cosasdedevs.com/posts/web-scraping-con-requests-y-beautifulsoup-
en-python/

https://cosasdedevs.com/posts/crear-un-blog-con-django-parte-1-
instalacion/

https://cosasdedevs.com/posts/manejar-el-gestor-de-dependencias-pip-y-el-
entorno-virtual-en-python/
https://realpython.com/python-web-scraping-practical-introduction/

https://likegeeks.com/es/web-scraping-beautiful-soup-y-selenium/

También podría gustarte