Web Scraping Formulario

Este documento proporciona una introducción a las herramientas para web scraping Beautiful Soup, Selenium y Scrapy. Explica conceptos básicos de HTML y cómo usar XPath para localizar elementos en una página web. Luego describe el flujo de trabajo básico de Beautiful Soup para extraer y analizar datos, así como cómo configurar Selenium y Scrapy para automatizar la extracción de datos de sitios web.

Cargado por

Danilo Reyes

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

154 vistas3 páginas

Web Scraping Formulario

Cargado por

Danilo Reyes

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 3

Web Scraping

Formulario

Beautiful Soup
Selenium
Scrapy

Frank Andrade
Web Scraping “Hermanos” son nodos con los mismos padres.
El hijo de un nodo y los hijos de sus hijos son
XPath

Formulario
llamados sus “descendientes”. Del mismo modo, el Necesitamos aprender XPath para hacer web
padre de un nodo y el padre de su padre son scraping con Selenium y Scrapy.
llamados “ancestros”.
Es recomendado buscar elementos en este orden
El web scraping nos permite extraer data de la web. Antes de a. ID XPath Sintaxis
aprender Beautiful Soup, Selenium o Scrapy, vamos a revisar b. Class name Un XPath usualmente contiene un tag, nombre de
c. Tag name
conceptos básicos de HTML. d. Xpath atributo y valor de atributo.

Beautiful Soup //tag[@Atributo="Valor"]

HTML básico para Web Scraping
Analicemos el siguiente elemento HTML. Flujo de Trabajo Veamos algunos ejemplos de como localizar el
Importar librerías elemento article, el titulo de la película y transcript
Tag Nombre Valor Tag from bs4 import BeautifulSoup del código HTML que vimos antes.
apertura Atributo Atributo cierre import requests

Obtener páginas //article[@class="main-article"]

<h1 class="title"> Titanic (1997) </h1> result=requests.get("www.google.com")
result.status_code #obtener status //h1
result.headers #obtener encabezados //div[@class="full-script"]
Atributo Contenido Afectado
Contenido de la página
Elemento HTML contenido = result.text XPath Funciones y Operadores
XPath funciones
Este es solo un elemento HTML, pero el documento HTML detrás Crear soup
soup=BeautifulSoup(contenido,"lxml") //tag[contains(@Atributo, "Valor")]
de una página web tiene varios elmentos como este.
HTML en formato legible XPath Operadores: and, or
Código HTML ejemplo
print(soup.prettify())
<article class="main-article">
//tag[(expresion 1) and (expresion 2)]
<h1> Titanic (1997) </h1> Encontrar un elemento
<p class="plot"> 84 years later ... </p> soup.find(id="mi_id")
XPath Caracteres Especiales
<div class="full-script"> 13 meters. You ... </div> Encontrar elementos
soup.find_all("a") Selecciona los hijos del nodo ubicado a la
</article> /
soup.find_all("a","css_class") izquiera de este caracter
El documento HTML está estructurado con "nodos". Cada soup.find_all("a",class_="mi_class") Especifica que el nodo a emparejar puede
soup.find_all("a",attrs={"class": //
rectángulo debajo representa un nodo (elemento, atributo o texto) "mi_class"}) estar en cualquier nivel del documento
Obtener texto Especifica que el contexto actual debería
Elemento Raíz
<article>
Nodo Padre ejemplo=elemento.get_text() . ser usado (el nodo referencia)
ejemplo=elemento.get_text(strip=True,
separator= ' ') .. Selecciona a un nodo padre
Obtener atributos Caracter comodín que selecciona todos los
Elemento Atributo Elemento Elemento ejemplo = elemento.get('href') * elementos sin importar el nombre
<h1> class="main-article" <p> <div>
Hermanos Selecciona un atributo
@
Texto Atributo Texto Atributo Texto () Indica una agrupación dentro de un XPath
Titanic (1997) class="plot" 84 years later ... class="full-script"" 13 meters. You ...
Indica que un nodo con index "n" debe ser
[n]
seleccionado
Selenium Scrapy
Flujo de Trabajo Scrapy es el framework más complete de web scraping en Python. Para
from selenium import webdriver configurarlo revisa la documentación de Scrapy.
web="www.google.com"
path='introduce ruta del chromedriver'
driver = webdriver.Chrome(path) Crear un Proyecto y Spider
driver.get(web) Para crear un nuevo proyecto, corre el siguiente comando en el terminal o cmd
scrapy startproject mi_primer_spider
Encontrar un elemento Para crear un nuevo spider, primero cambia el directorio
driver.find_element_by_id('nombre') cd mi_primer_spider
Crear un spider
Encontrar elementos scrapy genspider ejemplo ejemplo.com
driver.find_elements_by_class_name()
driver.find_elements_by_css_selector La plantilla básica
driver.find_elements_by_xpath() Cuando creamos un spider, obtenemos una plantilla con el siguiente contenido.
driver.find_elements_by_tag_name()
driver.find_elements_by_name() import scrapy
class ExampleSpider(scrapy.Spider):
Cerrar driver
driver.quit() name = 'ejemplo'
allowed_domains = ['ejemplo.com'] Clase
Obtener el texto start_urls = ['http://ejemplo.com/']
data = elemento.text
def parse(self, response):
Espera Implícita Método Parse
import time pass
time.sleep(2)
La clase es contruida con la data que introducimos en el comando previo, pero el
Espera Explícita método parse tenemos que construirlo nosotros.
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait Buscando elementos
from selenium.webdriver.support import expected_conditions as EC Para buscar elementos con Scrapy, usa el argumento "response" del método parse
response.xpath('//tag[@Atributo="Valor"]')
WebDriverWait(driver,5).until(EC.element_to_be_clickable((By.ID,
'id_name'))) #esperar 5 segundos hasta poder encontrar elemento Obtener texto
Para obtener el elemento texto usamos text() y luego .get() o .getall(). Por ejemplo:
Opciones: Headless mode, cambiar tamaño de ventana response.xpath(‘//h1/text()’).get()
from selenium.webdriver.chrome.options import Options response.xpath(‘//tag[@Atributo=”Valor”]/text()’).getall()
opciones = Options()
opciones.headless = True Devolver la data extraída
opciones.add_argument('window-size=1920x1080') Para ver la data extraída tenemos que usar la palabra clave yield
driver = webdriver.Chrome(path,options=opciones)
def parse(self, response):
title = response.xpath(‘//h1/text()’).get()
Puedes encontrar tutoriales sobre # Devolver data extraída
Python en YouTube o Medium yield {'titles': title}
YT: www.youtube.com/andradefrank
Correr el spider y exportar data a CSV o JSON
Medium: frank-andrade.medium.com scrapy crawl ejemplo
scrapy crawl ejemplo -o nombre_archivo.csv
scrapy crawl ejemplo -o nombre_archivo.json

También podría gustarte

Python Book p300
Aún no hay calificaciones
Python Book p300
300 páginas
Guía de Desarrollo de Aplicaciones para Smartphones y Tabletas (2a Edición) PDF
Aún no hay calificaciones
Guía de Desarrollo de Aplicaciones para Smartphones y Tabletas (2a Edición) PDF
330 páginas
1-Fundamentos de Web Scraping Con Python-Slidesxpath
100% (1)
1-Fundamentos de Web Scraping Con Python-Slidesxpath
34 páginas
SP+ +Web+Scraping+Formulario+2.0
Aún no hay calificaciones
SP+ +Web+Scraping+Formulario+2.0
3 páginas
Fundamentos de Web Scrapping Con Python y Xpath
100% (1)
Fundamentos de Web Scrapping Con Python y Xpath
33 páginas
Scraping Con Python
Aún no hay calificaciones
Scraping Con Python
14 páginas
Web Scraping - Google Drive
Aún no hay calificaciones
Web Scraping - Google Drive
27 páginas
Brochure Espec Web Scraping
Aún no hay calificaciones
Brochure Espec Web Scraping
10 páginas
Manual Github
100% (2)
Manual Github
23 páginas
Manual Jquery Mobile PDF
Aún no hay calificaciones
Manual Jquery Mobile PDF
49 páginas
Semana 3 Introduccin A JavaScript y Jquery
Aún no hay calificaciones
Semana 3 Introduccin A JavaScript y Jquery
28 páginas
Manual de Python - Instalacion Python y Visual Studio Code Clase 3A
Aún no hay calificaciones
Manual de Python - Instalacion Python y Visual Studio Code Clase 3A
15 páginas
Python
Aún no hay calificaciones
Python
24 páginas
Aprende Python - Sergio Delgado Quintero
Aún no hay calificaciones
Aprende Python - Sergio Delgado Quintero
489 páginas
SQL EN Python
100% (1)
SQL EN Python
63 páginas
Web Scraping
Aún no hay calificaciones
Web Scraping
41 páginas
Web - Scraping - Jaime Lopez
Aún no hay calificaciones
Web - Scraping - Jaime Lopez
5 páginas
Guia de GitHub
100% (1)
Guia de GitHub
42 páginas
Manual Jquery PDF
Aún no hay calificaciones
Manual Jquery PDF
200 páginas
Django Web Framework
100% (2)
Django Web Framework
19 páginas
Introduccion A WebScraping
Aún no hay calificaciones
Introduccion A WebScraping
12 páginas
Lenguaje de Programación
Aún no hay calificaciones
Lenguaje de Programación
32 páginas
Acceso A Bases de Datos Desde Python Con Pyodbc - Cursos de Programación de 0 A Experto © Garantizados
Aún no hay calificaciones
Acceso A Bases de Datos Desde Python Con Pyodbc - Cursos de Programación de 0 A Experto © Garantizados
6 páginas
El Tutorial de Python1 PDF
Aún no hay calificaciones
El Tutorial de Python1 PDF
166 páginas
Data Scientist y Lenguaje R, Guía de Autoformación para El Uso de Big Data - Henri Laude (4543)
Aún no hay calificaciones
Data Scientist y Lenguaje R, Guía de Autoformación para El Uso de Big Data - Henri Laude (4543)
481 páginas
Usos y Tipos de Aplicaciones Moviles
Aún no hay calificaciones
Usos y Tipos de Aplicaciones Moviles
25 páginas
Scrapy
Aún no hay calificaciones
Scrapy
3 páginas
Git Hubbbbb
Aún no hay calificaciones
Git Hubbbbb
47 páginas
Data Analysis From Scratch With Python - Beginner Guide Using Python, Pandas, NumPy, Scikit-Learn, IPython, TensorFlow and Matplotlib (PDFDrive)
Aún no hay calificaciones
Data Analysis From Scratch With Python - Beginner Guide Using Python, Pandas, NumPy, Scikit-Learn, IPython, TensorFlow and Matplotlib (PDFDrive)
104 páginas
Clase 18 - Django - Porfolio (Parte 2)
Aún no hay calificaciones
Clase 18 - Django - Porfolio (Parte 2)
52 páginas
Json Curso
Aún no hay calificaciones
Json Curso
18 páginas
10 - APIs
100% (1)
10 - APIs
32 páginas
Manual Bootstrap-4
Aún no hay calificaciones
Manual Bootstrap-4
77 páginas
Tutorial API REST Con Python y Flask
Aún no hay calificaciones
Tutorial API REST Con Python y Flask
8 páginas
Introducción A Pandas para Análisis de Series Temporales
Aún no hay calificaciones
Introducción A Pandas para Análisis de Series Temporales
46 páginas
Manual JavaScript
Aún no hay calificaciones
Manual JavaScript
5 páginas
Exposicion Python Flask (Autoguardado)
100% (1)
Exposicion Python Flask (Autoguardado)
25 páginas
Python y WxPython
Aún no hay calificaciones
Python y WxPython
64 páginas
React JS
Aún no hay calificaciones
React JS
14 páginas
Json Programador Web
Aún no hay calificaciones
Json Programador Web
25 páginas
Python 3 Numpy
Aún no hay calificaciones
Python 3 Numpy
17 páginas
Estructuras de Datos
Aún no hay calificaciones
Estructuras de Datos
50 páginas
Python para Informa Ticos: Explorando La Informacio N
Aún no hay calificaciones
Python para Informa Ticos: Explorando La Informacio N
258 páginas
Consulta Scraping Python
Aún no hay calificaciones
Consulta Scraping Python
1 página
Python
Aún no hay calificaciones
Python
159 páginas
Libros
Aún no hay calificaciones
Libros
12 páginas
Laravel 5
Aún no hay calificaciones
Laravel 5
135 páginas
Web Scraping Con Python Ejemplo
100% (2)
Web Scraping Con Python Ejemplo
4 páginas
Tutorial de Django - José Plana
Aún no hay calificaciones
Tutorial de Django - José Plana
48 páginas
Tkinter Interfaces Gráficas II
Aún no hay calificaciones
Tkinter Interfaces Gráficas II
6 páginas
Fundamentos de CSS
Aún no hay calificaciones
Fundamentos de CSS
51 páginas
Pymongo
Aún no hay calificaciones
Pymongo
27 páginas
Menu Dinamico Mysql Con PHP
Aún no hay calificaciones
Menu Dinamico Mysql Con PHP
4 páginas
VII Programa de Especialización en Machine Learning Con Python2020
Aún no hay calificaciones
VII Programa de Especialización en Machine Learning Con Python2020
7 páginas
Ahorcado Juego
Aún no hay calificaciones
Ahorcado Juego
7 páginas
PHP Guia de Estilo PSR - 1 y PSR - 12
Aún no hay calificaciones
PHP Guia de Estilo PSR - 1 y PSR - 12
23 páginas
Introducción A La Extracción de Datos de Sitios Web - Scraping - Escuela de Datos - Evidencia Es Poder PDF
Aún no hay calificaciones
Introducción A La Extracción de Datos de Sitios Web - Scraping - Escuela de Datos - Evidencia Es Poder PDF
5 páginas
HTML 5 Y CSS
De Everand
HTML 5 Y CSS
antonio1961
Aún no hay calificaciones
La programación JavaScript
De Everand
La programación JavaScript
Preston Prescott
Aún no hay calificaciones
Aprendiendo Python: Desde los Fundamentos hasta la Programación Avanzada: La colección de TI
De Everand
Aprendiendo Python: Desde los Fundamentos hasta la Programación Avanzada: La colección de TI
Christopher Ford
Aún no hay calificaciones