100% encontró este documento útil (1 voto)

203 vistas18 páginas

Fundamentos de Web Scrapping Con Python y Xpath

Este documento es parte de mis apuntes de un curso de platzi. Buscalo es buenisimo. Espero te sean utiles mis apuntes

Cargado por

Pablo Perez Moya

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

100% encontró este documento útil (1 voto)

203 vistas18 páginas

Fundamentos de Web Scrapping Con Python y Xpath

Este documento es parte de mis apuntes de un curso de platzi. Buscalo es buenisimo. Espero te sean utiles mis apuntes

Cargado por

Pablo Perez Moya

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 18

Fundamentos de Web Scrapping con Python

y Xpath
Introducción Web Scrapping
¿Qué es el WebScrapping?
¿Qué es Xpath?
¿Porque usar un webscrapping?
Python: el lenguaje más poderoso para extraer datos
Fundamentos de la Web
Entender HTTP
Hasta aqui todo bien, pero ¿Como se estructura HTTP?
Peticion
Respuesta
¿Donde se ubica HTTP en la web?
¿Qué es HTML?
Reto: Para que sirve etiqueta script.
Reto: Que son los metadatos y como incluirlos dentro de un documento html.
Reto: Buscar etiqueta que sirve para colocar un sitio web dentro de otro.
Robots.txt
XML Path Language
Expresiones Regurales
Tipos de Nodos
Esquema HTML
Expresiones en XPath
Predicados en XPath
Operadores en XPath
Operadores Logicos
Wildcards en XPath
Asterisco *

node()

In-Text Search en XPath

Starts-with
Contains
Ends-With
Matches
AXES en XPath
Hijos
Descendientes
Descendientes + nodo actual
Resumen de XPath
Aplicando lo aprendido
Tarea
Extraer Titulo
Extraer Precio
Extraer Descripción
Extraer Stock
Reto Extra
Por si las moscas
Cuando usar value?
Traer nodos hermanos
Proyecto: Scrapper De Noticias

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/4b3cb6dc-ee2c-45b7-b2b218a1ae6366a
b/slidesxpath_c6d75e8b-c8b14359-bbe3048380ea4e86.pdf

Introducción Web Scrapping

Fundamentos de Web Scrapping con Python y Xpath 1
¿Qué es el WebScrapping?
El webscrapping es una tecnica para recolectar y extraer información desde distintos sitios webs.

¿Qué es Xpath?
Xpath significa XML Path Lenguage este es un lenguaje especializado que sirve para extraer datos de manera
efectiva.

¿Porque usar un webscrapping?

En sintesis, si un sitio no dispone de una API publica sera imposible manejar ciertos datos de esta web, pero
nosotros al saber aplicar el web scraping podremos independizarnos de estas APIs.

Python: el lenguaje más poderoso para extraer datos

¿Porqué? Sencillamente porque posee una de las comunidades más grandes para la extracción de datos. Además
de poseer bastantes frameworks o librerias dedicadas a esto.

Fundamentos de la Web
Entender HTTP
Hypertext Transger Protocol.
Este es un protocolo o conjunto de reglas con las cuales dos computadoras se comunican en el internet.

Estas computadoras se identifican por CLIENTE y SERVIDOR.

Cada vez que hacemos ingreso a una web se genera

una peticion al SERVIDOR el cual deriva hacia el slot
en su interior (el cual es un computador que contiene
en su interior un software como nginx), en el cual se
almacena el sitio al que queremos acceder, este
interpreta la petición y nos genera una respuesta.

Hasta aqui todo bien, pero ¿Como se estructura HTTP?

Peticion
Vamos por cada linea:

 Tenemos el método, el cual en la mayoria de las

peticiones es GET, el cual significa traer desde el
servidor. Además a eso tenemos la version del
protocolo, en este caso HTTP 1.1

 Tenemos el Host, este podria ser el de cualquier

sitio, como platzi.com o youtube.com

 Tenemos el Accept-Lenguage: , este es el

lenguaje que aceptamos para la información que
nos devuelve el servidor. En este caso es fr
Frances, pero podria ser es o en.

Respuesta

Fundamentos de Web Scrapping con Python y Xpath 2

 Tenemos la version del protocolo HTTP 1.1. Tambien contamos con el codigo de estado o status code, en
este caso nos devuelve 200, esl cual significa que todo salio bien!

 Tenemos la fecha y hora en la cual se genero esta respuesta.

 Contamos con el servidor con el cual se realizo esta respuesta, en este caso es apache, pero tambien podria
ser nginx.

 Tenemos la ultima fecha de modificación en la que se modifico esta respuesta en particular.

 Tenemos una Etag, la cual tiene que ver con el caché(no se ve en el curso).

Permite a la memoria caché ser más eficiente, y ahorrar ancho de banda, en tanto que un servidor web
no necesita enviar una respuesta completa si el contenido no ha cambiado.

Por otro lado, si el contenido cambió, los etags son útiles para ayudar a prevenir actualizaciones
simultáneas de un recurso de sobre-escribirlo por otro (“colisiones en el aire”).

 Tenemos el Accept-Ranges el cual nos dice el tipo de dato que recibiremos, en este caso bytes.

 ¿Cuantos Bytes? En este caso lo delimita el Content-Length, el cual en este caso son 29 769 bytes o 29,7
KiloBytes.

 Y finalemente el Content-Type este es el tipo de respuesta que contiene el cuerpo de la respuesta del
servidor. Siendo text/html.

¿Donde se ubica HTTP en la web?

De abajo hacia arriba.

IP Internet Protocol, a partir del cual salen las

direcciones IPv4 e IPv6 que identifican a nuestro
computador de manera unica.

TCP Transmission Control Protocol, protocolo

que estable como se transfiere información a bajo
nivel.

UDP User Data Protocol, bastante parecido al

TCP. Permite el envío de datagramas a través de
la red sin que se haya establecido previamente
una conexión, ya que el propio datagrama
incorpora suficiente información de
direccionamiento en su cabecera.

TLS Transport Layer Security tiene que ver con

el encriptado de esta información.

DNS Domain Name System es lo que resuelve un

nombre de dominio a una IP, transformando de
platzi.com a 104.20.19.218 .

Fundamentos de Web Scrapping con Python y Xpath 3

Sobre todo esto se ubica HTTP, permitiendonos
transportar HTML, CSS, JavaScript, Web API´s.

Investigar Status Code y como enfrentarnos a estos

Investigar acerca de Cabeceras HTTP

¿Qué es HTML?
HyperText Markup Language, lenguaje que nos permite definir la estructura de una pagina web. Teniendo titulos,
parrafos, imagenes y encabezados (estructura de ejemplo)

Dentro de la web tenenmos varias partes, la estructura, estilos visuales y partes interactivas.
HTML —🡒 Estructura

CSS ——🡒 Estilos Visuales

JAVASCRIPT ⟶ Partes interactivas

Fundamentos de Web Scrapping con Python y Xpath 4

Reto: Para que sirve etiqueta script.
El elemento HTML Script ( <script> ) se utiliza para insertar o hacer referencia a un script ejecutable dentro de
un documento HTML o XHTML

Reto: Que son los metadatos y como incluirlos dentro de un documento html.
Los metadatos, literalmente «sobre datos», son datos que describen otros datos. En general, un grupo de
metadatos se refiere a un grupo de datos que describen el contenido informativo de un objeto al que se
denomina recurso.

Los metadatos se añaden dentro de la etiqueta <meta name="description" content="Esta es la descripción general de

la página"> y esta se añade en la etiqueta <head> .

Dentro de la etiqueta <head> debido a que ahi se almacenan las cabeceras del documento.

Reto: Buscar etiqueta que sirve para colocar un sitio web dentro de otro.
La etiqueta <iframe> permite insertar un documento html dentro de otro. La etiqueta <iframe> puede aparecer
como elemento de bloque o como elemento en-línea.

Robots.txt
Este archivo lo encontramos en la raiz del sitio web.

Este archivo cumple la función de informar al programador web-scrapper que no extraiga información de
estas rutas.
Definir este archivo es importante para que los web-scrappers no toquen/extraigan información sensible.

Respetar este archivo es importante, dado a que se puede incurrir en problemas legales.

User-Agent: Es la manera en
que se identifica una
computadora cunado hace una
petición a un sitio web. Con
esta linea User-Agent: * los
sitios como google, twitter o
platzi aceptan a cualquier
User-Agent, siendo un mac,
iphone, android, opera, chrome,
script de python u otros.

Fundamentos de Web Scrapping con Python y Xpath 5

Allow: /Con esta clausula se
permite la extracción o manejo
de datos a cualquier parte de
la raiz del sitio.

Disallow: /** Con esta clausula

no nos permite entrar a ciertas
rutas en especifico. Estas
tampoco son indexadas por las
arañas de google u otro motor
de busqueda.

✅ Respetar el robots.txt es question de buenas practicas

XML Path Language

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/bb66714990d642338314182087092ca
0/xpath-cheatsheet.md.pdf

XML Path Language

XML es muy parecido a HTML
Este se forma de nodos, envez de etiquetas como en HTML.

Una tecnica para extraer información de este lenguaje es usar XPath.

Al ser HTML y XML tan parecidos, podemos usar esta misma tecnica para hacer extracción de información de
paginas web.

Expresiones Regurales
Es un lenguaje que nos permite definir patrones para
encontrar coincidencias en un texto.
Supongamos que queremos buscar en un texto las
palabras que empiezan por la letra a y terminan con
la letra o. Esta linea de codigo dice que queremos
En este caso seria muy producente usar expresiones extraer el primer titulo de un span que
regulares para obtener este resultado.
esta dentro de un div.

✅ XPath es a HTML lo que las expresiones regulares son a un texto.

Tipos de Nodos
Cuando hablamos de nodo nos referimos a una etiqueta HTML con todo lo que posea en su interior.

Scraping Sandbox
A website that lists quotes from famous people. It has many endpoints showing the quotes in many
different ways, each of them including new scraping challenges for you, as described below.

http://toscrape.com

Fundamentos de Web Scrapping con Python y Xpath 6

Este sitio web es un sandbox con el cual podremos realizar practicas de web scraping sin problemas ni
preocupaciones.

Esquema HTML

Expresiones en XPath
CTRL + SHIFT + I —→ Acceder a las developer tools

Fundamentos de Web Scrapping con Python y Xpath 7

Dentro de estas comillas es donde incluiremos las
expresiones Xpath.
La primera expresión que conoceremos sera la de slash / , y
como ves en respuesta la consola nos devuelve [document] .

Slash dentro de una expresión de Xpath significa que

seleccionamos a todo el documento, es como extraer la raiz
o root del documento.

Slash también significa un salto entre nodos, cada vez que

vamos de un nivel a otro vamos a nombrarlo con slash /
dentro de nuestra expresión.

Si recuerdas la estructura básica de HTML esta se compone

de la etiqueta madre <html> y etiquetas hijo <head> y <body>

Entonces si escribimos /html dentro la expresion XPath

vemos que selecciona ese nodo.
Prácticamente seleccionamos todo el documento
nuevamente.

Si te das cuenta, para llegar a un elemento en especifico de

nuestro documento debemos escribir su ruta completa, algo
que en algunos casos puede volverse tedioso y
contraproducente.

Para eso existe solución! Se llama Doble Slash // .

Esta expresión nos permite hacer saltos entre los niveles del
HTML.
En este caso queremos extraer todos los nodos que tienen
de nombre h1 .

Esto devuelve en este caso el unico nodo h1 en esta web.

Otra expresión útil es la llamada text()

Si escribimos después del nodo que acabamos de extraer

/a/text() esto nos trae justamente el texto que contiene este

nodo. Nodo /a debido a que el texto esta dentro de esta

etiqueta en el HTML.
Pero, ¿como lo podemos visualizar? Para esto necesitaremos
solo lo que se ubica al interior de las comillas //h1/a/text() y
Python .💚
Fundamentos de Web Scrapping con Python y Xpath 8
Existe una forma para visualizar este texto en el navegador,
usando JavaScript.
Simplemente se usa el método map con la dot notation al
igual que en Python asigna a cada índice de un objeto
iterable una misma función.
En este caso seria $x('//h1/a/text()').map(x ⇒ x.wholeText)

Y nos devuelve el texto del titulo de la pagina que seria

"Quotes to Scrape".

Cabe recalcar que se puede usar con todos los nodos del
documento, como en este caso todas las etiquetas de
hipertexto del documento HTML.
Usando la siguiente declaración $x('//a/text()').map(x ⇒

x.wholeText)

En esta linea declaramos (antes del punto) que queremos

extraer todos los nodos de hipervínculo, etiqueta HTML <a>
y luego usamos el método map para que se nos muestre en
pantalla.

Como vez en la primera imagen, si usamos solo el . punto

nos muestra las etiquetas hijas. Pasaría lo mismo si solo
escribiéramos $x('//span')

El punto significa que seleccionamos el nodo actual.

¿Que hacemos si queremos acceder a la etiqueta padre, la

etiqueta de más arriba?
Fácil, al igual que en la consola de comando tipeamos ..

Si usamos el .. doble punto veremos las etiquetas padre.

O sea, las que están en un nivel superior, pero nos las
saltamos con anterioridad usando el // doble slash.

Necesariamente si necesitamos extraer atributos de un nodo,

¿que hacemos?

Se usa el @ arroba en la expresión de Xpath.

En ese caso traeremos los atributos de tipo class de span.
Y vemos que el navegador nos trae todos los atributos class
en ese nodo.

Además con esto podemos extraer todas las clases de los

divs.

Predicados en XPath
Debido a que debemos filtrar de una forma mucho más especifica en nuestros nodos y encontrar esa
información que queremos extraer usaremos los predicados.

Fundamentos de Web Scrapping con Python y Xpath 9

Si miras la declaración, vez que la respuesta de la
consola son dos div, fácilmente podemos seleccionar
a ambas dejándolo tal como esta, pero que pasa si
solo queremos solo el primer div div.row.header-box ?
En este caso se usan los predicados. Cuando
queremos una respuesta especifica.
En el interior de los brackets colocamos el índice del
elemento (se cuenta desde izquierda a derecha,
desde el 1.

Como vez, extrajimos solo el div.row.header-box que

queríamos con la ayuda de los predicados.

Imaginemos que tenemos un documento con muchos

div , ¿como le hacemos cuando queramos solo el

ultimo de estos?
Usando el predicado (el cual en sí es un metodo)
[last()] , como dice su nombre, tomara el ultimo div .

Imaginemos que queremos traer todos los nodos de

tipo span pero como condición quiero que tengan por
lo menos un atributo de tipo class
Si recordamos para extraer todos los span usamos el
doble slash // y para llamar atributos usamos el
arroba @ . El atributo lo introducimos dentro de
nuestro predicado ( [] ).

📌 Cada vez que veas un @ antes de un

nombre quiere decir que ese nombre es un
atributo

Conociendo esto podemos ser más específicos en

nuestras declaraciones, en el siguiente ejemplo
haremos que nos traiga un atributo especifico.

Ahora queremos específicamente que nos traiga un

atributo de tipo class y que además esa clase tenga
por nombre o sea igual a "text" .

📌 Solo sirven las comillas dobles "" al interior

del predicado. Olvidate de las comillas
simples ahi dentro.

Para refrescas la memoria usaremos la expresion

text() y el método map() para visualizar el texto.

Como vez en la imagen esto nos devuelve las citas de

la pagina web, debido a que estas se escuentran
dentro de un span que tiene como atributo la clase
text

Es hora de presentarte una herramiento muy util del

navagador.
Puedeas activarlo desde la zona izquiera que se ve en
la imagen o con el shortcut CTRL + SHIFT + C

Esta herramienta nos permite saber el nodo en el cual

se encuetra nuestra información a extraer.

Fundamentos de Web Scrapping con Python y Xpath 10

📌 Es muy util y siempre que qeuramos extraer
algo de alguna web es una buena idea
usarlo.

Operadores en XPath
Como hemos visto desde el principio de nuestro primer lenguaje de programación, existen distintos tipos de
operadores aritméticos, los cuales tienen un uso bastante importante en todos lados.

📌 Los operadores + los predicados son una forma muy eficiente de extraer datos.

Por defecto en nuestras declaraciones ya usabamos

un operador, el cual corresponde a la igualdad.

También podemos usar el de desigualdad. El cual nos

trae una clase que sea distinta que "text" . Si te das
cuenta, recoge todos los elementos con una clase
distinta a "text"

Otra cosa interesante es que podemos usar el método position() , el cual requiere un operador para que nos sea
útil.
Aquí si es útil usar el operador de:

igualdad =

Aquí se usa para referirnos a que posición

queremos que sea exactamente igual, en este
caso que 1.

desigualdad !=

Lo usamos para indicar que queremos un

elemento en la posición distinta a la dada, en este
queremos todos los elementos distintos a 1.

mayor >

Lo usamos para indicar si queremos un elemento

en la posición mayor a la indicada, en este caso
queremos todos los mayores que uno.

menor <

Se usa para indicar que queremos los elementos

menores a la posición indicada, en este caso

Fundamentos de Web Scrapping con Python y Xpath 11

queremos todos los menores que 2.

mayor o igual >=

Al igual que su homologo mayor que, este se

encarga de seleccionar los elementos mayores e
iguales que el valor de posición ingresado. En este
caso queremos todos los elementos de posición
mayor o igual que 1.

menor o igual <=

Nos entrega todos los valores menores e iguales

que el valor ingresado. En este caso queremos
todos los elementos en posiciones menores o
iguales a 1.

Operadores Logicos
Si recuerdas tu primer lenguaje de programación, existen operadores de tipo logico, los cuales son and , or y
not .

Operador and : Este nos sirve para buscar entre

nodos que posean la etiqueta text y la etiqueta
tag-item . Esta declaración nos devuelve un

objeto vacío, dado a que no existe en el

documento un nodo de tipo span que posea una
clase text y tag-item a la vez.

Operador or : Este operador nos es útil para

extraer información de el nodo span con clase
text y/o del nodo mismo nodo con clase tag-

item , haciendo así, búsquedas por cada uno de los

atributos declarados en el predicado, al revés del

el operador and el cual nos hace búsquedas de
ambas clases (concatenadas) por nodo. Como ves
en la imagen, nos trae varios nodos span.text y
span.tag-item .

Operador not : Este operador funciona

declarando la palabra not delante de un atributo
(@) y colocar este dentro de unas comillas eg.
not(@class).

Así negaremos la declaración y la respuesta de

esta será todos nodos que (según la imagen) nos
posean la clase text .

🔥 Usando los operadores podemos ampliar nuestra capacidad de extracción de información.

Wildcards en XPath
Que pasa si no sabemos que nodo queremos traer pero aproxiamdamente sabemos el lugar en donde se
encuentra.
Para estos casos en XPath tenemos los wildcards o comodines.

Asterisco *

Nos trae todo los nodos que están inmediatamente

Fundamentos de Web Scrapping con Python y Xpath 12

después del nodo html . Sucede lo mismo en la segunda
imagen, el asterisco nos traer solo los nodos que están
inmediatamente después de el nodo body .

Este wildcard podemos usarlo para traer nodos que

no sabemos exactamente como se llaman pero si
donde están.
Por ejemplo, si usamos la siguiente declaración
$x('//*') esta nos trae todos los nodos del

documento.
En especifico con esta expresión le decimos al
navegador que saltemos todos los niveles ( // ) en
todas las direcciones ( * ), por lo tanto el navegador
nos trae todos los todos y atributos de estos nodos.

Otro ejemplo interesante sería la siguiente declaración

$x('//span[@class="text"]/@*') , la cual nos trae todos

los atributos @ de todos los nodos * que están

inmediatamente después del nodo de tipo span que
tienen como clase text .

Un ejemplo bastante útil seria la siguiente declaración

$x('/html/body//div/@*') , la cual nos trae todo los

atributos dentro de todos los divs dentro del nodo

html/body.
Otra forma forma de explicarlo seria ⤵
A partir de html nos traemos el nodo body luego
saltamos niveles // y nos traemos todos los divs
(después de body ) y de estos divs nos traemos todos
los atributos.

node()

Es usado para traernos todo, sí, todo lo que esta en los nodos y más allá (como el contenido), a diferencia de *

que solo nos trae los nodos existentes inmediatos a el nodo actual.

Nos traeremos todos los span existentes que tengan

una clase text y que tengan un atributo de tipo
itemprop que cuyo valor sea también text y de aquí

nos traeremos todo lo inmediatamente después con

node() .

Si usamos * no nos retornara nada 😢👉

Esto debido a que * solo localiza nodos, no
elementos o texto, como lo hace node() .

Claramente, si vemos este nodo, podemos determinar que el texto de las citas no están dentro de un nodo <p>

esta dentro de el nodo span . Sabiendo esto, podemos determinar si usamos el * o node() .

In-Text Search en XPath

Problema: Queremos extraer todos los nombre de los autores que empiecen por la letra A y terminen con la letra
N.

Fundamentos de Web Scrapping con Python y Xpath 13

Starts-with
La declaración comienza buscando todos los nodos
smallen la cual se ubican todo los nombres de los
autores, luego usamos predicados para especificar
que clase queremos author y con que letra queremos
que comience starts-with .
Usando starts-with() , en esta incluimos lo siguiente
dentro de paréntesis (.,"A") . La función del punto .
es indicar en que nodo buscar, en este caso lo busca
en el nodo actual, la letra "A" nos indica que debe
iniciar con dicha letra.
Luego de eso especificamos que queremos extraer
solo el texto con text() y lo mostramos con el
método map(x=>x.wholeText) .
Esto nos extrae 4 resultados.

Contains
El método contains nos sirve para filtrar por los elementos que contenga nuestro nodo.

Buscamos todos los nodos small

//small con clase author @class="author"

y que contenga contains en ese nodo .

la cadena in "in" .
Luego extraemos el texto con text() y
lo mostramos en pantalla con el método
map .

Ends-With
Esta expresión no funciona en el XPath 1.0 de los buscadores (a día de hoy 10082020, pero si funciona en
Python, así que no te preocupes, el syntax que veremos será el mismo que en Python.

En esta expresión declaramos que queremos todos

los nodos small , los cuales contengan una clase de
nombre "author" @class="author" y terminen con n en
el mismo nodo.
Luego extraemos el texto text() y lo mostramos con
el método map

Matches
Matches nos sirve para hacer una busqueda en el texto de un nodo que coincida con cierta expresión regular

En esta expresion queremos que nos traiga los

autores que comienzen con la letra A A. y terminen
con la letra n *n .
En esta expresion obvie explicar que queremos
traernos todos los autores del nodo small que tengan
como clase author y que haga match con lo ya
mencinonado
Esto para luego extraer el texto y mostrarlo en
pantalla con map.

🔥 En ends-with como matches nos causa un error debido a que estas son expresiones de XPath 2.0, las
cuales no soporta el navegador, pero sí Python 🐍
AXES en XPath

Fundamentos de Web Scrapping con Python y Xpath 14

¿Que pasaria si necesitaramos el nodo padre de un nodo? Usariamos a la expresión .. para acceder a este.
¿Que pasa si no solo te pido el padre y te pido todos los ancestros? Para esto existen las Axes.
Como le indico de forma explicita al navegador que me traiga el mismo div?

Facil! Usando el . seria la forma

más rapida.

Tambien podemos usar los Axes

para hacerlo de manera completa
self::div , usando self :: y el

nombre del nodo donde estamos.

🔥 El punto . es azucar
syntaxica para usarlo
envez de axes.

Hijos
Y con los axes no solo me puedo traer al nodo en sí mismo, tambien me puede traer a los hijos.

En la 3era imagen vemos que nos trae los hijos del

nodo div, usando la forma child:: + el nodo actual.

Descendientes
Si queremos a los nietos/descendientes usamos
+ nombre del nodo. Descendant nos trae
descendant::

todos los nodos despues del actual incluyendo los

hijos.

Descendientes + nodo actual

Ahora quiero traerme los descendientes y también el
nodo actual. Esto lo logramos con descendant-or-
self::div .

Con esto nos traemos la unión entre los

descendientes de este nodo y el nodo en sí mismo.

Resumen de XPath

Fundamentos de Web Scrapping con Python y Xpath 15

Aplicando lo aprendido
Primero que todo usaremos la pagina
http://books.toscrape.com/
En esta tenemos una librería virtual en la cual nos será
muy útil para trabajar nuestras habilidades de web
scrapper.

Tarea
Extraer Titulo
Primero localice el nodo en el cual se ubica todo el
apartado del nombre div[@class="col-sm-6
product_main"] , de este nodo extraje el h1 y su texto
con text() para luego mostrarlo con el método
map(x⇒x.wholeText)

Extraer Precio
Para extraer el precio use la expresion anterior y solo
modifique el h1 por el p en el cual se halla la clase
price_color y luego lo mostré en pantalla con text() y

el método map

Extraer Descripción
Para este reto use algo distinto,
use el //* el cual buscara todo
en todos lados, para especificar
lo que quería use los predicados
y seleccione el atributo
@id="content_inner" , en el cual
seleccione el nodo article y en
este su nodo p y en este use el
wildcard node() . Para mostrarlo

Fundamentos de Web Scrapping con Python y Xpath 16

use el método de toda la vida
map .
Además hice la prueba con text()
en la segunda imagen, es la
misma logica, solo con distinto
método.

Extraer Stock
Para esto solo use las
declaraciones de costumbre.
La respuesta si usáramos node()

seria casí la misma.

Reto Extra

Superamos el reto, el cual era bastante facil!

Por si las moscas

Cuando usar value?
Se usa cuando los queremos acceder al valor de los
atributos
En este caso queremos acceder al atributo title del
nodo a, si quisieramos de la misma forma podríamos
acceder al atributo href

Traer nodos hermanos

Con el uso de esta Axe podrás traer el nodo hermano
siguiente al actual.
following-sibling:: + nodo.

Con esto podremos acceder al nodo hermano

siguiente.

Fundamentos de Web Scrapping con Python y Xpath 17

Proyecto: Scrapper De
Noticias

Fundamentos de Web Scrapping con Python y Xpath 18

También podría gustarte

Java para Principiantes
Aún no hay calificaciones
Java para Principiantes
1060 páginas
Traducido Del Ande
Aún no hay calificaciones
Traducido Del Ande
582 páginas
Fundamentos de Web Scrapping Con Python y Xpath
100% (1)
Fundamentos de Web Scrapping Con Python y Xpath
33 páginas
Diseño Web Funcional
Aún no hay calificaciones
Diseño Web Funcional
39 páginas
Manual Jquery Mobile PDF
Aún no hay calificaciones
Manual Jquery Mobile PDF
49 páginas
Reporte Industria Videojuegos MX 2018
100% (1)
Reporte Industria Videojuegos MX 2018
103 páginas
Manual CSS3
Aún no hay calificaciones
Manual CSS3
24 páginas
Bibliotecas JavaScript
Aún no hay calificaciones
Bibliotecas JavaScript
29 páginas
ESP32-Web Server-Control - IoT
0% (1)
ESP32-Web Server-Control - IoT
7 páginas
Usos y Tipos de Aplicaciones Moviles
Aún no hay calificaciones
Usos y Tipos de Aplicaciones Moviles
25 páginas
La Inteligencia Artificial Reinventa El Sector Moda
Aún no hay calificaciones
La Inteligencia Artificial Reinventa El Sector Moda
105 páginas
Curso Bsico de Visualizacin de Datos Con Matplotlib y Seaborn
Aún no hay calificaciones
Curso Bsico de Visualizacin de Datos Con Matplotlib y Seaborn
66 páginas
▷ Guía completa de Eloquent ORM en Laravel 【2024)
Aún no hay calificaciones
▷ Guía completa de Eloquent ORM en Laravel 【2024)
11 páginas
1 - Preparación Entrevista Técnica
Aún no hay calificaciones
1 - Preparación Entrevista Técnica
16 páginas
10 - APIs
100% (1)
10 - APIs
32 páginas
Curso Excel Avanzado
50% (2)
Curso Excel Avanzado
8 páginas
Slides Del Curso de Python Intermedio
100% (1)
Slides Del Curso de Python Intermedio
91 páginas
Excel Comunidad Vecinos
Aún no hay calificaciones
Excel Comunidad Vecinos
79 páginas
Chuleta Excel
Aún no hay calificaciones
Chuleta Excel
9 páginas
Ebook Ciencia de Datos Con R
Aún no hay calificaciones
Ebook Ciencia de Datos Con R
27 páginas
Manual de Consultas Helisa
Aún no hay calificaciones
Manual de Consultas Helisa
199 páginas
Manual JavaScript
Aún no hay calificaciones
Manual JavaScript
5 páginas
Semana 3 Introduccin A JavaScript y Jquery
Aún no hay calificaciones
Semana 3 Introduccin A JavaScript y Jquery
28 páginas
Data Science Platzi 3
Aún no hay calificaciones
Data Science Platzi 3
6 páginas
Navarro - Creación de Efectos Visuales Mediante La Generación de Gráficos Procedurales, Partícula...
Aún no hay calificaciones
Navarro - Creación de Efectos Visuales Mediante La Generación de Gráficos Procedurales, Partícula...
50 páginas
Unidad 2. Sintaxis de JavaScript
Aún no hay calificaciones
Unidad 2. Sintaxis de JavaScript
52 páginas
Adquisición y Almacenamiento de Datos: Magister de Data Science
Aún no hay calificaciones
Adquisición y Almacenamiento de Datos: Magister de Data Science
180 páginas
Seaborn
Aún no hay calificaciones
Seaborn
46 páginas
Probabilidad Phyton
Aún no hay calificaciones
Probabilidad Phyton
13 páginas
Tema 10 - HTML - JavaScript
Aún no hay calificaciones
Tema 10 - HTML - JavaScript
65 páginas
Guía de Uso de Automator
100% (2)
Guía de Uso de Automator
26 páginas
Trabajo1 Big Data
Aún no hay calificaciones
Trabajo1 Big Data
20 páginas
10 TKinter
Aún no hay calificaciones
10 TKinter
25 páginas
Aproximation
Aún no hay calificaciones
Aproximation
40 páginas
CameraRaw Apuntes2022
Aún no hay calificaciones
CameraRaw Apuntes2022
13 páginas
Capítulo 3 El Lenguaje C# y Diseño de Formas. Programación Orientada A Objetos en C#
Aún no hay calificaciones
Capítulo 3 El Lenguaje C# y Diseño de Formas. Programación Orientada A Objetos en C#
31 páginas
Tipos de Software
100% (1)
Tipos de Software
3 páginas
Guía de Desarrollo de Aplicaciones para Smartphones y Tabletas (2a Edición) PDF
Aún no hay calificaciones
Guía de Desarrollo de Aplicaciones para Smartphones y Tabletas (2a Edición) PDF
330 páginas
Openxava Course8 Business Logic Behavior - Es PDF
Aún no hay calificaciones
Openxava Course8 Business Logic Behavior - Es PDF
31 páginas
Aprende Python
Aún no hay calificaciones
Aprende Python
55 páginas
Memoria Del Proyecto - Videojuegos para Aprender A Programar Videojuegos PDF
Aún no hay calificaciones
Memoria Del Proyecto - Videojuegos para Aprender A Programar Videojuegos PDF
161 páginas
Chuleta Javascript
Aún no hay calificaciones
Chuleta Javascript
5 páginas
Programación MATLAB - Sample
Aún no hay calificaciones
Programación MATLAB - Sample
44 páginas
Curso Excel Teleduc
Aún no hay calificaciones
Curso Excel Teleduc
13 páginas
Librerias Python
Aún no hay calificaciones
Librerias Python
9 páginas
Mega Tutorial de Audacity en Español
Aún no hay calificaciones
Mega Tutorial de Audacity en Español
18 páginas
Chuleta GIT PDF
Aún no hay calificaciones
Chuleta GIT PDF
10 páginas
Introducción A Bootstrap
Aún no hay calificaciones
Introducción A Bootstrap
4 páginas
Intr Prologo FORTRAN
Aún no hay calificaciones
Intr Prologo FORTRAN
4 páginas
Tutorial de Composer
Aún no hay calificaciones
Tutorial de Composer
3 páginas
Tutorial API REST Con Python y Flask
Aún no hay calificaciones
Tutorial API REST Con Python y Flask
8 páginas
Practica MongoDB
Aún no hay calificaciones
Practica MongoDB
5 páginas
1 Adobe Animate CC - Avanzado-Crear Interactividad HTML5 O
Aún no hay calificaciones
1 Adobe Animate CC - Avanzado-Crear Interactividad HTML5 O
8 páginas
SYMFONY Chuletazo
Aún no hay calificaciones
SYMFONY Chuletazo
5 páginas
Pasos para Crear Una Fan Page para Tu Negocio en Facebook
100% (1)
Pasos para Crear Una Fan Page para Tu Negocio en Facebook
21 páginas
Catalogo Videotutoriales HD8UN1
Aún no hay calificaciones
Catalogo Videotutoriales HD8UN1
6 páginas
Deepin
Aún no hay calificaciones
Deepin
6 páginas
Examen Android
Aún no hay calificaciones
Examen Android
7 páginas
Cómo Aprender A Programar en C
Aún no hay calificaciones
Cómo Aprender A Programar en C
10 páginas
Conceptos de Programación de Obra
Aún no hay calificaciones
Conceptos de Programación de Obra
3 páginas
Lab 10 - Fundamentos de Scripts en Linux
Aún no hay calificaciones
Lab 10 - Fundamentos de Scripts en Linux
5 páginas
Terminos y Condiciones Bodega Despensa A Tu Casa
Aún no hay calificaciones
Terminos y Condiciones Bodega Despensa A Tu Casa
12 páginas
4 Programando+en+JS
Aún no hay calificaciones
4 Programando+en+JS
17 páginas
Segunda Clase Senati
Aún no hay calificaciones
Segunda Clase Senati
29 páginas
Documento de Integración Pago Web - Desacoplado v1.0.6
Aún no hay calificaciones
Documento de Integración Pago Web - Desacoplado v1.0.6
45 páginas
Glosario de Las Redes Sociales
Aún no hay calificaciones
Glosario de Las Redes Sociales
24 páginas
Modelo de Programación 3 Capas
Aún no hay calificaciones
Modelo de Programación 3 Capas
3 páginas
27.1.5 Lab - Convert Data Into A Universal Format
Aún no hay calificaciones
27.1.5 Lab - Convert Data Into A Universal Format
12 páginas
Los Nombres de Dominio
Aún no hay calificaciones
Los Nombres de Dominio
19 páginas
Módulo 2. Navegadores y Buscadores
Aún no hay calificaciones
Módulo 2. Navegadores y Buscadores
16 páginas
Medios de Comunicación Digitales
Aún no hay calificaciones
Medios de Comunicación Digitales
2 páginas
Introducción A JavaScript
Aún no hay calificaciones
Introducción A JavaScript
4 páginas
Caracteristicas de Los Servidores Web A2
Aún no hay calificaciones
Caracteristicas de Los Servidores Web A2
5 páginas
Mapa Mental Primer Parcial
Aún no hay calificaciones
Mapa Mental Primer Parcial
1 página
Gestores de Contenidos Tema 1
Aún no hay calificaciones
Gestores de Contenidos Tema 1
7 páginas
Tutorial Miro
100% (1)
Tutorial Miro
8 páginas
Notas - Curso Basico de Python
Aún no hay calificaciones
Notas - Curso Basico de Python
8 páginas
Manual Jabber
Aún no hay calificaciones
Manual Jabber
27 páginas
Guia - Congresos o Eventos 2023
Aún no hay calificaciones
Guia - Congresos o Eventos 2023
5 páginas
Notas - Administración de Servidores Linux
Aún no hay calificaciones
Notas - Administración de Servidores Linux
41 páginas
Edición Básica en Visual Studio Code
Aún no hay calificaciones
Edición Básica en Visual Studio Code
15 páginas
Notas Curso de Estadistica Computacional
Aún no hay calificaciones
Notas Curso de Estadistica Computacional
17 páginas
Conceptos Basicos Sobre Internet
Aún no hay calificaciones
Conceptos Basicos Sobre Internet
17 páginas
El Mohammadiane Tarbift Abdelhak LMSGI05 Tarea
Aún no hay calificaciones
El Mohammadiane Tarbift Abdelhak LMSGI05 Tarea
7 páginas
Trabajo Práctico - Internet
Aún no hay calificaciones
Trabajo Práctico - Internet
1 página
Manipulación Del DOM
Aún no hay calificaciones
Manipulación Del DOM
3 páginas
Actividad3.3 Install Dominio Core
Aún no hay calificaciones
Actividad3.3 Install Dominio Core
2 páginas
Guia 2
Aún no hay calificaciones
Guia 2
3 páginas
Diferencias Entre Buscadores y Metabuscadores
Aún no hay calificaciones
Diferencias Entre Buscadores y Metabuscadores
2 páginas
Guia Ejercicio Limites
Aún no hay calificaciones
Guia Ejercicio Limites
1 página
Rosa y Beige Gráfico Plano Azúcar Química Reporte
Aún no hay calificaciones
Rosa y Beige Gráfico Plano Azúcar Química Reporte
1 página
Multi-Platform TV Templates To Support Ginga and HBBTV Development
Aún no hay calificaciones
Multi-Platform TV Templates To Support Ginga and HBBTV Development
10 páginas
100 ejercicios en C# para Unity: Cómo mejorar tu kungfú
De Everand
100 ejercicios en C# para Unity: Cómo mejorar tu kungfú
Jorge García Colmenar
Aún no hay calificaciones
Testing de Videojuegos
De Everand
Testing de Videojuegos
Ricardo Izquierdo Díaz
Aún no hay calificaciones