0% encontró este documento útil (0 votos)
100 vistas34 páginas

Web Scraping

Este documento describe técnicas de web scraping con Power BI y Octoparse. Explica cómo usar Power BI para extraer datos de una página web sin tablas mediante ejemplos. Luego, detalla el proceso de web scraping avanzado con Octoparse, incluyendo cómo crear bucles de páginas y elementos, seleccionar datos para extraer, y ejecutar el scraper. Finalmente, muestra otro ejemplo de cómo usar Octoparse para extraer coordenadas de Google Maps a partir de una lista de direcciones.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
100 vistas34 páginas

Web Scraping

Este documento describe técnicas de web scraping con Power BI y Octoparse. Explica cómo usar Power BI para extraer datos de una página web sin tablas mediante ejemplos. Luego, detalla el proceso de web scraping avanzado con Octoparse, incluyendo cómo crear bucles de páginas y elementos, seleccionar datos para extraer, y ejecutar el scraper. Finalmente, muestra otro ejemplo de cómo usar Octoparse para extraer coordenadas de Google Maps a partir de una lista de direcciones.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 34

Data Analytics con Power BI

Web Scraping

Scraping Básico con PowerBI


Scraping avanzado con Octoparse
Definición y usos
Web scraping es una técnica que usa programas de software para extraer información de sitios web.
Estos programas suelen simular la navegación de un humano ya sea utilizando el protocolo HTTP
manualmente, o incrustando un navegador en una aplicación.

• Es una técnica utilizada por la mayoría de los motores de búsqueda web

• Permite generar grandes volúmenes de datos que luego pueden ser incorporadas como fuentes de
información

• Puede tener cuestiones legales asociadas

• Hay técnicas que ayudan a detener pedidos automatizados, incluyendo bloqueo de IP y agregado de
captchas

• En bajo nivel suele usarse Python y programarse para cada sitio.


En más alto nivel hay aplicaciones como Scrapy, Parsehub, Dexi.io, Import.io, Octoparse y varias más
https://www.scraperapi.com/blog/the-10-best-web-scraping-tools/
PowerBI: Información desde una Web sin tablas
Power BI nos da la opción de obtener los datos de una web mediante un método
bastante rápido y sin utilizar software externo

1 Obtenemos datos desde una WEB como 2 Cuando abre la


veníamos haciendo ventana para
elegir las tablas
clickeamos donde
dice
AGREGAR TABLA
MEDIANTE
https://www.garbarino.com/productos/parlantes/4348 EJEMPLOS
PowerBI: Información desde una Web sin tablas
3 En la nueva ventana tendremos una vista previa de la web y debajo tendremos la
posibilidad de escribir los datos que necesitamos guardar

4 Escribimos los títulos de la información que


necesitamos guardar y automáticamente nos va a
mostrar datos sugeridos.
Si la pagina web esta bien diseñada, al seleccionar
2 o 3 ítems nos autocompletará el resto de los
datos

5 Finalmente marcamos “Aceptar” y la tabla se


cargara al modelo de datos

Al igual que con el resto de los métodos, si la


información de la web se actualiza y no cambia la
estructura, nuestras tablas también se actualizarán!!!
Web Scraping Avanzado
Extrayendo información de la web de forma automatizada

1 Iniciar Octoparse (ejemplo con v8)


Crearemos nuestro primer scraper.
2 Los pasos a realizar serán:
3

1. Abrir el sitio web


2. Crear un ciclo de paginación
3. Crear un ciclo para el ítem
4. Seleccionar los datos que
extraeremos
5. Correr la tarea creada
1) Abrir el sitio web a scrapear
Autodetect

Pantalla de
Autodetect
La pantalla principal de Octoparse 8

Barra de herramientas generales

Selector de acciones
Selector de vista

Navegador
Editor
de Workflow

Previsualizador de datos
2) Creamos un ciclo de paginación
1 Ir hacia abajo en el browser hasta encontrar el botón de página siguiente, y clickearlo

2 En el selector de acciones elegir “Loop click single URL”

3 Notar que apareció un nuevo bloque en el workflow


3) a) Solo queremos este nivel de profundidad
Elegimos los ítems a capturar
4 Notemos que actualmente estamos en la segunda página

Necesitamos volver a la primera, así que en el Workflow


clickeamos “Go To Webpage” para volver a la primera

5 Elegimos datos a extraer en el navegador


3) a) Solo queremos este nivel de profundidad
Elegimos los ítems a capturar
6 Hacemos lo mismo con los precios (Seleccionar Moneda y precio en mismo click)

7 Elegimos las imágenes (las 2 primeras)


3) a) Solo queremos este nivel de profundidad
Crear un ciclo para el item
8 Ajustamos los títulos de los campos

9 Grabamos y ejecutamos el scraper


3) b) Queremos entrar a cada artículo
Crear un ciclo que clickea cada el item
4 Limpiamos el loop de paginación eliminando los pasos de
extracción y loop

5 Seleccionamos los títulos de los elementos y en lugar de


“Extract Text” elegimos “Loop click each element”
4) Seleccionar los datos que extraeremos
En la página interna que se abre, seleccionar los ítems que queremos extraer
Web Scraping Avanzado
Extrayendo información de la web de forma automatizada

1 Iniciar Octoparse 7
Crearemos nuestro primer scraper.
Los pasos a realizar serán:

1. Abrir el sitio web


2. Crear un ciclo de paginación
3. Crear un ciclo para el ítem
4. Seleccionar los datos que
extraeremos
2 5. Correr la tarea creada
1) Abrir el sitio web a scrapear
La pantalla principal de Octoparse 7

Barra de herramientas generales

Editor del Workflow Propiedades del paso actual

Selector de
Navegador
acciones
2) Creamos un ciclo de paginación
1 Ir hacia abajo en el browser hasta encontrar el botón de página siguiente, y clickearlo

2 En el selector de acciones elegir “Loop click the selected link”

3 Notar que apareció un nuevo bloque el el workflow


3) Crear un ciclo para el ítem (2)
3 Clickeamos el primer ítem de la página.
Ese ítem se resalta en verde mientras que los demás ítems
similares de la página se resaltan en Rojo.
Si esto ocurre, elegimos “Select All” en el Selector de Acciones
Si esto no ocurre para todos los títulos de la página, es necesario
clickear el primer ítem del mismo tipo que no se encuentre
resaltado

4 Clickeamos “Loop click each element” Notar que:


en el selector de acciones a) Apareció un nuevo b) El navegador entró al
paso en el workflow primer ítem de la página
4) Seleccionar los datos que extraeremos
Esta es la estructura de cada ítem en la página que estamos scrapeando
4) Seleccionar los datos que extraeremos (2)
1 Vamos clickeando todos los datos que querremos Notar que si nos equivocamos, podemos iniciar todo de
extraer nuevo con Undo Action o deshacer la última selección
con Undo Selection

3 Podemos seleccionar algunos campos más.


Según el tipo de elemento se activará Extract
Data o bien Extraxt text from selected item
2 Una vez que elegimos los campos que queremos,
seleccionamos “Extract Data”
4) Seleccionar los datos que extraeremos (3)
4 Seleccionamos una imagen y nos quedamos con 5 Una vez finalizado podemos editar los nombres
el link de los campos del archivo de salida

6 Grabamos nuestro Scraper

Es importante
entender el orden de
ejecución
5) Ejecutamos el Scraper
1 Iniciamos la extracción 3 Al finalizar podemos exportar los datos para
luego usarlos en PowerBI como fuente

2 Indicamos que lo haremos localmente


(para scrapear a la nube, necesitamos subscripción paga)
Otro ejemplo
Extraer coordenadas de Google Maps a partir de un listado de
domicilios
Extraer coordenadas de Google Maps
Parte 1: Obtener la fuente de datos
El primer paso implica conseguir el listado de direcciones y para eso usamos Octoparse sobre alguna
dirección de ejemplo

Los pasos a realizar serán:

1. Abrir el sitio web


2. Seleccionar los datos que extraeremos
3. Correr la tarea creada
4. Generar un archivo Excel de salida que será la entrada a otra tarea
5. Moldear ese archivo Excel para que sus datos funcionen con GMaps

Estos pasos podemos hacerlos sin asistencia basados en el ejemplo previo


Extraer coordenadas de Google Maps
Parte 2: Procesar la fuente con Maps / Setup general
Veamos cómo se comporta Google Earth cuando buscamos una de estas direcciones

En ningún lugar de la página web expone las coordenadas.


Sin embargo en la URL sí lo hace!

Crearemos un nuevo scraper con


los siguientes pasos:

1. Crear un crawler (que use la


lista de direcciones)
2. Extraer las URLs
3. Quedarse con la parte de la
URL que nos interesa
4. Disparar proceso
Extraer coordenadas de Google Maps
1) Crear crawler

Pegar la primera dirección de la lista Crear un loop para recorrer todos los domicilios
Extraer coordenadas de Google Maps
1) Crear Crawler (2)
Armamos un loop con las direcciones a recorrer
Extraer coordenadas de Google Maps
1) Crear Crawler (3)
Luego del Enter Text, tenemos que decirle a Google Earth que busque esa dirección

Por cómo funciona Google Maps (AJAX), la página no carga cada vez de forma completa, sino
que solo se cargan los cambios
Por lo tanto hay que decirle desactivar la opción de retry cuando no hay cambios
Extraer coordenadas de Google Maps
2) Extraer URLs
Hasta aquí nuestro crawler navegó una lista de domicilios
por Google Maps, pero no extrajo ningún dato
Extraemos la URL de la página
Extraer coordenadas de Google Maps
3) Extraer Coordenadas de la URL

Delimitador de inicio Datos de interés Delimitador de fin


Podemos hacer esta extracción con PowerBI o utilizar una herramienta de Octoparse, llamada RegEx Editor

RegEx = Regular Expression = Una cadena de texto especial que puede ser usada para hallar patterns de texto
dentro de los datos
Extraer coordenadas de Google Maps
3) Extraer Coordenadas de la URL (2)
Extraer coordenadas de Google Maps
3) Extraer Coordenadas de la URL (3)
Extraer coordenadas de Google Maps
3) Extraer Coordenadas de la URL (4)

También podría gustarte