0% encontró este documento útil (0 votos)

100 vistas34 páginas

Web Scraping

Este documento describe técnicas de web scraping con Power BI y Octoparse. Explica cómo usar Power BI para extraer datos de una página web sin tablas mediante ejemplos. Luego, detalla el proceso de web scraping avanzado con Octoparse, incluyendo cómo crear bucles de páginas y elementos, seleccionar datos para extraer, y ejecutar el scraper. Finalmente, muestra otro ejemplo de cómo usar Octoparse para extraer coordenadas de Google Maps a partir de una lista de direcciones.

Cargado por

Nayla Medina Pilipczuk

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

100 vistas34 páginas

Web Scraping

Cargado por

Nayla Medina Pilipczuk

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 34

Data Analytics con Power BI

Web Scraping

Scraping Básico con PowerBI

Scraping avanzado con Octoparse
Definición y usos
Web scraping es una técnica que usa programas de software para extraer información de sitios web.
Estos programas suelen simular la navegación de un humano ya sea utilizando el protocolo HTTP
manualmente, o incrustando un navegador en una aplicación.

• Es una técnica utilizada por la mayoría de los motores de búsqueda web

• Permite generar grandes volúmenes de datos que luego pueden ser incorporadas como fuentes de
información

• Puede tener cuestiones legales asociadas

• Hay técnicas que ayudan a detener pedidos automatizados, incluyendo bloqueo de IP y agregado de
captchas

• En bajo nivel suele usarse Python y programarse para cada sitio.

En más alto nivel hay aplicaciones como Scrapy, Parsehub, Dexi.io, Import.io, Octoparse y varias más
https://www.scraperapi.com/blog/the-10-best-web-scraping-tools/
PowerBI: Información desde una Web sin tablas
Power BI nos da la opción de obtener los datos de una web mediante un método
bastante rápido y sin utilizar software externo

1 Obtenemos datos desde una WEB como 2 Cuando abre la

veníamos haciendo ventana para
elegir las tablas
clickeamos donde
dice
AGREGAR TABLA
MEDIANTE
https://www.garbarino.com/productos/parlantes/4348 EJEMPLOS
PowerBI: Información desde una Web sin tablas
3 En la nueva ventana tendremos una vista previa de la web y debajo tendremos la
posibilidad de escribir los datos que necesitamos guardar

4 Escribimos los títulos de la información que

necesitamos guardar y automáticamente nos va a
mostrar datos sugeridos.
Si la pagina web esta bien diseñada, al seleccionar
2 o 3 ítems nos autocompletará el resto de los
datos

5 Finalmente marcamos “Aceptar” y la tabla se

cargara al modelo de datos

Al igual que con el resto de los métodos, si la

información de la web se actualiza y no cambia la
estructura, nuestras tablas también se actualizarán!!!
Web Scraping Avanzado
Extrayendo información de la web de forma automatizada

1 Iniciar Octoparse (ejemplo con v8)

Crearemos nuestro primer scraper.
2 Los pasos a realizar serán:
3

1. Abrir el sitio web

2. Crear un ciclo de paginación
3. Crear un ciclo para el ítem
4. Seleccionar los datos que
extraeremos
5. Correr la tarea creada
1) Abrir el sitio web a scrapear
Autodetect

Pantalla de
Autodetect
La pantalla principal de Octoparse 8

Barra de herramientas generales

Selector de acciones
Selector de vista

Navegador
Editor
de Workflow

Previsualizador de datos
2) Creamos un ciclo de paginación
1 Ir hacia abajo en el browser hasta encontrar el botón de página siguiente, y clickearlo

2 En el selector de acciones elegir “Loop click single URL”

3 Notar que apareció un nuevo bloque en el workflow

3) a) Solo queremos este nivel de profundidad
Elegimos los ítems a capturar
4 Notemos que actualmente estamos en la segunda página

Necesitamos volver a la primera, así que en el Workflow

clickeamos “Go To Webpage” para volver a la primera

5 Elegimos datos a extraer en el navegador

3) a) Solo queremos este nivel de profundidad
Elegimos los ítems a capturar
6 Hacemos lo mismo con los precios (Seleccionar Moneda y precio en mismo click)

7 Elegimos las imágenes (las 2 primeras)

3) a) Solo queremos este nivel de profundidad
Crear un ciclo para el item
8 Ajustamos los títulos de los campos

9 Grabamos y ejecutamos el scraper

3) b) Queremos entrar a cada artículo
Crear un ciclo que clickea cada el item
4 Limpiamos el loop de paginación eliminando los pasos de
extracción y loop

5 Seleccionamos los títulos de los elementos y en lugar de

“Extract Text” elegimos “Loop click each element”
4) Seleccionar los datos que extraeremos
En la página interna que se abre, seleccionar los ítems que queremos extraer
Web Scraping Avanzado
Extrayendo información de la web de forma automatizada

1 Iniciar Octoparse 7
Crearemos nuestro primer scraper.
Los pasos a realizar serán:

1. Abrir el sitio web

2. Crear un ciclo de paginación
3. Crear un ciclo para el ítem
4. Seleccionar los datos que
extraeremos
2 5. Correr la tarea creada
1) Abrir el sitio web a scrapear
La pantalla principal de Octoparse 7

Barra de herramientas generales

Editor del Workflow Propiedades del paso actual

Selector de
Navegador
acciones
2) Creamos un ciclo de paginación
1 Ir hacia abajo en el browser hasta encontrar el botón de página siguiente, y clickearlo

2 En el selector de acciones elegir “Loop click the selected link”

3 Notar que apareció un nuevo bloque el el workflow

3) Crear un ciclo para el ítem (2)
3 Clickeamos el primer ítem de la página.
Ese ítem se resalta en verde mientras que los demás ítems
similares de la página se resaltan en Rojo.
Si esto ocurre, elegimos “Select All” en el Selector de Acciones
Si esto no ocurre para todos los títulos de la página, es necesario
clickear el primer ítem del mismo tipo que no se encuentre
resaltado

4 Clickeamos “Loop click each element” Notar que:

en el selector de acciones a) Apareció un nuevo b) El navegador entró al
paso en el workflow primer ítem de la página
4) Seleccionar los datos que extraeremos
Esta es la estructura de cada ítem en la página que estamos scrapeando
4) Seleccionar los datos que extraeremos (2)
1 Vamos clickeando todos los datos que querremos Notar que si nos equivocamos, podemos iniciar todo de
extraer nuevo con Undo Action o deshacer la última selección
con Undo Selection

3 Podemos seleccionar algunos campos más.

Según el tipo de elemento se activará Extract
Data o bien Extraxt text from selected item
2 Una vez que elegimos los campos que queremos,
seleccionamos “Extract Data”
4) Seleccionar los datos que extraeremos (3)
4 Seleccionamos una imagen y nos quedamos con 5 Una vez finalizado podemos editar los nombres
el link de los campos del archivo de salida

6 Grabamos nuestro Scraper

Es importante
entender el orden de
ejecución
5) Ejecutamos el Scraper
1 Iniciamos la extracción 3 Al finalizar podemos exportar los datos para
luego usarlos en PowerBI como fuente

2 Indicamos que lo haremos localmente

(para scrapear a la nube, necesitamos subscripción paga)
Otro ejemplo
Extraer coordenadas de Google Maps a partir de un listado de
domicilios
Extraer coordenadas de Google Maps
Parte 1: Obtener la fuente de datos
El primer paso implica conseguir el listado de direcciones y para eso usamos Octoparse sobre alguna
dirección de ejemplo

Los pasos a realizar serán:

1. Abrir el sitio web

2. Seleccionar los datos que extraeremos
3. Correr la tarea creada
4. Generar un archivo Excel de salida que será la entrada a otra tarea
5. Moldear ese archivo Excel para que sus datos funcionen con GMaps

Estos pasos podemos hacerlos sin asistencia basados en el ejemplo previo

Extraer coordenadas de Google Maps
Parte 2: Procesar la fuente con Maps / Setup general
Veamos cómo se comporta Google Earth cuando buscamos una de estas direcciones

En ningún lugar de la página web expone las coordenadas.

Sin embargo en la URL sí lo hace!

Crearemos un nuevo scraper con

los siguientes pasos:

1. Crear un crawler (que use la

lista de direcciones)
2. Extraer las URLs
3. Quedarse con la parte de la
URL que nos interesa
4. Disparar proceso
Extraer coordenadas de Google Maps
1) Crear crawler

Pegar la primera dirección de la lista Crear un loop para recorrer todos los domicilios
Extraer coordenadas de Google Maps
1) Crear Crawler (2)
Armamos un loop con las direcciones a recorrer
Extraer coordenadas de Google Maps
1) Crear Crawler (3)
Luego del Enter Text, tenemos que decirle a Google Earth que busque esa dirección

Por cómo funciona Google Maps (AJAX), la página no carga cada vez de forma completa, sino
que solo se cargan los cambios
Por lo tanto hay que decirle desactivar la opción de retry cuando no hay cambios
Extraer coordenadas de Google Maps
2) Extraer URLs
Hasta aquí nuestro crawler navegó una lista de domicilios
por Google Maps, pero no extrajo ningún dato
Extraemos la URL de la página
Extraer coordenadas de Google Maps
3) Extraer Coordenadas de la URL

Delimitador de inicio Datos de interés Delimitador de fin

Podemos hacer esta extracción con PowerBI o utilizar una herramienta de Octoparse, llamada RegEx Editor

RegEx = Regular Expression = Una cadena de texto especial que puede ser usada para hallar patterns de texto
dentro de los datos
Extraer coordenadas de Google Maps
3) Extraer Coordenadas de la URL (2)
Extraer coordenadas de Google Maps
3) Extraer Coordenadas de la URL (3)
Extraer coordenadas de Google Maps
3) Extraer Coordenadas de la URL (4)

También podría gustarte

Neologismo - Tecnicismo
Aún no hay calificaciones
Neologismo - Tecnicismo
2 páginas
Introducción A La Visualización de Datos
Aún no hay calificaciones
Introducción A La Visualización de Datos
36 páginas
Metodologia de Implementacion (Preparacion)
100% (1)
Metodologia de Implementacion (Preparacion)
25 páginas
MapCity API - Tutorial
Aún no hay calificaciones
MapCity API - Tutorial
13 páginas
Notas Javascript Nivel Junior
Aún no hay calificaciones
Notas Javascript Nivel Junior
27 páginas
Análisis de Decisiones - Semana 4
Aún no hay calificaciones
Análisis de Decisiones - Semana 4
12 páginas
Consulta Scraping Python
Aún no hay calificaciones
Consulta Scraping Python
1 página
Introduccion A WebScraping
Aún no hay calificaciones
Introduccion A WebScraping
12 páginas
Web Scraping - Google Drive
Aún no hay calificaciones
Web Scraping - Google Drive
27 páginas
Introducción A La Extracción de Datos de Sitios Web - Scraping - Escuela de Datos - Evidencia Es Poder PDF
Aún no hay calificaciones
Introducción A La Extracción de Datos de Sitios Web - Scraping - Escuela de Datos - Evidencia Es Poder PDF
5 páginas
Brochure Espec Web Scraping
Aún no hay calificaciones
Brochure Espec Web Scraping
10 páginas
Web Scraping Con Python Ejemplo
100% (2)
Web Scraping Con Python Ejemplo
4 páginas
Slides Del Curso de Python Intermedio
100% (1)
Slides Del Curso de Python Intermedio
91 páginas
7.spark SQL EAE
Aún no hay calificaciones
7.spark SQL EAE
68 páginas
1-Fundamentos de Web Scraping Con Python-Slidesxpath
100% (1)
1-Fundamentos de Web Scraping Con Python-Slidesxpath
34 páginas
10 - APIs
100% (1)
10 - APIs
32 páginas
Practica MongoDB
Aún no hay calificaciones
Practica MongoDB
5 páginas
Cheetsheet Jupyter Python - En.es
Aún no hay calificaciones
Cheetsheet Jupyter Python - En.es
1 página
Aproximation
Aún no hay calificaciones
Aproximation
40 páginas
Clase 3 Numpy Pandas
Aún no hay calificaciones
Clase 3 Numpy Pandas
16 páginas
Fundamentos de Web Scrapping Con Python y Xpath
100% (1)
Fundamentos de Web Scrapping Con Python y Xpath
33 páginas
Introducción A Pandas para Análisis de Series Temporales
Aún no hay calificaciones
Introducción A Pandas para Análisis de Series Temporales
46 páginas
Acceso A Bases de Datos Desde Python Con Pyodbc - Cursos de Programación de 0 A Experto © Garantizados
Aún no hay calificaciones
Acceso A Bases de Datos Desde Python Con Pyodbc - Cursos de Programación de 0 A Experto © Garantizados
6 páginas
Kivy Latest
100% (1)
Kivy Latest
392 páginas
Orange Una Herramienta de Business Intelligence y Data Mining para El Análisis Inteligente de Datos
0% (1)
Orange Una Herramienta de Business Intelligence y Data Mining para El Análisis Inteligente de Datos
10 páginas
Seaborn
Aún no hay calificaciones
Seaborn
46 páginas
30 Top Data Analytics Courses
0% (1)
30 Top Data Analytics Courses
75 páginas
Análisis y Diseño de Sistemas - Sesion 03 - Modelado de Dominio
Aún no hay calificaciones
Análisis y Diseño de Sistemas - Sesion 03 - Modelado de Dominio
27 páginas
React JS
Aún no hay calificaciones
React JS
14 páginas
Django Book Español
Aún no hay calificaciones
Django Book Español
61 páginas
Configuracion de NetBean y Eclipse para Java ME
Aún no hay calificaciones
Configuracion de NetBean y Eclipse para Java ME
32 páginas
Java FX Topicos Avanzados de Programacion
Aún no hay calificaciones
Java FX Topicos Avanzados de Programacion
11 páginas
Gradle Es
Aún no hay calificaciones
Gradle Es
49 páginas
Practico 2 - Nifi
Aún no hay calificaciones
Practico 2 - Nifi
25 páginas
Empezar A Usar Tableau Desktop (Spanish Edition) - Mansur Obregón, ABRAHAM
Aún no hay calificaciones
Empezar A Usar Tableau Desktop (Spanish Edition) - Mansur Obregón, ABRAHAM
68 páginas
Taller Big Data
100% (1)
Taller Big Data
6 páginas
Usando SQLite en Python
Aún no hay calificaciones
Usando SQLite en Python
8 páginas
Hadoop
Aún no hay calificaciones
Hadoop
15 páginas
Curso de Excel Avanzado - Clase 5 PDF
Aún no hay calificaciones
Curso de Excel Avanzado - Clase 5 PDF
9 páginas
Examen Android
Aún no hay calificaciones
Examen Android
7 páginas
Modelo Predictivo
Aún no hay calificaciones
Modelo Predictivo
10 páginas
Conceptos BW
100% (1)
Conceptos BW
61 páginas
Clase 18 - Django - Porfolio (Parte 2)
Aún no hay calificaciones
Clase 18 - Django - Porfolio (Parte 2)
52 páginas
Introducción A Scala
Aún no hay calificaciones
Introducción A Scala
72 páginas
Chuleta GIT PDF
Aún no hay calificaciones
Chuleta GIT PDF
10 páginas
Módulo 6: Copia de Seguridad de Bases de Datos: Contenido
Aún no hay calificaciones
Módulo 6: Copia de Seguridad de Bases de Datos: Contenido
76 páginas
Manual QlikView
100% (1)
Manual QlikView
52 páginas
Analisis de Datos Con Power Query - Power Pivot & Dax - Power Bi - SQL
Aún no hay calificaciones
Analisis de Datos Con Power Query - Power Pivot & Dax - Power Bi - SQL
5 páginas
02 - Django Dia 2
Aún no hay calificaciones
02 - Django Dia 2
32 páginas
Guía de Uso de Automator
100% (2)
Guía de Uso de Automator
26 páginas
CameraRaw Apuntes2022
Aún no hay calificaciones
CameraRaw Apuntes2022
13 páginas
Kivy
100% (1)
Kivy
26 páginas
Mongodbcastellano PDF
Aún no hay calificaciones
Mongodbcastellano PDF
32 páginas
Guia IngenieriaProcesadoMasivoDatos
Aún no hay calificaciones
Guia IngenieriaProcesadoMasivoDatos
10 páginas
0-0 Presentación Magíster en El Lenguaje DAX - Nivel 1
Aún no hay calificaciones
0-0 Presentación Magíster en El Lenguaje DAX - Nivel 1
16 páginas
Sincronización de Hilos
100% (1)
Sincronización de Hilos
9 páginas
Tutorial de Tecnologias NoSQL
Aún no hay calificaciones
Tutorial de Tecnologias NoSQL
175 páginas
Fundamentos de minería de datos
De Everand
Fundamentos de minería de datos
Jorge Enrique Rodríguez Rodríguez
Aún no hay calificaciones
Excel y Power Bi. El cóctel perfecto
De Everand
Excel y Power Bi. El cóctel perfecto
Francisco José Carrasco
Aún no hay calificaciones
100 ejercicios en C# para Unity: Cómo mejorar tu kungfú
De Everand
100 ejercicios en C# para Unity: Cómo mejorar tu kungfú
Jorge García Colmenar
Aún no hay calificaciones
HTML 5 Y CSS
De Everand
HTML 5 Y CSS
antonio1961
Aún no hay calificaciones
Web Scraping - INICIACION2 Envio
Aún no hay calificaciones
Web Scraping - INICIACION2 Envio
182 páginas
Apuntes de Programación Estructurada
Aún no hay calificaciones
Apuntes de Programación Estructurada
118 páginas
Colnegint49 Act2 Actualizada Editor
Aún no hay calificaciones
Colnegint49 Act2 Actualizada Editor
4 páginas
Historia de La Simulacion
Aún no hay calificaciones
Historia de La Simulacion
8 páginas
Tesis Jhordan Desarrollode Sistema de Ventas para Libreria 160814233932
Aún no hay calificaciones
Tesis Jhordan Desarrollode Sistema de Ventas para Libreria 160814233932
82 páginas
Cuestionario Edicion de Videos
Aún no hay calificaciones
Cuestionario Edicion de Videos
8 páginas
100 50 5.1 Superheat Control - En.es
Aún no hay calificaciones
100 50 5.1 Superheat Control - En.es
36 páginas
Patrones de Software
Aún no hay calificaciones
Patrones de Software
19 páginas
Generaciones de Computadoras
100% (1)
Generaciones de Computadoras
1 página
Creación de IDOCs de Orden de Compra
Aún no hay calificaciones
Creación de IDOCs de Orden de Compra
8 páginas
Encuesta para Estudiantes de Secundaria Plan Lector
Aún no hay calificaciones
Encuesta para Estudiantes de Secundaria Plan Lector
12 páginas
Ups GT004090
Aún no hay calificaciones
Ups GT004090
228 páginas
Markdown - Ipynb - Colab
Aún no hay calificaciones
Markdown - Ipynb - Colab
8 páginas
Estación Base Multi-Modal Evolución
Aún no hay calificaciones
Estación Base Multi-Modal Evolución
6 páginas
Ciclo de Instrucciones
Aún no hay calificaciones
Ciclo de Instrucciones
6 páginas
Modelo Capacitación, Entrenamiento, Inducción, Reinducción
Aún no hay calificaciones
Modelo Capacitación, Entrenamiento, Inducción, Reinducción
3 páginas
Preoperacional Herramientas Electricas
Aún no hay calificaciones
Preoperacional Herramientas Electricas
2 páginas
Sistemas de Telecontrol RS 485
Aún no hay calificaciones
Sistemas de Telecontrol RS 485
5 páginas
Po - 014 Numeracion - I
Aún no hay calificaciones
Po - 014 Numeracion - I
8 páginas
Direccionamiento Ip y Sub Redes 1
Aún no hay calificaciones
Direccionamiento Ip y Sub Redes 1
4 páginas
Guía de Aprendizaje 1 Especialización GPP 2019 Rafael Valero
Aún no hay calificaciones
Guía de Aprendizaje 1 Especialización GPP 2019 Rafael Valero
12 páginas
Tarea Logica 7
Aún no hay calificaciones
Tarea Logica 7
6 páginas
WL 920 Medida de Temperatura Gunt 1526 PDF - 1 - Es ES
Aún no hay calificaciones
WL 920 Medida de Temperatura Gunt 1526 PDF - 1 - Es ES
2 páginas
Protocolo PATs BODEGAS
Aún no hay calificaciones
Protocolo PATs BODEGAS
6 páginas
Curso Linux
Aún no hay calificaciones
Curso Linux
40 páginas
La Tecnología Multimedia Es Aquella Que Combina El Uso de Archivos de Diferentes Tipos de Origen
Aún no hay calificaciones
La Tecnología Multimedia Es Aquella Que Combina El Uso de Archivos de Diferentes Tipos de Origen
8 páginas
Cristhian Morales-CV PDF
Aún no hay calificaciones
Cristhian Morales-CV PDF
7 páginas
Instrumentación y Automatización de Plantas Concentradoras
Aún no hay calificaciones
Instrumentación y Automatización de Plantas Concentradoras
2 páginas
Informe de Pasantías
Aún no hay calificaciones
Informe de Pasantías
23 páginas