Web Scraping
Web Scraping
Web Scraping
• Permite generar grandes volúmenes de datos que luego pueden ser incorporadas como fuentes de
información
• Hay técnicas que ayudan a detener pedidos automatizados, incluyendo bloqueo de IP y agregado de
captchas
Pantalla de
Autodetect
La pantalla principal de Octoparse 8
Selector de acciones
Selector de vista
Navegador
Editor
de Workflow
Previsualizador de datos
2) Creamos un ciclo de paginación
1 Ir hacia abajo en el browser hasta encontrar el botón de página siguiente, y clickearlo
1 Iniciar Octoparse 7
Crearemos nuestro primer scraper.
Los pasos a realizar serán:
Selector de
Navegador
acciones
2) Creamos un ciclo de paginación
1 Ir hacia abajo en el browser hasta encontrar el botón de página siguiente, y clickearlo
Es importante
entender el orden de
ejecución
5) Ejecutamos el Scraper
1 Iniciamos la extracción 3 Al finalizar podemos exportar los datos para
luego usarlos en PowerBI como fuente
Pegar la primera dirección de la lista Crear un loop para recorrer todos los domicilios
Extraer coordenadas de Google Maps
1) Crear Crawler (2)
Armamos un loop con las direcciones a recorrer
Extraer coordenadas de Google Maps
1) Crear Crawler (3)
Luego del Enter Text, tenemos que decirle a Google Earth que busque esa dirección
Por cómo funciona Google Maps (AJAX), la página no carga cada vez de forma completa, sino
que solo se cargan los cambios
Por lo tanto hay que decirle desactivar la opción de retry cuando no hay cambios
Extraer coordenadas de Google Maps
2) Extraer URLs
Hasta aquí nuestro crawler navegó una lista de domicilios
por Google Maps, pero no extrajo ningún dato
Extraemos la URL de la página
Extraer coordenadas de Google Maps
3) Extraer Coordenadas de la URL
RegEx = Regular Expression = Una cadena de texto especial que puede ser usada para hallar patterns de texto
dentro de los datos
Extraer coordenadas de Google Maps
3) Extraer Coordenadas de la URL (2)
Extraer coordenadas de Google Maps
3) Extraer Coordenadas de la URL (3)
Extraer coordenadas de Google Maps
3) Extraer Coordenadas de la URL (4)