Consulta Scraping Python
Consulta Scraping Python
Para extraer del texto fuente únicamente la información que le interesa al usuario, se utiliza un
tipo software especial. Se trata de los programas llamados web scrapers, crawlers, spiders o,
simplemente, bots, que examinan el texto fuente de las páginas en busca de patrones concretos y
extraen la información que contienen. Los datos conseguidos mediante web
scraping posteriormente se resumen, combinan, evalúan o almacenan para ser usados más
adelante.
Python, el popular lenguaje de programación se presta especialmente bien para la creación de
programas de web scraping. Puesto que las páginas web han de ser constantemente modificadas
y actualizadas, sus contenidos cambian con el tiempo. Puede que cambie su diseño, por
ejemplo, o que se les añadan nuevos elementos. Los web scrapers se desarrollan teniendo en
cuenta la estructura específica de una página web, de forma que, si dicha estructura
cambia, el scraper también debe modificarse. Este proceso resulta especialmente sencillo con
Python.
Asimismo, Python tiene como puntos fuertes el procesamiento de texto y la apertura de recursos
web, dos de las bases técnicas del web scraping. Python es, además, un estándar consolidado en
materia de análisis y procesamiento de datos. Por si esto fuera poco, Python ofrece un
amplísimo ecosistema de programación, que cuenta con bibliotecas, proyectos de código
abierto, documentación y referencias explicativas del lenguaje, así como entradas de foros,
informes de error y artículos de blog.