Consulta Scraping Python
Web scraping con Python
La World Wide Web está compuesta por muchos millones de documentos enlazados entre sí,
conocidos también como páginas web. El texto fuente de las páginas web está escrito en el
lenguaje Hypertext Markup Language (HTML). Los códigos fuente en HTML son una mezcla
de informaciones legibles para los humanos y códigos legibles para las máquinas,
llamados tags o etiquetas. El navegador, como puede ser Chrome, Firefox, Safari o Edge,
procesa el texto fuente, interpreta las etiquetas y presenta al usuario la información que
contienen.
Para extraer del texto fuente únicamente la información que le interesa al usuario, se utiliza un
tipo software especial. Se trata de los programas llamados web scrapers, crawlers, spiders o,
simplemente, bots, que examinan el texto fuente de las páginas en busca de patrones concretos y
extraen la información que contienen. Los datos conseguidos mediante web
scraping posteriormente se resumen, combinan, evalúan o almacenan para ser usados más
adelante.
Python, el popular lenguaje de programación se presta especialmente bien para la creación de
programas de web scraping. Puesto que las páginas web han de ser constantemente modificadas
y actualizadas, sus contenidos cambian con el tiempo. Puede que cambie su diseño, por
ejemplo, o que se les añadan nuevos elementos. Los web scrapers se desarrollan teniendo en
cuenta la estructura específica de una página web, de forma que, si dicha estructura
cambia, el scraper también debe modificarse. Este proceso resulta especialmente sencillo con
Python.
Asimismo, Python tiene como puntos fuertes el procesamiento de texto y la apertura de recursos
web, dos de las bases técnicas del web scraping. Python es, además, un estándar consolidado en
materia de análisis y procesamiento de datos. Por si esto fuera poco, Python ofrece un
amplísimo ecosistema de programación, que cuenta con bibliotecas, proyectos de código
abierto, documentación y referencias explicativas del lenguaje, así como entradas de foros,
informes de error y artículos de blog.
Más concretamente, existen varias herramientas consolidadas diseñadas para hacer web
scraping con Python. Te presentamos tres de las más
conocidas: Scrapy, Selenium y BeautifulSoup. Si quieres empezar a practicar, puedes echarle un
vistazo a nuestro tutorial de web scraping con Python, en el que utilizamos BeautifulSoup, que
te ayudará a entender el proceso de scraping.