0% encontró este documento útil (0 votos)
197 vistas

Consulta Scraping Python

Este documento describe el proceso de web scraping y cómo Python es un lenguaje de programación adecuado para esta tarea. Explica que el web scraping implica extraer información específica de páginas web mediante el análisis de su código fuente HTML. Además, destaca que Python es popular para web scraping debido a sus capacidades de procesamiento de texto, apertura de recursos web y análisis de datos, así como las bibliotecas disponibles como Scrapy, Selenium y BeautifulSoup.
Derechos de autor
© © All Rights Reserved
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
197 vistas

Consulta Scraping Python

Este documento describe el proceso de web scraping y cómo Python es un lenguaje de programación adecuado para esta tarea. Explica que el web scraping implica extraer información específica de páginas web mediante el análisis de su código fuente HTML. Además, destaca que Python es popular para web scraping debido a sus capacidades de procesamiento de texto, apertura de recursos web y análisis de datos, así como las bibliotecas disponibles como Scrapy, Selenium y BeautifulSoup.
Derechos de autor
© © All Rights Reserved
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 1

Consulta Scraping Python

Web scraping con Python


La World Wide Web está compuesta por muchos millones de documentos enlazados entre sí,
conocidos también como páginas web. El texto fuente de las páginas web está escrito en el
lenguaje Hypertext Markup Language (HTML). Los códigos fuente en HTML son una mezcla
de informaciones legibles para los humanos y códigos legibles para las máquinas,
llamados tags o etiquetas. El navegador, como puede ser Chrome, Firefox, Safari o Edge,
procesa el texto fuente, interpreta las etiquetas y presenta al usuario la información que
contienen.

Para extraer del texto fuente únicamente la información que le interesa al usuario, se utiliza un
tipo software especial. Se trata de los programas llamados web scrapers, crawlers, spiders o,
simplemente, bots, que examinan el texto fuente de las páginas en busca de patrones concretos y
extraen la información que contienen. Los datos conseguidos mediante web
scraping posteriormente se resumen, combinan, evalúan o almacenan para ser usados más
adelante.
Python, el popular lenguaje de programación se presta especialmente bien para la creación de
programas de web scraping. Puesto que las páginas web han de ser constantemente modificadas
y actualizadas, sus contenidos cambian con el tiempo. Puede que cambie su diseño, por
ejemplo, o que se les añadan nuevos elementos. Los web scrapers se desarrollan teniendo en
cuenta la estructura específica de una página web, de forma que, si dicha estructura
cambia, el scraper también debe modificarse. Este proceso resulta especialmente sencillo con
Python.

Asimismo, Python tiene como puntos fuertes el procesamiento de texto y la apertura de recursos
web, dos de las bases técnicas del web scraping. Python es, además, un estándar consolidado en
materia de análisis y procesamiento de datos. Por si esto fuera poco, Python ofrece un
amplísimo ecosistema de programación, que cuenta con bibliotecas, proyectos de código
abierto, documentación y referencias explicativas del lenguaje, así como entradas de foros,
informes de error y artículos de blog.

Más concretamente, existen varias herramientas consolidadas diseñadas para hacer web


scraping con Python. Te presentamos tres de las más
conocidas: Scrapy, Selenium y BeautifulSoup. Si quieres empezar a practicar, puedes echarle un
vistazo a nuestro tutorial de web scraping con Python, en el que utilizamos BeautifulSoup, que
te ayudará a entender el proceso de scraping.

También podría gustarte