0% acharam este documento útil (0 voto)
8 visualizações3 páginas

APIs (Formato Recomendado)

O documento fornece orientações sobre como acessar dados de sites por meio de APIs e ferramentas de web scraping, destacando a importância de respeitar leis de direitos autorais e regulamentos de proteção de dados. Sugere o uso de ferramentas sem código como Google Sheets e Octoparse para usuários não técnicos, além de cuidados ao realizar scraping, como evitar sobrecarga de servidores. Também menciona alternativas éticas, como contatar responsáveis pelos dados e utilizar bases de dados públicas.

Enviado por

rdtrezes
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato DOCX, PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
8 visualizações3 páginas

APIs (Formato Recomendado)

O documento fornece orientações sobre como acessar dados de sites por meio de APIs e ferramentas de web scraping, destacando a importância de respeitar leis de direitos autorais e regulamentos de proteção de dados. Sugere o uso de ferramentas sem código como Google Sheets e Octoparse para usuários não técnicos, além de cuidados ao realizar scraping, como evitar sobrecarga de servidores. Também menciona alternativas éticas, como contatar responsáveis pelos dados e utilizar bases de dados públicas.

Enviado por

rdtrezes
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato DOCX, PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 3

3.

APIs (Formato Recomendado)

 O que é: Muitos sites oferecem APIs oficiais para acesso


estruturado aos dados.

 Como descobrir:

o Verifique a seção "Developers" ou "API" do site.

o Inspecione a rede do navegador (F12 → aba "Network")


para ver chamadas de API.

 Exemplo:

python

Copy

import requests

url = "URL_DA_API"

response = requests.get(url)

dados = response.json() # Supondo que a API retorne JSON

print(dados)

4. Ferramentas Sem Código

 Para usuários não técnicos:

o Google Sheets: Use a


função IMPORTHTML ou IMPORTXML.

 Exemplo: =IMPORTHTML("https://site.com", "table",


1) para extrair tabelas.

o Octoparse ou ParseHub: Ferramentas visuais para criar


fluxos de scraping.

o Excel: Opção "Dados da Web" (disponível em versões


recentes).

Passo a Passo Básico (Web Scraping)

1. Analise a estrutura da página:


o Abra o site, clique com o botão direito → "Inspecionar"
(F12).

o Identifique as tags HTML que contêm os dados (ex: <div


class="nomes">...</div>).

2. Teste seletores CSS/XPath:

o Use document.querySelectorAll('li.nome') no console do


navegador para verificar se os elementos são
encontrados.

3. Escreva o script:

o Adapte o código Python/JavaScript conforme a estrutura


do site.

4. Execute e salve os dados:

o Exporte para CSV, Excel ou um banco de dados.

Cuidados Importantes

 Respeite a lei:

o A Lei de Direitos Autorais (como a DMCA nos EUA) protege


dados mesmo que públicos.

o Na UE, o GDPR regula a coleta de dados pessoais.

 Evite sobrecarregar o servidor:

o Adicione delays (ex: time.sleep(2) no Python) entre as


requisições.

 Dados dinâmicos:

o Sites como React, Angular ou Vue.js exigem ferramentas


que renderizem JavaScript (ex: Selenium ou Puppeteer).

Alternativas Éticas

1. Contate os responsáveis: Peça permissão ou acesso aos


dados via e-mail.

2. Use bases de dados públicas:

o Kaggle (https://www.kaggle.com/datasets)

o Data.gov (dados governamentais).


o Repositórios acadêmicos.

Se precisar de ajuda técnica específica (ex: código para um site em


particular), compartilhe mais detalhes (sem URLs sensíveis), e posso
orientá-lo de forma ética!

Você também pode gostar