0% acharam este documento útil (0 voto)

8 visualizações3 páginas

APIs (Formato Recomendado)

O documento fornece orientações sobre como acessar dados de sites por meio de APIs e ferramentas de web scraping, destacando a importância de respeitar leis de direitos autorais e regulamentos de proteção de dados. Sugere o uso de ferramentas sem código como Google Sheets e Octoparse para usuários não técnicos, além de cuidados ao realizar scraping, como evitar sobrecarga de servidores. Também menciona alternativas éticas, como contatar responsáveis pelos dados e utilizar bases de dados públicas.

Enviado por

rdtrezes

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato DOCX, PDF, TXT ou leia on-line no Scribd

0% acharam este documento útil (0 voto)

8 visualizações3 páginas

APIs (Formato Recomendado)

Enviado por

rdtrezes

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato DOCX, PDF, TXT ou leia on-line no Scribd

Você está na página 1/ 3

3.

APIs (Formato Recomendado)

 O que é: Muitos sites oferecem APIs oficiais para acesso

estruturado aos dados.

 Como descobrir:

o Verifique a seção "Developers" ou "API" do site.

o Inspecione a rede do navegador (F12 → aba "Network")

para ver chamadas de API.

 Exemplo:

python

Copy

import requests

url = "URL_DA_API"

response = requests.get(url)

dados = response.json() # Supondo que a API retorne JSON

print(dados)

4. Ferramentas Sem Código

 Para usuários não técnicos:

o Google Sheets: Use a

função IMPORTHTML ou IMPORTXML.

 Exemplo: =IMPORTHTML("https://site.com", "table",

1) para extrair tabelas.

o Octoparse ou ParseHub: Ferramentas visuais para criar

fluxos de scraping.

o Excel: Opção "Dados da Web" (disponível em versões

recentes).

Passo a Passo Básico (Web Scraping)

1. Analise a estrutura da página:

o Abra o site, clique com o botão direito → "Inspecionar"
(F12).

o Identifique as tags HTML que contêm os dados (ex: <div

class="nomes">...</div>).

2. Teste seletores CSS/XPath:

o Use document.querySelectorAll('li.nome') no console do

navegador para verificar se os elementos são
encontrados.

3. Escreva o script:

o Adapte o código Python/JavaScript conforme a estrutura

do site.

4. Execute e salve os dados:

o Exporte para CSV, Excel ou um banco de dados.

Cuidados Importantes

 Respeite a lei:

o A Lei de Direitos Autorais (como a DMCA nos EUA) protege

dados mesmo que públicos.

o Na UE, o GDPR regula a coleta de dados pessoais.

 Evite sobrecarregar o servidor:

o Adicione delays (ex: time.sleep(2) no Python) entre as

requisições.

 Dados dinâmicos:

o Sites como React, Angular ou Vue.js exigem ferramentas

que renderizem JavaScript (ex: Selenium ou Puppeteer).

Alternativas Éticas

1. Contate os responsáveis: Peça permissão ou acesso aos

dados via e-mail.

2. Use bases de dados públicas:

o Kaggle (https://www.kaggle.com/datasets)

o Data.gov (dados governamentais).

o Repositórios acadêmicos.

Se precisar de ajuda técnica específica (ex: código para um site em

particular), compartilhe mais detalhes (sem URLs sensíveis), e posso
orientá-lo de forma ética!

APIs (Formato Recomendado)

Enviado por

APIs (Formato Recomendado)

Enviado por

3.

APIs (Formato Recomendado)

 O que é: Muitos sites oferecem APIs oficiais para acesso

o Verifique a seção "Developers" ou "API" do site.

o Inspecione a rede do navegador (F12 → aba "Network")

dados = response.json() # Supondo que a API retorne JSON

4. Ferramentas Sem Código

 Para usuários não técnicos:

o Google Sheets: Use a

 Exemplo: =IMPORTHTML("https://site.com", "table",

o Octoparse ou ParseHub: Ferramentas visuais para criar

o Excel: Opção "Dados da Web" (disponível em versões

Passo a Passo Básico (Web Scraping)

1. Analise a estrutura da página:

o Identifique as tags HTML que contêm os dados (ex: <div

2. Teste seletores CSS/XPath:

o Use document.querySelectorAll('li.nome') no console do

o Adapte o código Python/JavaScript conforme a estrutura

4. Execute e salve os dados:

o Exporte para CSV, Excel ou um banco de dados.

o A Lei de Direitos Autorais (como a DMCA nos EUA) protege

o Na UE, o GDPR regula a coleta de dados pessoais.

 Evite sobrecarregar o servidor:

o Adicione delays (ex: time.sleep(2) no Python) entre as

o Sites como React, Angular ou Vue.js exigem ferramentas

1. Contate os responsáveis: Peça permissão ou acesso aos

2. Use bases de dados públicas:

o Data.gov (dados governamentais).

Se precisar de ajuda técnica específica (ex: código para um site em

Você também pode gostar