0% menganggap dokumen ini bermanfaat (0 suara)

109 tayangan7 halaman

M2. Crawling Data

Workshop ini membahas tentang crawling data, termasuk teori dasar crawling serta contoh penerapannya untuk mengumpulkan data dari situs web dan media sosial. Siswa diajak untuk mempelajari sumber data dan metode crawling, kemudian melakukan percobaan scraping data cuaca dari suatu situs dengan mengekstrak periode, deskripsi, suhu, dan lainnya menggunakan library BeautifulSoup dan Pandas.

Diunggah oleh

Rifda Qurrotul 'Ain

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

109 tayangan7 halaman

M2. Crawling Data

Diunggah oleh

Rifda Qurrotul 'Ain

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 7

WORKSHOP 2

CRAWLING DATA
A. TUJUAN PEMBELAJARAN
1. Mahasiswa memahami metode pengumpulan data melalui proses crawling
2. Mahasiswa dapat melakukan crawling data dari berbagai sumber

B. DASAR TEORI
Web crawling adalah proses otomatisasi yang digunakan untuk mengumpulkan
informasi dari World Wide Web. Pada dasarnya, web crawler (atau sering disebut juga
web spider atau web robot) adalah program komputer yang secara sistematis menjelajahi
halaman web, mengikuti tautan antara halaman-halaman tersebut, dan mengambil data
dari setiap halaman yang dikunjungi. Web crawler bekerja dengan mengakses URL
(Uniform Resource Locator) atau tautan pada halaman web awal yang ditentukan. Setelah
mengakses halaman tersebut, crawler akan menganalisis dan mengumpulkan informasi
yang diperlukan, seperti teks, gambar, atau informasi struktural lainnya. Proses ini
berulang hingga seluruh tautan dalam situs web tersebut telah dijelajahi atau sampai
batasan yang ditentukan.
Crawler juga dapat mengikuti tautan eksternal yang ada dalam halaman yang
sedang dikunjungi, yang berarti mereka dapat melintasi berbagai situs web untuk
mengumpulkan data dari banyak sumber yang berbeda. Informasi yang diambil kemudian
dapat digunakan untuk berbagai tujuan, seperti pengindeksan mesin pencari, analisis data,
pengumpulan informasi untuk penelitian, dan banyak lagi. Namun, penting untuk diingat
bahwa tidak semua data yang tersedia di web dapat secara bebas diambil oleh web
crawler. Beberapa situs web menggunakan teknik tertentu untuk melindungi data mereka,
seperti file robots.txt yang memberikan instruksi kepada crawler tentang halaman mana
yang boleh atau tidak boleh diakses. Selain itu, ada juga langkah-langkah kebijakan
privasi dan hukum yang mengatur pengambilan dan penggunaan data dari situs web. Web
crawling dapat menjadi alat yang sangat berguna dalam pengumpulan data dari web,

1
tetapi perlu diperhatikan etika dan batasan hukum serta kebijakan privasi saat
menggunakan teknik ini.

Crawling data media sosial mengacu pada proses mengumpulkan informasi dari
platform media sosial menggunakan teknik web crawling yang telah dijelaskan
sebelumnya. Ini melibatkan menjelajahi halaman-halaman web dalam platform media
sosial dan mengambil data yang relevan. Pada dasarnya, langkah-langkah dalam crawling
data media sosial mirip dengan web crawling pada umumnya. Namun, ada beberapa
perbedaan tergantung pada platform media sosial yang ingin diambil datanya. Berikut
adalah langkah-langkah umum dalam crawling data media sosial:

1. Identifikasi sumber data: Tentukan platform media sosial yang ingin Anda crawl,
seperti Twitter, Facebook, Instagram, LinkedIn, YouTube, dan lain sebagainya.
2. Peroleh akses API: Jika tersedia, daftar dan peroleh kunci API (Application
Programming Interface) dari platform media sosial yang ingin Anda crawl. API
ini memungkinkan Anda untuk berinteraksi dengan platform dan mengambil data
dengan cara yang diizinkan oleh platform tersebut.
3. Tentukan parameter crawling: Pilih jenis data yang ingin Anda kumpulkan, seperti
teks, gambar, video, metadata pengguna, interaksi sosial, dan lain sebagainya.
Tentukan juga batasan waktu, kata kunci, atau filter lain yang relevan.
4. Kembangkan crawler: Gunakan bahasa pemrograman seperti Python untuk
mengembangkan program crawler yang akan mengakses API platform media
sosial dan mengambil data sesuai parameter yang ditentukan. Anda juga perlu
mengatur manajemen waktu dan jumlah permintaan untuk mematuhi kebijakan
API platform.
5. Proses dan simpan data: Setelah data diambil, proses dan simpan data dalam
format yang sesuai, seperti file CSV, JSON, atau database, untuk analisis
selanjutnya.

Penting untuk diingat bahwa saat melakukan crawling data media sosial, Anda perlu
memperhatikan kebijakan dan batasan yang diberlakukan oleh masing-masing platform.

2
Beberapa platform media sosial mungkin memiliki batasan akses dan kebijakan privasi
yang perlu diikuti. Pastikan Anda memahami dan mengikuti aturan yang berlaku untuk
penggunaan data media sosial.

Crawling dan scraping adalah dua konsep yang berbeda terkait dalam konteks
pengumpulan data dari web. Berikut adalah perbedaan utama antara crawling dan
scraping:
Crawling:
1. Tujuan: Crawling adalah proses otomatisasi yang digunakan untuk menjelajahi
dan mengumpulkan informasi dari berbagai halaman web dengan mengikuti
tautan antara halaman-halaman tersebut.
2. Skala: Crawling biasanya dilakukan pada skala yang lebih besar, mengunjungi
banyak halaman web dan mengumpulkan data dari setiap halaman yang
dikunjungi.
3. Tautan: Crawling menggunakan tautan untuk melintasi halaman web dan
memperoleh data dari berbagai sumber yang terhubung.
4. Waktu: Proses crawling berjalan secara terus-menerus atau berulang untuk
memperbarui data dan mengikuti perubahan di web.
5. Mesin Pencari: Crawling digunakan oleh mesin pencari untuk memperbarui dan
membangun indeks dari halaman-halaman web.
Scraping:
1. Tujuan: Scraping adalah proses ekstraksi data spesifik dari halaman web dengan
cara mengekstrak konten secara langsung dari kode HTML atau struktur halaman
web.
2. Spesifik: Scraping dilakukan untuk mengambil data tertentu yang ditentukan
secara spesifik, seperti judul artikel, harga produk, atau ulasan pengguna.
3. Pemrosesan: Scraping melibatkan analisis kode HTML untuk mengidentifikasi
dan mengekstrak data yang diinginkan.
4. Fokus pada Konten: Scraping bertujuan untuk mengumpulkan data yang
terstruktur dari halaman web, seringkali untuk analisis atau penggunaan lainnya.

3
5. Perlindungan: Scraping seringkali melibatkan penghindaran mekanisme
keamanan dan kebijakan privasi yang diterapkan oleh situs web yang diambil
datanya.
Meskipun crawling dan scraping memiliki perbedaan ini, seringkali kedua konsep ini
digunakan bersamaan dalam pengumpulan data dari web. Crawling digunakan untuk
menjelajahi situs web dan mengidentifikasi halaman yang akan di-scraper untuk
mendapatkan data yang spesifik.

C. TUGAS PENDAHULUAN
1. Pelajari sumber data yang dapat digunakan untuk analisis media sosial
2. Pelajari metode crawling data dari berbagai sumber

D. PERCOBAAN
Sebelum memulai scraping, kita harus tahu terlebih dahulu struktur webpage yang akan
dijadikan target. Disini kita bisa menggunakan Developer Tools pada web browser
Chrome. "Inspect Element". Pada percobaan ini kita akan melakukan Scraping Data Cuaca
Kota San Fransisco dari forecast.weather.gov.

Scroll up pada panel Elements untuk menemukan element terluar yang memuat semua teks
yang berhubungan dengan Extended Forecast. Dalam hal ini adalah tag div dengan id

4
seven-day-forecast. Jika kamu klik console dan mencoba explore tag div tersebut, akan
kamu temukan bahwa setiap forecast item (seperti today, tonight, tuesday ...) berada dalam
tag div dengan class tombstone-container.

Langkah Percobaan:
1. Import library yang diperlukan

import requests
from bs4 import BeautifulSoup

2. Lakukan scrapping menggunakan code berikut

page =
requests.get("https://forecast.weather.gov/MapClick.php?lat=37.7772&lo
n=-122.4168")
soup = BeautifulSoup(page.content, 'html.parser')
seven_day = soup.find(id="seven-day-forecast")

period = today.find(class_='period-name').get_text()
short_desc = today.find(class_='short-desc')
for br in short_desc.find_all('br'):
br.replace_with('\n' + br.text)
short_desc = short_desc.get_text().replace('\n', ' ')
temp = today.find(class_='temp').get_text()

print(period)
print(short_desc)
print(temp)

3. Lakukan percobaan pengambilan period dari website tersebut

period_tags = seven_day.select(".tombstone-container .period-name")

periods = [pt.get_text() for pt in period_tags]
periods

4. Uji coba mengambil deskripsi dari website

short_descs = [sd for sd in seven_day.select(".tombstone-container

.short-desc")]
for sd in short_descs:
for br in sd.find_all('br'):
br.replace_with('\n' + br.text)
short_descs = [sd.get_text().replace('\n', ' ') for sd in
short_descs]
short_descs

5
5. Uji coba mengambil suhu

temps = [t.get_text() for t in seven_day.select(".tombstone-container

.temp")]
temps

6. Uji coba mengambil deskripsi pada web

descs = [d["title"] for d in seven_day.select(".tombstone-container

img")]
descs

7. Menggabungkan data dengan Pandas Dataframe

import pandas as pd
weather = pd.DataFrame({
"period": periods,
"short_desc": short_descs,
"temp": temps,
"desc": descs
})

weather

8. Melakukan analisis data sederhana

temp_nums = weather["temp"].str.extract('(\d+)', expand=False)

temp_nums

weather["temp_num"] = temp_nums.astype('int')
weather

weather["temp_num"].mean()

is_night = weather["temp"].str.contains("Low")
weather["is_night"] = is_night
is_night

weather[is_night]

E. TUGAS
Lakukan crawling dan scraping data dari sebuah website kemudian jelaskan informasi
apa yang anda dapatkan dari proses tersebut.

6
F. LAPORAN RESMI
Kumpulkan hasil percobaan, latihan dan tugas di atas dan tambahkan analisis untuk tiap
percobaan, dan tugas yang telah dibuat.

G. REFERENSI
• https://medium.com/@dede.brahma2/crawling-twitter-dengan-python-936934ea1b30
• https://medium.com/@yohan.ardiansyah90/web-scraping-with-python-in-indonesian-
e-commerce-tokopedia-part-1-getting-the-data-a338ebd56306
• https://www.scrapingbee.com/blog/crawling-python/
• https://sites.unpad.ac.id/widodo/2021/02/03/web-scrapping-dengan-python/
• https://www.teknologi-bigdata.com/2021/07/python-web-scraping-beautiful-soup-
pandas-dataframe.html

Anda mungkin juga menyukai

Laporan Capstone Project Kelompok 11 Stego
Belum ada peringkat
Laporan Capstone Project Kelompok 11 Stego
12 halaman
Day-11 Maintenance Data Warehouse
Belum ada peringkat
Day-11 Maintenance Data Warehouse
36 halaman
RPS Text Mining
100% (1)
RPS Text Mining
4 halaman
Tutorial Wireshark
Belum ada peringkat
Tutorial Wireshark
4 halaman
Template Dokumen Capstone Project
Belum ada peringkat
Template Dokumen Capstone Project
5 halaman
Entity Relationship Diagram (ER Model)
100% (1)
Entity Relationship Diagram (ER Model)
31 halaman
SEKOLAH TINGGI ELEKTRONIKA DAN KOMPUTER - Tutorial Belajar Rapidminer Bagian 3 Operator Dan Proses
Belum ada peringkat
SEKOLAH TINGGI ELEKTRONIKA DAN KOMPUTER - Tutorial Belajar Rapidminer Bagian 3 Operator Dan Proses
7 halaman
Analisa Perancangan Sistem Informasi PDF
Belum ada peringkat
Analisa Perancangan Sistem Informasi PDF
149 halaman
Testing Selenium
Belum ada peringkat
Testing Selenium
5 halaman
Teknik Estimasi Biaya Dan PMBOK
Belum ada peringkat
Teknik Estimasi Biaya Dan PMBOK
14 halaman
Class Diagram: Damayanti, S.Kom., M.Kom
Belum ada peringkat
Class Diagram: Damayanti, S.Kom., M.Kom
73 halaman
Resume Data Science
Belum ada peringkat
Resume Data Science
6 halaman
Rangkuman SKJ
Belum ada peringkat
Rangkuman SKJ
3 halaman
Modul Mpti
0% (1)
Modul Mpti
135 halaman
Kelompok 1 Computer Vision
Belum ada peringkat
Kelompok 1 Computer Vision
7 halaman
Product Manager & UX Researcher
Belum ada peringkat
Product Manager & UX Researcher
3 halaman
18.4.00007 Agus Wahyu Ustinov SI-S1 M18 UAS Integrasi Sistem Informasi
Belum ada peringkat
18.4.00007 Agus Wahyu Ustinov SI-S1 M18 UAS Integrasi Sistem Informasi
6 halaman
Modul ABD
Belum ada peringkat
Modul ABD
75 halaman
Aplikasi Pemesanan Dan Penjualan Tiket Bus PT
Belum ada peringkat
Aplikasi Pemesanan Dan Penjualan Tiket Bus PT
22 halaman
LA ErlangDhikaWilisMahendra REVISI
Belum ada peringkat
LA ErlangDhikaWilisMahendra REVISI
104 halaman
Materi 4 - Data Modeling
Belum ada peringkat
Materi 4 - Data Modeling
24 halaman
Konsep Portal
Belum ada peringkat
Konsep Portal
7 halaman
Tugas Analisis Dan Desain Sistem (Setelah UAS)
Belum ada peringkat
Tugas Analisis Dan Desain Sistem (Setelah UAS)
17 halaman
Rps Pengantar Teknologi Informasi
Belum ada peringkat
Rps Pengantar Teknologi Informasi
12 halaman
Modul 6
Belum ada peringkat
Modul 6
7 halaman
Pengertian Pretty Good Privacy
Belum ada peringkat
Pengertian Pretty Good Privacy
3 halaman
Modul Konsep MVVM
Belum ada peringkat
Modul Konsep MVVM
34 halaman
Data Python
Belum ada peringkat
Data Python
126 halaman
Kapita Selekta Teknologi Informasi
Belum ada peringkat
Kapita Selekta Teknologi Informasi
6 halaman
Keamanan Jaringan
Belum ada peringkat
Keamanan Jaringan
45 halaman
Soal Pemrograman Jaringan
Belum ada peringkat
Soal Pemrograman Jaringan
1 halaman
Klasifikasi Data Mining
Belum ada peringkat
Klasifikasi Data Mining
27 halaman
001 Chap03 Studi Kasus Kelompok Proses E28093 Manajemen Proyek (Compatibility Mode)
Belum ada peringkat
001 Chap03 Studi Kasus Kelompok Proses E28093 Manajemen Proyek (Compatibility Mode)
10 halaman
Forum Konsultasi Publik
Belum ada peringkat
Forum Konsultasi Publik
13 halaman
1 Perancangan Database
Belum ada peringkat
1 Perancangan Database
45 halaman
Database Control (SBD2)
Belum ada peringkat
Database Control (SBD2)
19 halaman
Basic Penetration Testing
Belum ada peringkat
Basic Penetration Testing
4 halaman
Peran Teknologi Informasi Dalam Perkembangan e Commerce
Belum ada peringkat
Peran Teknologi Informasi Dalam Perkembangan e Commerce
32 halaman
Tantangan Dalam Kualitas Data Dan Solusinya
100% (2)
Tantangan Dalam Kualitas Data Dan Solusinya
3 halaman
Resume Sistem Operasi Symbian
50% (2)
Resume Sistem Operasi Symbian
3 halaman
Kurikulum d4 TRPL
Belum ada peringkat
Kurikulum d4 TRPL
36 halaman
Laporan Praktikum Jobsheet 6 Percobaan Python Dan Open CV
Belum ada peringkat
Laporan Praktikum Jobsheet 6 Percobaan Python Dan Open CV
7 halaman
Rencana Pengembangan Perangkat Lunak
Belum ada peringkat
Rencana Pengembangan Perangkat Lunak
29 halaman
Algoritma Kriptografi
Belum ada peringkat
Algoritma Kriptografi
31 halaman
Laporan Kerja Praktik BPBD Jawa TImur
Belum ada peringkat
Laporan Kerja Praktik BPBD Jawa TImur
77 halaman
Proposal Eny (Himsya)
Belum ada peringkat
Proposal Eny (Himsya)
34 halaman
Metodologi Pengembangan Sistem
100% (1)
Metodologi Pengembangan Sistem
43 halaman
Rancangan Database Sistem Informasi Perpustakaan
Belum ada peringkat
Rancangan Database Sistem Informasi Perpustakaan
6 halaman
Analisis Pelayanan Pengaduan Melalui Sistem Cepat Respon Masyarakat (CRM) Di Provinsi DKI Jakarta
Belum ada peringkat
Analisis Pelayanan Pengaduan Melalui Sistem Cepat Respon Masyarakat (CRM) Di Provinsi DKI Jakarta
7 halaman
Algoritma Paralel
Belum ada peringkat
Algoritma Paralel
17 halaman
Decoding
Belum ada peringkat
Decoding
179 halaman
Soal Integrasi Basis Data DG Web Xi RPL
0% (2)
Soal Integrasi Basis Data DG Web Xi RPL
3 halaman
Operasi Citra Warna
Belum ada peringkat
Operasi Citra Warna
10 halaman
Concurrency Dan Recovery Control
100% (1)
Concurrency Dan Recovery Control
13 halaman
Rumus Vlookup Dengan Dua Table Array Di Excel
Belum ada peringkat
Rumus Vlookup Dengan Dua Table Array Di Excel
3 halaman
Makalah Kelompok 6 Data Warehouse
Belum ada peringkat
Makalah Kelompok 6 Data Warehouse
20 halaman
Contoh Laporan Perancangan
100% (1)
Contoh Laporan Perancangan
7 halaman
Rekayasa Sistem Informasi
Belum ada peringkat
Rekayasa Sistem Informasi
5 halaman
Big Data
Belum ada peringkat
Big Data
22 halaman
Scraper Dan Crawler
Belum ada peringkat
Scraper Dan Crawler
14 halaman
Rangkuman X Sejin
Belum ada peringkat
Rangkuman X Sejin
31 halaman
Data Mining - Doa Amin
Belum ada peringkat
Data Mining - Doa Amin
3 halaman
19-Rifda Qurrotul A-Tugas Novel
Belum ada peringkat
19-Rifda Qurrotul A-Tugas Novel
6 halaman
Rangkuman Materi Kelas 11
Belum ada peringkat
Rangkuman Materi Kelas 11
71 halaman
Uprak Senbud
Belum ada peringkat
Uprak Senbud
7 halaman
Materi Teori SO SUCH (EF ONLINE)
Belum ada peringkat
Materi Teori SO SUCH (EF ONLINE)
3 halaman
Memahami Ushul Fikih
Belum ada peringkat
Memahami Ushul Fikih
5 halaman
Cerpen Fix
Belum ada peringkat
Cerpen Fix
11 halaman
Rifda Qurrotul 'Ain-12 IPA 3-19
Belum ada peringkat
Rifda Qurrotul 'Ain-12 IPA 3-19
3 halaman