Skip to content

cnchenpu/dsc-crawling

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Python 爬蟲實戰

下載程式與投影片

  1. 請於上課前下載好投影片與程式碼,程式碼可透過這個頁面右邊的 Clone or download 下載 demo

課前準備: 強烈建議安裝 Anaconda

pip install selenium tldextract Pillow

optional - for 資料分析,沒有練習題但會有範例 code 可以執行,可自行選擇是否安裝 (如果安裝 wordcloud 時有問題,可能是沒有下載 visual studio,可以從 warining 中提供的網址下載安裝)

pip install jieba wordcloud

  • 若無安裝 Anaconda 則須按照您的環境安裝以下套件
pip3 install requests beautifulsoup4 lxml Pillow selenium tldextract

optional - for 資料分析,沒有練習題但會有範例 code 可以執行,可自行選擇是否安裝

pip3 install numpy pandas matplotlib scipy scikit-learn jieba wordcloud

由於大家環境都不太相同,如果安裝上有任何問題歡迎來信詢問

請遵守別人定義的爬蟲規則

有些網站會在目錄底下加上 robots.txt, 基本上這就是對方定義的爬蟲規則,請大家在練習爬蟲的時候要尊重對方的規則

robots.txt 詳細的語法與用途請參考 wikigoogle 文件

Q&A

Q: 有哪些常用的 API

課堂中有說到,爬蟲只是一種得到資料的手段,如果對方有提供 API 就可以直接使用 API, API 通常對方都會幫你整理好資料格式,或是根據權限決定你可以獲取的資料內容

About

Python crawling tutorial for dsc course

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 70.9%
  • HTML 22.7%
  • Python 6.4%