スクレイピング(Web scraping)とは、Webサイトのコンテンツから特定の情報だけを抽出・収集する技術・行為である。
概要
インターネットには莫大な情報が眠っており、その中の情報をひとつひとつ見ていたのでは時間がかかりすぎてしまう。例えばニコニコ静画やpixiv、Twitter(現X)などで人形のずんだもんのイラストがほしいのに膨大な画像の中から一つ一つ調べたりしないだろう、そこでニコニコ静画内の「ボイスロイド・ずんだもん(人形)」で検索して出てきた画像を取得する。これをツールで自動化したものを「スクレイピング」と呼ぶ。
身も蓋もない言い方をすると「他のホームページの情報をパクってくること」である。
スクレイピングはスクリプトなどでサイトの情報を取得して、その中から特定の情報を使いやすいように加工して自分のサイトに持ってきたり、HDDに保存したりするのが主な流れである。
ニコニコ静画で例えると、「ニコニコ静画で取得した画像で人形のずんだもんの全年齢向けの画像(R-15でない画像)を新しい順に保存する。この際閲覧数やコメント、コンテンツツリーを削除する」みたいな感じである。
この行為自体はGoogle等の検索エンジンも検索でサイトを表示するためにやっている他、ニコニコ大百科でもオススメの動画や記事で引っ張ってきている。(記事の内容とサムネイルの画像が一致していないこともあるが・・・)
ChatgptやNovel AIなどの生成AIもスクレイピングの繰り返しで出来上がった賜物と言えるだろう。
但し、スクレイピングを行ったサイトのサーバーに負担をかける行為である他、著作権侵害などのルール違反になる可能性になる可能性があるので注意すること。
関連動画
関連項目
- 1
- 0pt