[B! scraping] lesamoureusesのブックマーク

lesamoureuses id:lesamoureuses

scrapingに関するlesamoureusesのブックマーク (9)

Web::Query now supports ->parent and ->size - tokuhirom's blog
lesamoureuses 2011/02/24
おぉぉ。あるliを基準に他のliを取得するみたいなのを良くやるので嬉しい。

web-query

scraping

perl
リンク
perl - HTMLをXMLとして扱う : 404 Blog Not Found
2009年02月19日08:30 カテゴリLightweight Languages perl - HTMLをXMLとして扱うそのXML::Liberalが test でこけまくっていたところから旅が始まった。ゆーすけべー日記: 壊れた Premiere (映像編集ソフト) のプロジェクトファイルが XML::Liberal (Perlモジュール) で直ったということは、なんとかして壊れたプロジェクトファイルを「well formed」な XML にすればいいじゃないのか！と思ったわけ。そこで活躍したのが「XML::Liberal」という miyagawa プロダクトな Perl モジュール。やりたかったのは、XHTMLでないHTMLを、XML::*なモジュールで扱うこと。例えばXML::LibXMLを使えば、JavaScriptみたいな感覚でDOMを操作できるし、XML::Sim
lesamoureuses 2009/02/20
＞。HTMLを直に操作するより高速なのだ。HTML::DOMというモジュールがあるのだが、これを使うより、XHTMLにしてからXML::LibXMLを使った方が速いのだ。

perl

html-dom

xml-libxml

parser

scraping

samplecode
リンク
ゆーすけべー日記
サキとは彼女の自宅近く、湘南台駅前のスーパーマーケットで待ち合わせをした。彼女は自転車で後から追いつくと言い、僕は大きなコインパーキングへ車を停めた。煙草を一本吸ってからスーパーマーケットへ向かうと、ひっきりなしに主婦的な女性かおばあちゃんが入り口を出たり入ったりしていた。時刻は午後5時になる。時計から目を上げると、待たせちゃったわねと大して悪びれてない様子でサキが手ぶらでやってきた。お礼に料理を作るとはいえ、サキの家には食材が十分足りていないらしく、こうしてスーパーマーケットに寄ることになった。サキは野菜コーナーから精肉コーナーまで、まるで優秀なカーナビに導かれるように無駄なく点検していった。欲しい食材があると、2秒間程度それらを凝視し、一度手に取ったじゃがいもやら豚肉やらを迷うことなく僕が持っているカゴに放り込んだ。最後にアルコール飲料が冷やされている棚の前へ行くと、私が飲むからとチ
lesamoureuses 2007/12/19
youtube

gdata

scraping

api
リンク
Yahoo! Pipes の Page Fetch モジュールでスクレイピングし放題 - てっく煮ブログ
pipesこのブログでも何度か Yahoo! Pipes の話題は取り上げてきましたが、先日実装された「Page Fetch」モジュールは素敵すぎます。ほんとに。今まで、Yahoo! Pipes といえば、XML・CSV か Yahoo が提供してるサービスのデータを加工することしかできませんでした。それが、「Page Fetch」モジュールの登場により、任意の Web ページを加工できるようになったのです。Yahoo! Pipes の使い道といえば、次の２つだと思います。1. RSSリーダーで読むための XML 作り複数の RSS を結合したり、見た目を整えたりして、自分専用の RSS を作る。（例）サイトの最新被ブックマークを livedoor Reader で読むための Pipes2. Web サービスとの連携JSONP に対応してるので、JavaScript と組み合わせてサーバ
lesamoureuses 2007/12/13
ここまでできるようになったのか書く必要なくなりそうだ＞「Page Fetch」モジュールを使って、ページ内のブックマーク一覧をスクレイピングしてます。

Fetch Page

これはすごい

pipes

scraping

webservice

y!
リンク
http://www.quarkruby.com/2007/9/5/firequark-quick-html-screen-scraping
lesamoureuses 2007/10/31
＞Firequark is an extension to Firebug to aid the process of HTML Screen Scraping.

scraping

js

firefox

firebug

css
リンク
Web::Scraper で XPath と CSS セレクタを混ぜて使う例 - Tociyuki::Diary
Web::Scraper はいたれりつくせりの仕掛けが仕込んであって、便利ですね。私が、割と良く使っている機能は以下 2 つです。 process の第一引数に、CSS セレクタだけでなく、XPath も指定できます。ただし、XPath を指定するときは先頭を必ずスラッシュ(/)で始めなければいけません。 process の第二引数以降の、値をどこから取得するかを指定する部分に、コード・リファレンスを置くこともできます。これを使うと、DOM ツリー中の値を加工して抽出することができます。具体例として、デイリーポータルZのアーカイブ一覧の中からべつやくれいさんのエントリを抽出してみることにします。まず、アーカイブ・ページのエントリ部分を取り出してやると、こうなっています。 <TD width="580" valign="top" class="tx12px"> <P> <B><FONT c
lesamoureuses 2007/08/29
Web::ScraperでXPathを使う。デイリーの例。

web-scraper

cpan

scraping

scraper

perl

xpath

css
リンク
Web::Scraper便利! - はこべにっき ♨
naoyaのはてなダイアリー - Web::Scraperを見て。これはよさそう。ソース読んでみると単純に値を取得する以外にも、どうやら、配列で結果を受け取ったり、サブルーチンを渡して処理を委譲したりできるようなので、ためしにやってみよう。 use strict; use warnings; use Web::Scraper; use URI; use YAML; use Encode; my %result; sub parse_title { my $node = shift; my $text = $node->as_text; my $left = decode_utf8('『'); my $right = decode_utf8('』'); my ($nth, $title, $date) = $text =~ m/^\[(.*?)\]\s+$left(.*?)$right(.
lesamoureuses 2007/08/29
使い方。サブルーチンを渡すとか。

scraper

perl

scraping

cpan

web-scraper
リンク
ブログが続かないわけ | Web::Scraper 使い方(超入門)
３年前にこの本に出会って、僕はスクレーピングの虜になった。おかげで正規表現をたくさん書く機会が得られたし、CPANのモジュールともたくさん触れ合うことができたし、さらに自分自身でも構造化されたHTMLを書く習慣も身についた。ただ、やっぱり、スクレーピングは簡単ではない部分もたくさんあると思う。文字コードについても意識しなければならないし、なにより正規表現で必要な部分を抽出することそのものが結構骨のいる作業だ。HTML::TreeBuilder を使った方がいいのか、それとも正規表現だけでやったほうが楽なのか。そんなことを考慮しながらコーディングして行く。そこがスクレーピングの楽しいところでもあるのだが、そこがスクレーピングの敷居を高いものにしていることも否めない。そんな、愛らしくもあり憎たらしくもあるスクレーピングを簡単にやってしまうのがこのモジュール、Web::Scraper だ。
lesamoureuses 2007/07/22
Synopsysの説明

scraping

perl

cpan

web-scraper
リンク
Web::Scraper - naoyaのはてなダイアリー
Today I've been thinking about what to talk in YAPC::EU (and OSCON if they're short of Perl talks, I'm not sure), and came up with a few hours of hacking with web-content scraping module using Domain Specific Languages. 使ってみたよ! #!/usr/local/bin/perl use strict; use warnings; use FindBin::libs; use URI; use Web::Scraper; use Encode; use List::MoreUtils qw/uniq/; my $links = scraper { process 'a.key
lesamoureuses 2007/05/22
これは便利だなぁ。その辺のHTMLを取ってきて加工するのも楽だなぁ

cpan

miyagawa

naoya

perl

scraping

web-scraper
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx