以下のhtmlのコード部分だけをphpを使って、スクレイピングしたいです。

Question

tsukasa343

2

0もっと見る

ウェブ制作

以下のhtmlのコード部分だけをphpを使って、スクレイピングしたいです。

具体的には下のo行目からz+p行目までをスクレイピングしたいです。

正規表現を記述してみたのですが、ｐｈｐでうまく動作しません。
どのように正規表現を、変更すればいいでしょうか？

---------------------------------------------------------
o、p、x、y、z、は任意の2以上の自然数とします。
「hoge」は任意の文字列とします。

・・・・・・・・
o行目:「hoge」

・・・・・・・・

x行目:「hoge」

・・・・・・・・

ｙ行目:「hoge」「hoge」

・・・・・・・・

z行目:「hoge」
・・・・・・・・
z+1行目:
・・・・・・・・

z+p行目:「hoge」
・・・・・・・・
--------------------------------------------------------
自分が記述した正規表現は以下の通りです。

'{(.*)((<span(.*))*)(.*)}s'

わかりにくいものになってすいません。
回答をお願いします。

回答の条件

1人5回まで

登録：2012/11/15 11:19:00
終了：2012/11/22 11:20:03

コメントはまだありません

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

rouge_2008 · Answer 1 · 2012-11-16T15:52:28+09:00

内のspanの個数が決まっているのでしたら、次のようにするとマッチする正規表現になります。

#<span class="i">(.*?</span>){5}#s

の中の要素数が定まっていない場合、別の条件が必要になりますが、質問で提示している部分の直後に何か判定に使えるような記述はないのでしょうか？
あるいは、の中に、他に何か決まった要素はないでしょうか？
何もない場合は正規表現は適さないので、きちんと構造化されたHTMLなのでしたら、XPathを利用した方がいいと思います。
XPathを利用するライブラリもいくつかあるようです。

・PHPでのスクレイピングに役立つライブラリ色々
http://phpspot.org/blog/archives/2008/03/php_94.html

リンク先情報元(PHPでのスクレイピングに役立つライブラリ - (DxD)∞)より

HTMLScraping
HTMLをXML化してDOMやXPathで操作できるクラス。主にHTTP_Request+HTMLParser(XML_HTMLSax3を含む)/Tidy+Cache_Liteという構成で、スクレイピングに必要なものが一通り揃っている。ライセンスはLGPL他。
WebScraper
シンプルな汎用スクレイピングクラス。HTTP_Client+HTMLParser(XML_HTMLSax3を含む)という構成で、XPathで要素を抽出できる。自分好みにカスタマイズするのに最適。ライセンスは修正BSDライセンス他。

以下のhtmlのコード部分だけをphpを使って、スクレイピングしたいです。

回答（1件）

rouge_20085953512012/11/16 15:52:28

コメント（0件)

この質問への反応（ブックマークコメント）