HTML,XML,PDF,DOC,XLSなどを網羅的に、RSSリーダーのような簡便さ(受け身)でチェックしたり、情報収集できるものをご存知だったら教えてください。
ConnotateTechnology http://www.connotate.com/
というサービスがあるそうですが...
Googleのような「あらゆるものを検索可能」というよりも、特定のソースの限られた箇所を定点観測できるというものを探しています。
このようなサービスの利用を特に考えているわけではなく、どういうものが世の中にあるのかを知りたいだけなので、関連する周辺の話題も教えていただけると幸いです。
DiffBrowser
http://www010.upp.so-net.ne.jp/suede/
webページの更新をチェックするソフトです。
テキスト、リンクの更新部分を表示し、キーワードで範囲を指定できます。
ちょこまかと余分な文字が入りますが、rssのページもチェックできないこともないです。
pdfは何も表示されませんでしたが、データを保存するフォルダにはそれなりのファイルが保存されとりました。
docはわかりません。たぶん無理。
どうもありがとうございます。
「前回のチェック時と比較して新たに追加されたテキスト部分を抽出して表示します。」
テーブルの扱い
セル内で改行しない:
行内で改行しない:
数字の違いを無視する。
この項目をチェックすると、時刻や日付などの数字だけが変わった場合を無視します。
意外と高機能そうですね。実用的な解析パターンがちりばめられていて素晴らしいです。
どうもありがとうございます。結構調べたい事柄に合致したサイトです。
HTMLを無理やりRSS対応にしてしまうコンセプトがいいですね。
Q:ニュースが新しく追加される仕組みをもう少し教えてください。
A:MyRSS.jpでは、登録されたサイトの過去3日間のテキストとリンク先URLをすべてデータベースに格納しています。新しく追加されるニュースとは、蓄積されたデータベースに存在しないリンク先URLを持つテキストとなります。また、ページ中に同時に同じリンク先URLをもつテキストが複数存在したときは、情報量の多いテキストをニュースとして扱います。
--
はてなアンテナの仕組みってどうなっているんだろう。ちゃんと使ったことが無いから分からないのだけれども。。。
あとの方へ追記:月100万とか使用料を採られるような有料サービスも、あったら紹介していただけると嬉しいです。
自分でやっているので半分宣伝なのですが、関連する話題です。
http://books.ivory.ne.jp/no1/
Amazonやはてなでランキング一位になっているものを日毎に記録しています。
確かに定点観測して記録してくれるサービスですね。
これは自前でスクレイピングをしているのでしょうか?それとも公開されているAPIなりなんなりを利用しているのでしょうか?
とちょっと興味がわきました。
Operaで見たら、「データがありません」ばかりでした。IE+Firefox用ですね。
どうもありがとうございます。結構調べたい事柄に合致したサイトです。
HTMLを無理やりRSS対応にしてしまうコンセプトがいいですね。
Q:ニュースが新しく追加される仕組みをもう少し教えてください。
A:MyRSS.jpでは、登録されたサイトの過去3日間のテキストとリンク先URLをすべてデータベースに格納しています。新しく追加されるニュースとは、蓄積されたデータベースに存在しないリンク先URLを持つテキストとなります。また、ページ中に同時に同じリンク先URLをもつテキストが複数存在したときは、情報量の多いテキストをニュースとして扱います。
--
はてなアンテナの仕組みってどうなっているんだろう。ちゃんと使ったことが無いから分からないのだけれども。。。
あとの方へ追記:月100万とか使用料を採られるような有料サービスも、あったら紹介していただけると嬉しいです。