You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
まあ何がやりたかったって スパムチェック的な類似度チェッカーです。 こんなかんじ。 類似度チェッカー 全く違うURLだと5~10%くらいになって ちょっと関係がある(リンク紹介してたり)すると20%くらいかな 同じブログの違う記事とかだと40%くらいになって 60%超えたらかなり似てるページってかんじのラインです。 例えば wikiの アイスランドのページとアイルランドのページとかでやると 重複度77%とかになります。 Googleは言語にとらわれない解析方法を使っているとのことなので、 高確率で、どっかにNgramは使ってると思うので、 デュプリケイトコンテンツとかの参考に使えるかなーと。 一応ソース公開 たいしたものじゃないんですが、たいしたものじゃないだけに ソースくらい出しとけというお話です。 アルゴリズム的には単純に ・URLからタグを引っぺがす ・出てきたテキストのNgram(
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く