Perlに関するkana0355のブックマーク (77)

  • tool

    語処理のツール 下記は、日語テキスト処理のための簡単なperlスクリプトです。いずれもフリーソフトです。 ただし、動作させるにはそれぞれの処理系に応じたperl(2についてはjperlのみ対応)が別途必要です。 Windows95,NT用のjperlの入手については、次のWebページの解説の「インストール手順」の部分を読んでください。 JPerl for MS-Windows ツールリスト kgrep.pl(perlによるKWICスタイルの出力を持つgrep) (使用方法) (j)perl kgrep.pl 探索文字列 [文脈長(default 32byte)] < 入力ファイル httpによるダウンロード(Webブラウザで、マウス右ボタンで「リンクに 名前をつけて保存」等を選ぶ) count.pl(jperlによる日語文字の頻度調査プログラム) (使用方法) jperl coun

  • Perlゼミ(サンプルコードPerl入門)

  • Perl で日本語テキストを字種分割

    Perl で日語テキストを字種分割 2008-02-06-2 [Programming] Perl で日語テキストを簡単に字種かたまりに分割できないかな、 と思い、perlunicode を読みながらサンプルプログラムを書いてみました。 対象テキストは UTF-8。 chunker.pl : #!/usr/bin/perl use strict; use warnings; use Encode; use utf8; use open ':utf8'; binmode STDIN, ":utf8"; binmode STDOUT, ":utf8"; while (<>) { chomp; my @cs = m/(\p{M}+|\p{N}+|\p{P}|\p{S}+|\p{Z}+|\p{C}+ |\p{Latin}+ |\p{Han}+ |\p{Hiragana}[\p{Hiragana

    Perl で日本語テキストを字種分割
  • 2008年、Webは文字列解析で変わっていく

    前回は、Perlモジュールである「Web::Scraper」を使ったスクレイピングについて説明した。Webページ(HTML)は、「構造」と「デザイン」面で比較的分離が進んできたため、CSSセレクタによるスクレイピングが有効であることが分かったはずだ。 今回の最終回では、コンテンツの自動収集と統計手法について考えてみよう。 記事内で扱っていくのは、幾つかのコンテンツをたどって、「利用頻度の高い語句を集め、話題となっているキーワードを見つけよう」というものだ。 話題のキーワードを集める手法 近年ブログのポータル上などでは、話題となっているキーワードを「利用頻度に応じたフォントサイズ」で示し、クリックすると該当の記事一覧が表示されるという仕組みが実装されているものが多い。 オルタナティブ・ブログにも似たようなものとして「話題のキーワード」が見られる。キーワードをクリックすると、Googleによる

    2008年、Webは文字列解析で変わっていく
  • Ted Pedersen - WordNet::Similarity

    This is a Perl module that implements a variety of semantic similarity and relatedness measures based on information found in the lexical database WordNet. In particular, it supports the measures of Resnik, Lin, Jiang-Conrath, Leacock-Chodorow, Hirst-St.Onge, Wu-Palmer, Banerjee-Pedersen, and Patwardhan-Pedersen. We have a mailing list designed to support users of WordNet::Similarity. Want to repo

  • perl - Lingua::JA::Kana released! : 404 Blog Not Found

    2007年12月08日20:30 カテゴリLightweight Languages perl - Lingua::JA::Kana released! かなとローマ字をシンプルに相互変換するモジュールです。 dankogai's p5-lingua-ja-kana at master - GitHub @CPAN (as soon as PAUSED) 車輪の再発明ではあるのですが、どの車輪もちょっと不適当だったので。 私が欲しかったのは、お気軽にカナとローマ字の相互変換をするものだったのですが、Lingua::JA::Romajiは対象文字列がEUC-JPでないと駄目で古すぎで、KawaさんのLingua::JA::Romanize::*はちょっとヘビーウェイトすぎというわけで作りました。 ちょっと test suite が少なすぎるので、テスト募集中です。 Dan the Perl

    perl - Lingua::JA::Kana released! : 404 Blog Not Found
  • [を] 転置インデックスによる検索システムを作ってみよう!

    転置インデックスによる検索システムを作ってみよう! 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装は パフォーマンスを無視すれば意外と簡単です。 それを示すために Perl で簡単な検索システムを作ってみました。 検索方式は転置インデックス(Inverted Index)、 ランキングには TF-IDF[2005-10-12-1] を用いました。 検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。 以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか? 3 ペンギン大好き 4 こんにちは。いかがおすごしですか? 5 ここ最近疲れ

    [を] 転置インデックスによる検索システムを作ってみよう!
  • お手軽PerlでSuffixArrayに挑戦

    試しにPERLでSuffixArrayついでにソートの勉強 下記のページを参考にしている http://www.namazu.org/~satoru/unimag/9/ ここに記述されているコードは、実験のために書かれているので、 へんなところはご容赦を... インデックスを作ってみる Cで書かれたサンプルをperlでかいてみた。 PERLでもquicksortの関数はあるが、一応PERLでかいてみた。 バイナリー形式でインデックスファイルを書き出している。 テストのためのサンプルプログラムなので、書き出したあとよみだして表示している。 pushを使って配列を拡大しているが、これってスピード的にいいのだろうか? pack,unpack関数はいろいろ使いでありそう!! 1: #!/usr/bin/perl 2: 3: #2003/03/14 4: #UNIXマガジン2002 10月号 横着プ

  • Part1 正しいPerl/CGIの書き方:ITpro

    Shibuya Perl Mongers 2代目リーダーにして,ppencodeの作者。広島市立大学卒業後,大企業向けmod_perl製品の開発に従事。2005年よりサイボウズ・ラボ株式会社に入社。LL Ringに参戦。Namazu for Win32,Plagger,Ajajaのコミッターでもある。 CGIといえばPerl。そんな風にいわれていた時期もありました。レンタル・サーバーのCGIで手軽にPerlが使えたこともあり,ちょっとした掲示板のスクリプトやアクセス・カウンタなど,CGIプログラムの多くがPerlで書かれていました。このためPerlが爆発的に普及したのです。Perlは日のインターネット黎明期を支えたプログラミング言語として,広くその名が知られています。 その半面,Perlで書かれたプログラムの保守性に悩む声も聞かれるようになりました。事実,Perlのプログラミング経験が少

    Part1 正しいPerl/CGIの書き方:ITpro
  • Perl の defined と exists

    Perl の defined と exists 2007-10-11-3 [Programming] 弾さんのご指摘により(感謝!)、 最近は perl でのハッシュキーの存在確認に exists を 使うようにしています。 - 404 Blog Not Found:perl, et al. - キーの存在確認 http://blog.livedoor.jp/dankogai/archives/50849003.html それはそうと、やっかいなのが、ハッシュでツリーを扱うとき。 一度でも $a->{"a"}->{"b"} を見に行くと、 $a->{"a"} が存在するようになっちゃうんですよね。 確認するためにアクセスしただけなのに、 途中ノードができちゃうなんてちょっとなあ…。 if (defined %{$a->{"a"}}) { ... といった方法で確認しているのですが、なんかバ

    Perl の defined と exists
  • perlで形態素解析を行いたいと思っています。形態素解析のモジュールをGETできるURLとか、形態素解析のプログラム紹介などのページを教えてください。

    perl形態素解析を行いたいと思っています。形態素解析のモジュールをGETできるURLとか、形態素解析のプログラム紹介などのページを教えてください。

  • Perlで入門テキストマイニング » SlideShare (share powerpoint...

    2. テキストマイニング(1) 評判情報。ポジティブ、ネガティブ • プロフィール。ブロガーの性別、年齢、地域 • そのページに関連した広告とか。 • 関連語。 • もしかして○○? • クラスタリング。グルーピング。 •

    Perlで入門テキストマイニング » SlideShare (share powerpoint...
  • モジュールのインストール(UNIX版) - 8部 インストールと設定 - [SMART]

    簡単なCPANモジュールのインストール方法 Perl には、Perlコードをユニット単位で再利用可能にするためのモジュールという概念があります。例えば、メールを送信したりHTMLを出力するなどといった機能は何度も使いますから、そのたびに書き直したりコピーするのはめんどうですし、時間の無駄です。Perlのモジュールを利用すれば、プログラムからモジュールを呼び出すだけでメール送信機能やHTML出力機能など、そのほか様々な機能が利用できるようになっています。 モジュールは、通常は拡張子が .pm となっていて、それをコードの中から呼び出すことによりそのモジュールの機能を利用できるようになっています。モジュールを使えば、面倒な作業をショートカットでき、メール送信なんかのちょっと難しい処理も簡単にできるようになります。 自分でモジュールを製作しなくても、CPANサイトには世界中のプログラマが作ったモ

  • まぐまぐ!-読みたいメルマガ、きっと見つかる。

    携帯アドレス、Gmail、YahooMailにメルマガが届かない場合 こちらから受信設定をお試しください。 また、購読期間内のメルマガ(有料・無料)はマイページから再送できます。 マイページをお持ちでない方は、新規にご登録ください! →informationページへ

    まぐまぐ!-読みたいメルマガ、きっと見つかる。
  • PositLog - Redrawing the Web

    [Login] Project page: https://github.com/canal874/positlog Preferred language[English] [Japanese] フォーラム(コメント・バグ報告など) Copyright (c) 2006-2008 Hidekazu Kubota All rights reserved hidekazu.kubota@gmail.com News! 2009/10/9 進化版の Crowkeeプロジェクト(動的コンテンツの開発を可能とするWebアプリケーション)で、2008年度下期未踏体スーパークリエータに認定されました. サイトのページ一覧 便利な使い方 ロードマップ 次のマイナーアップデート予定 サイトの更新情報 FAQ PositLog redrawing the Web 機能の詳細 マニュアル PositLogとは

  • [を] Perl 標準入力と utf8

    Perl 標準入力と utf8 2007-02-07-1 [Programming] 自戒を込めた自分用メモ。 基レベルの話だろうけど、はずかしながらちょっとはまってたので。 test.pl : #!/usr/bin/perl use strict; use warnings; use Encode; use utf8; binmode STDIN, ":utf8"; binmode STDOUT, ":utf8"; while (<>) { print if (/[ぁ-ん]/); } というコードを書いた。 しかし、 test.pl は行けるが、 test.pl utf8.txt はだめ。 で、こうした。 #!/usr/bin/perl use strict; use warnings; use Encode; use utf8; binmode STDOUT, "

  • Perlベストプラクティス

    書で提供するのは、1つのベストプラクティス集である。コードの作成方法に関する誰かの机上の理論ではなく、実際のコーディング方法に関する実体験に基づいており、首尾一貫し、用途が広く、バランスよくまとめられている。何よりも、これは実際にうまくいくプラクティス集であり、世界中の多くの開発者によってすでに使用されている。Perl自体と同様に、これらのガイドラインの目的は、開発者にわずらわしさを感じさせずに、作業を行うための手助けをすることである。」(書「はじめに」より) はじめに 1章 ベストプラクティス 1.1 3つの目標 1.1.1 堅牢性 1.1.2 効率性 1.1.3 保守性 1.2 書について 1.3 新しい習慣 2章 コードのレイアウト 2.1 かっこ 2.2 キーワード 2.3 サブルーチンと変数 2.4 組み込み関数 2.5 キーとインデックス 2.6 演算子 2.7 セミコ

    Perlベストプラクティス