ホワイト日記

柏での日々をつれづれなるままに書き記したいと思います.

情報資源の開発と整備

2006-11-29 12:34:31 | その他
ここにWikipediaのエントリ数の国際比較(言語間比較)があります.
http://meta.wikimedia.org/wiki/List_of_Wikipedias

1位は英語で1,505,377記事,
2位はドイツ語で502,446記事,
3位はフランス語,4位にポーランド語,
日本語は第5位(292,137記事)となっています(2006年11月29日正午時点).

ドイツ語が第2位に来ているとは知りませんでした.
また,ポーランド語も第4位と健闘していて驚きました.

情報通信分野においては,技術開発と並んで情報資源の開発にも
注力すべきだと思います.

各国(各言語)における情報流通量を比較するという観点からは,
雑誌・書籍・新聞の出版点数やテレビ・ラジオ番組の数,放送時間など
も調べなければいけませんが,単純にWikipediaのエントリ数だけを見ても,
これからの日本が発展していく上で,こうした情報資源を整備することが
大事だと思います.

現在日本語版Wikipedia のエントリを投稿しているのは少数の有志だと
思いますが,これに企業や大学,教育機関,研究機関に所属する専門家,
NPOやNGOで活躍している専門家,大学・公共図書館員など,より多くの人が
参加して,それぞれの専門知識や経験をもとに記事を整備して行けるよう
働きかけなり連携が必要になってくるのではないかと思います.

また,こうして入力された情報資源を計算機が自動もしくは半自動で
処理できるよう整備しておく必要がありますが,これにはSemantic Web の
考え方やツールを積極的に導入して準備しておく必要があると思います.
計算機処理のための情報資源の整備は,情報資源の開発と並んで
早急に取り組まなければならな分野だと思います.

情報資源の開発と整備という問題は,大型計算機の時代からも言われてきた
ことかも知れませんが,インターネットを介して情報がやり取りされるように
なって,益々その重要性が増していると思います.

ネット社会のこれから

2006-11-24 02:54:51 | その他
NHKのサイトを見ていると「ネット社会のこれから」という題目で
メッセージを募集しているのを見つけました.
http://www.nhk.or.jp/korekara/
いくつかの質問項目があり,
「インターネットを利用して良かった点は何ですか?」
「ネットの匿名性についてどう思いますか?」
などについて意見募集しています.

放送日は12月9日(土)19時30~22時30分とのこと.
なかなか気になる番組です.

中国語文字コードのメモ

2006-11-23 22:12:07 | 研究
中国語の文字コードで戸惑っています.
gbkとは何だろうか?調べてみると,
gbkはGB2312文字コードを拡張したものということです.
http://www.antenna.co.jp/gbfs/gb_encode.htm
http://www.asahi-net.or.jp/~EZ3K-MSYM/charsets/cjk-c.htm#gbk

現在(2001年1月1日以降)はGB18030-2000が中国本土での標準文字コードとなっているようです.

ちなみにGBKのWindows上での実装であるcp936には平仮名,カタカナも含まれている.ちょっと驚き.
http://www.microsoft.com/globaldev/reference/dbcs/936/936_A4.mspx (ひらがな)
http://www.microsoft.com/globaldev/reference/dbcs/936/936_A5.mspx (カタカナ)

何故中国語を扱っているかというと,
現在Web上には様々な言語で書かれたページが存在しますが,
これらを分析することで多様なものの見方(価値観)が
分かるのではないかと考えています.人工物に対する価値観も
きっと国や地域,文化が異なれば自ずと異なってくるのでは
ないかと思います.

Webページから価値観が分かるかも知れませんし,
分からないかも知れません.しかしまずはやってみようということで
取り組んでいる次第です.他の言語についても追って取り組んで
行きたいと思っています.

「二十一世紀に生きる君たちへ」(司馬遼太郎)

2006-11-17 18:15:25 | その他
研究とは関係ありませんが,
ネットで見つけた情報を備忘録として残しておきたいと思います.

http://kawa.at.webry.info/200611/article_1.html
↑のブログで見つけたのですが,
作家の司馬遼太郎先生が「二十一世紀に生きる君たちへ」という
文章を遺されています.これからの時代を作る子供たちに向けた
司馬先生からのメッセージですが,大人が読んでも得るもののある
内容だと思います.折に触れて読み返したいと思います.

司馬遼太郎,「二十一世紀に生きる君たちへ」
http://www.kantei.go.jp/jp/kidsold/hanashi/r_s_txt.html

utf-8 文字の正体を調べるスクリプト

2006-11-10 21:55:28 | その他
ウェブログ記事を収集していると,意図しない文字が
混入してしまい,文字化けしてしまうことがあります.
そうした文字化けの原因を探るためのPerlスクリプトを
書いてみました.

#!/usr/local/bin/perl

use Data::Dumper;
use Unicode::UCD qw/charinfo charblock/;

my $file = shift; # ファイル名を引数に取る
my $text;
{
local $/;
open(IN, "<:utf8", $file); # 入力ファイルはUTF-8とする
$text = <IN>;
close(IN);
}

my $len = length($text);

# 1文字ずつループさせる
for(my $i = 0; $i < $len; $i++) {
my $char = substr($text, $i, 1);
my $num = ord($char); # 10進数でのコード
printf "%d: %s(%d)n", $i, $char, $num;

# 文字コード確認
unless ($char =~ /[x00-x7e]/) { # ASCII文字以外なら
my $charinfo = charinfo($num); # Unicode::UCD::charinfo でその文字の素性を確認
print "="x56, "n";
print Dumper($charinfo);
print "="x56, "n";
}
}

結果は下のような形で表示されます.
これをもとに記事中にどんな文字が含まれていたかを把握し,
必要であればその文字に対処する処理を書き加えます.
========================================================
$VAR1 = {
'digit' => '',
'bidi' => 'L',
'category' => 'Lo',
'code' => '3041',
'script' => 'Hiragana',
'combining' => '0',
'upper' => '',
'name' => 'HIRAGANA LETTER SMALL A',
'unicode10' => '',
'decomposition' => '',
'comment' => '',
'mirrored' => 'N',
'lower' => '',
'numeric' => '',
'decimal' => '',
'title' => '',
'block' => 'Hiragana'
};
========================================================

ブログ記事の収集はいつも文字化けとの戦いです(^_^;)

情報を生み出す技術

2006-11-07 17:42:49 | その他
単に情報を集めて分析するだけでなく,そこから新たに情報を生み出す技術や
人間が情報を生み出すプロセスを支援する技術も考えて行きたい.
現在の自分は情報を集めて分析することしかやっていないので残念です.
分析の結果から何か新しい情報を生み出して行かなければと思います.
個人的な雑感になってしまって申し訳ありません.