NL研の受付〜2日目〜
NL研の受付二日目。研究室に泊って、朝9:30に集合。以下、二日目で面白かった研究について。
言い換え箇所と言い換え候補の提示による解説文リライト支援の評価実験
これは、「へぇ、言い換えに、こんな応用があるのか」と思ったもの。博物館などの解説文に含まれる表現を、子供や非専門家に分かりやすく書きかえるためのタスクを言い換えの問題に落とし、実際に専門家に解説文を作ってもらった、というもの。「博物館などの解説文の作成支援」は、非常に重要ではあるが収益性が見込みにくく、研究としてやることが重要なタスクだと思う。まぁ、言い換え研究については、全然知らないのですが。
多重トピックを用いたブログ空間の情報伝搬解析
かなり面白い研究。ブログの記事間のリンクのうち、正しく情報伝搬を反映しているものを選別するタスク。そこで、記事と記事の間の類似度を測るのだが、そのとき、普通に単語ベクトルの類似度を使うのではなくて、LDAでトピック分布を推定してトピック分布の類似度を使用した方がよくなるんじゃないですか、という話。
確率分布間の近さを測るのには普通KLダイバージェンスを使うが、よく知られているようにKLダイバージェンスは非対称なので、これだと、コサイン類似度のような普通の類似度の意味では使えない。そこで、JSダイバージェンスというのを使う。KLダイバージェンスをと置くと、JSダイバージェンスは、
で表わされる。JSダイバージェンスという言葉を初めて知った。勉強になりました。
系列ラベリングのための Forward-Backward アルゴリズムの一般化
これも、頑張れば、breakthroughになりそうな研究。前向き後ろ向きアルゴリズムというと、隠れマルコフモデル(HMM)のBaum-Welchアルゴリズムが有名だけど、実は、HMMに限らず、前向き後ろ向きアルゴリズムで行っている計算は、系列ラベリングを行う時に本質的に必要になってくる。
結局、入力系列と出力系列(ラベルの系列)
があるとき、パラメータ
と、パラメータの良さ評価する関数
を作ってやって、これを最大化するようにしてやるわけだ。今、ある入出力ペア
とパラメータ
があるときに、さぁ、このパラメータ
がどれだけ良いパラメータなのですか?ということを測りたい。測るのに使えるデータは、出力系列(正解のラベル系列)
だけ。
まっとうな方法は、その入力とパラメータ
を与えた時の全ての出力系列のパターンと比較して、
がどれだけ寄与するか(確率で考えれば、出やすいか)を計算することだろう。つまり、
を計算してやる。
条件付確率場(Conditional Random Field, CRF)は、この関数fが、の形をとる時の話なわけだ。fの形が複雑だと、
が出力系列長
に対して指数関数的になるので、長い系列が事実上計算できなくなる。この論文は、このfとしてどんな関数が取れるかを考えて、その関数の幅を広げましたよ、という話。さらに、fをテイラー展開で近似するのでよければ、fとして大抵の関数は持ってきてよさそうだ、ということも書いてある。
恥ずかしながら、HMMのBaum-Welchと、CRFのZ項の計算が本質的に同じものだって、この記事書いてて初めて理解しました。もっと勉強しなければ・・・