タグ

言語に関するlesamoureusesのブックマーク (3)

  • Google Japan Blog: 大規模日本語 n-gram データの公開

    突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

    Google Japan Blog: 大規模日本語 n-gram データの公開
    lesamoureuses
    lesamoureuses 2007/11/05
    >このたび、Web から抽出した約200億文(約2550億単語)の日本語データから作成したn-gramデータ(1~7 gram)を公開致しました。
  • 学校では教えてくれないエンジニアリング英語 #1: blog.bulknews.net

    学校では教えてくれないエンジニアリング英語 #1 ソフトウェアエンジニアリングの現場で使うような英語って、たまにクセがあったりしてわかりにくかったりすることってありますよね。年に半分程度US出張も含めて外資系で1年半やってきた経験から、エンジニアの日常会話で使う英語を解説していくシリーズを不定期連載してみようかとおもいました。 よく海外在住の日人ブロガーの方が同じような企画やってますが、エンジニアリングに直結したのは少ないかなとおもったので。あと当然ですが、僕はネイティブじゃなく、業務やら日常会話やらで覚えてきた内容をもとに書いているので間違いがあれば指摘は歓迎です。 第1回の今日は、記号の読み方。最初、結構とまどったんですよね。 "-" "-" をなんと読むか。日人だとハイフンが多いでしょうか。アメリカ英語では、"dash (ダッシュ)" と読みます。"minus (マイナス)" で

    lesamoureuses
    lesamoureuses 2006/09/11
    普段はあんまり気にしないところなので面白いや。
  • 1