[B! nlp] emonkakのブックマーク

Tiny Is a Predictive Text Model That Runs in the Browser and Fits on a Floppy Disk - Adam Grant

emonkak 2024/03/11

nlp

リンク

BudouX: 読みやすい改行のための軽量な分かち書き器

.app 1 .dev 1 #11WeeksOfAndroid 13 #11WeeksOfAndroid Android TV 1 #Android11 3 #DevFest16 1 #DevFest17 1 #DevFest18 1 #DevFest19 1 #DevFest20 1 #DevFest21 1 #DevFest22 1 #DevFest23 1 #hack4jp 3 11 weeks of Android 2 A MESSAGE FROM OUR CEO 1 A/B Testing 1 A4A 4 Accelerator 6 Accessibility 1 accuracy 1 Actions on Google 16 Activation Atlas 1 address validation API 1 Addy Osmani 1 ADK 2 AdMob 32 Ads

emonkak 2023/10/08

nlp

リンク

GPTのEmbeddingを利用してブログの投稿に対する近いものを探し出す - きしだのHatena

OpenAIでGPTを使ったAPIにembeddingというのがあって、これを使うと文章同士の距離がとれるので、近いエントリを取得したり文章から検索したりができるということで、試してみました。思いのほかちゃんと動きました。おそらく、GPTで一番実用的なんじゃないでしょうか。 GPTで実際に一番出番がありそうなEmbeddingを使った、近いブログをとってきたり検索したりするやつ。 pic.twitter.com/Vzgy57a7ju— きしだൠ(K1S) (@kis) 2023年3月9日 embeddingとはなんか、文章の特徴を表す多次元のベクトルに変換してくれるらしい。ようわからん。 OpenAIでは1500次元くらいのベクトルに変換します。そして、このベクトルの距離が近ければ文章の内容も近いやろということで、似たエントリの抽出などができます。しかし、テキストが要素数1500

emonkak 2023/03/13

リンク

朝日新聞Playground

朝日新聞社　メディア研究開発センターの研究成果をお試しいただけるサイトです。

emonkak 2022/11/29

text
nlp

リンク

GitHub - daac-tools/vibrato: 🎤 vibrato: Viterbi-based accelerated tokenizer

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

emonkak 2022/09/01

rust
nlp

リンク

[DEIM2022] 高速な単語分割器VaporettoとパターンマッチングマシンDaachorseの紹介

DEIM2022にて，LegalForce Researchで開発するOSSについて紹介した資料です。

emonkak 2022/03/10

nlp

リンク

まともな簡体字・繁体字変換 - アスペ日記

まともな簡体字・繁体字変換（以下、簡繁変換）を作りました。*1 https://jfconv.netlify.app/ なぜ、まともと言うのか？それは、簡繁変換というのは一対多変換であって、それを正しくできていない（しようともしていない）変換というのはまともではないからです。まともでない簡繁変換例えば、日本語にもある単語で例を挙げると、「乾燥」「幹部」「干涉」というものがあります。簡体字では「乾」「幹」は「干」になるので、これらは「干燥」「干部」「干涉」と書かれます。これらを繁体字に変換すると、「乾燥」「幹部」「干涉」に戻ってほしいところです。それが、「簡体字繁体字変換」と検索して上位に出てくるサイトでこれらを変換しても、だいたいうまくいきません。あるサイトでは、「幹燥」「幹部」「幹涉」となります。「干→幹」という単純な置き換えしかしていないということです。また、別の

emonkak 2021/07/13

chinese
nlp

リンク

#この記事は実在しません GPT-2 Text Generation Demo：朝日新聞社メディア研究開発センター人工知能研究の取り組み

この記事は弊社の機械学習モデル（GPT-2言語モデル）が自動で生成したものをそのまま掲示したフィクションであり、実在の人物・団体・商品等とは何ら関係ありません。 GPT-2言語モデルは、朝日新聞記事で事前訓練した後に、日本語Wikipedia記事を用いてfine-tuningしています。詳細はこちらまで。この記事はあらかじめ弊社の言語モデルに生成させた結果を蓄積し、スクリプトにより表示したもので、リアルタイムに生成させているものではありません。リロード、もしくはこちらをクリックすると、新しい記事が出てきます。 HOME PRODUCTS ABOUT PUBLICATIONS API利用停止サイトポリシープライバシーポリシー CONTACT 当サイトに掲載された内容は、日本の著作権法並びに国際条約により保護されています。掲載記事・写真・データ等の無断転載を禁じます。 Copyright

emonkak 2020/11/22

nlp

リンク

InferKit

As AI has advanced during the last few years, InferKit's AI-based writing app has become outdated.

emonkak 2019/11/09

nlp

リンク

機械学習を用いたテキスト正規化手法の最新動向　高精度を実現する仕組み | ログミーBusiness

2019年9月19日「MACHINE LEARNING Meetup KANSAI #6」が開催されました。関西のIT企業が協力して開催している機械学習エンジニアのためのコミュニティイベント「MACHINE LEARNING Meetup KANSAI」。第6回となる今回は、LINE、オムロン、パナソニックシステムデザインの3社がプレゼンテーションを行いました。「機械学習を用いたテキスト正規化手法の動向」に登壇したLINE株式会社の朴炳宣氏は、LINEにおける音声合成技術の紹介と、近年のテキスト正規化手法の動向を解説しました。機械学習を用いたテキスト正規化の今朴炳宣氏（以下、朴）：ただいま紹介いただきました、LINE株式会社の朴でございます。大勢の方の前でしゃべることはなかなかないので緊張していますが、よろしくお願いします。まず自己紹介からですが、私、名前から察していただけるように、韓

emonkak 2019/11/04

nlp

リンク

GitHub - tensorflow/text: Making text a first-class citizen in TensorFlow.

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

emonkak 2019/09/02

リンク

GiNZA - Japanese NLP Library

Skip to the content. GiNZAの公開ページ What’s new! GiNZA v5.2.0をリリースしました (2024.03.31) 日本語の節認定のためのAPIを追加 (experimental) ja_ginza_bert_largeのβ版を公開中 cl-tohoku/bert-large-japanese-v2をベースモデルに採用精度が大幅に向上（LAS=0.938, UAS=0.949, UPOS=0.983, ENE=0.708） CUDAに対応し8GB以上のRAMを搭載したGPU環境、または、M1・M2などApple Silicon環境の利用を推奨 ginzaコマンドで日本語以外を含む全てのspaCyモデルが利用可能に ginza -m en_core_web_md の形でモデル名を指定することでCoNLL-U出力ツールとして利用可能 ginzaコマ

emonkak 2019/04/30

nlp
python

リンク

Facebookが自然言語処理開発を促進するPyTextをオープンソース公開

Spring BootによるAPIバックエンド構築実践ガイド第2版何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

emonkak 2019/03/11

nlp

リンク

TF-IDFで文書内の単語の重み付け

『いくつかの文書があったとき、それぞれの文書を特徴付ける単語はどれだろう？』こんなときに使われるのがTF-IDFという値。 TFはTerm Frequencyで、それぞれの単語の文書内での出現頻度を表します。たくさん出てくる単語ほど重要！ $\textrm{tf}(t,d)$ 文書 $d$ 内のある単語 $t$ のTF値 $n_{t,d}$ ある単語 $t$ の文書 $d$ 内での出現回数 $\sum_{s \in d} n_{s,d}$ 文書$d$内のすべての単語の出現回数の和 IDFはInverse Document Frequencyで、それぞれの単語がいくつの文書内で共通して使われているかを表します。いくつもの文書で横断的に使われている単語はそんなに重要じゃない！ $\textrm{idf}(t)$ ある単語 $t$ のIDF値 $N$ 全文書数 $\textrm{df}(t)$