[B! 画像][PDF] mohnoのブックマーク

mohno id:mohno

画像とPDFに関するmohnoのブックマーク (1)

日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました｜Kotaro.Kinoshita
はじめに最近、LLMへのRAGを用いた文書データの連携等を目的に海外を中心にOCRや文書画像解析技術に関連する新しいサービスが活発にリリースされています。しかし、その多くは日本語をメインターゲットに開発されているわけではありません。日本語文書は、英数字に加えて、ひらがな、漢字、記号など数千種類の文字を識別する必要があったり、縦書きなど日本語ドキュメント特有のレイアウトに対処する必要があったりと日本語特有の難しさがあります。ですが、今後、海外の開発者がこれらの課題に対処するため、日本のドキュメント画像解析に特化したものをリリースする可能性は低く、やはり自国の言語向けのサービスは自国のエンジニアが開発すべきだと筆者は考えています。もちろん、Azure Document Intelligenceをはじめとした、クラウドサービスのドキュメント解析サービスはありますが、クラウドを利用できないユ
mohno 2024/11/27
OCR自体はAcrobatにもあるけど、あんまり使い物にならなかったからなあ。「CPU用にモデルが最適化されておらず、低速なため、GPUの使用を推奨します」「CC BY-NC-SA 4.0」「YomiTokuはOSSではない」

Kotaro Kinoshita

YomiToku

人工知能

機械学習

画像

OCR

PDF

Python

CC
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx