タグ

画像とPDFに関するmohnoのブックマーク (1)

  • 日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました|Kotaro.Kinoshita

    はじめに最近、LLMへのRAGを用いた文書データの連携等を目的に海外を中心にOCRや文書画像解析技術に関連する新しいサービスが活発にリリースされています。 しかし、その多くは日語をメインターゲットに開発されているわけではありません。日語文書は、英数字に加えて、ひらがな、漢字、記号など数千種類の文字を識別する必要があったり、縦書きなど日語ドキュメント特有のレイアウトに対処する必要があったりと日語特有の難しさがあります。 ですが、今後、海外の開発者がこれらの課題に対処するため、日のドキュメント画像解析に特化したものをリリースする可能性は低く、やはり自国の言語向けのサービスは自国のエンジニアが開発すべきだと筆者は考えています。 もちろん、Azure Document Intelligenceをはじめとした、クラウドサービスのドキュメント解析サービスはありますが、クラウドを利用できないユ

    日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました|Kotaro.Kinoshita
    mohno
    mohno 2024/11/27
    OCR自体はAcrobatにもあるけど、あんまり使い物にならなかったからなあ。「CPU用にモデルが最適化されておらず、低速なため、GPUの使用を推奨します」「CC BY-NC-SA 4.0」「YomiTokuはOSSではない」
  • 1