言うまでもなくGoogle Books Library Projectでは、図書館の膨大な蔵書をスキャンしてOCR処理をしてテキスト化するという作業が必要になります。ここではOCRの認識率などの問題もありますが、何と言っても最大の課題は物理的なスキャン作業でしょう。 一般に本をフラットベッド・スキャナーやコピー機でスキャンするのは相当面倒くさいですし、特に本が厚い場合にはうまく読み取れないこともありますね。最後の手段として本をばらすという方法もありますが、そもそもGoogle Books Library Projectでは図書館の貴重な蔵書を扱っている以上、それも非現実的と思われます。 で、Techmeme経由のブログ経由で知りましたが、Googleは書籍のスキャン手法に関して米国で特許を取得しています(米国特許7508978)。 本の上方から2つのカメラでページを撮影し、ページの凹凸の画