Gemini API 支援 PDF 輸入內容,包括長文件 (最多 1000 頁)。Gemini 模型會使用原生視覺技術處理 PDF,因此能夠解讀文件中的文字和圖像內容。透過原生 PDF 視覺支援功能,Gemini 模型可執行下列操作:
- 分析文件中的圖表、圖表和表格
- 將資訊擷取至結構化輸出格式
- 回答文件中圖像和文字內容的問題
- 生成文件摘要
- 將文件內容轉錄為 HTML 等格式,並保留版面配置和格式,以利於在後續應用程式中使用
本教學課程將示範幾種可能的使用方式,說明如何運用 Gemini API 處理 PDF 文件。
技術詳細資料
Gemini 最多支援 1,000 個文件頁面。文件頁面必須採用下列其中一種文字資料 MIME 類型:
- PDF -
application/pdf
- JavaScript -
application/x-javascript
、text/javascript
- Python -
application/x-python
,text/x-python
- TXT -
text/plain
- HTML -
text/html
- CSS -
text/css
- Markdown -
text/md
- CSV -
text/csv
- XML -
text/xml
- RTF -
text/rtf
每個文件頁面相當於 258 個符記。
除了模型的內容視窗之外,文件中的像素數量並無特定限制,較大的網頁會縮放至最大解析度 3072x3072,同時保留原始的顯示比例,較小的網頁則會縮放至 768x768 像素。除了頻寬,較小尺寸的網頁不會降低成本,較高解析度的網頁也不會提升效能。
為確保最佳成效:
- 上傳前請先將頁面旋轉至正確方向。
- 避免模糊的頁面。
- 如果使用單一頁面,請將文字提示放在頁面後方。
後續步驟
如要進一步瞭解相關內容,請參閱下列資源: