Hiểu tài liệu

API Gemini hỗ trợ nhập PDF, bao gồm cả tài liệu dài (tối đa 1.000 trang). Các mô hình Gemini xử lý tệp PDF bằng công nghệ thị giác gốc, nhờ đó có thể hiểu được cả nội dung văn bản và hình ảnh bên trong tài liệu. Với tính năng hỗ trợ thị giác PDF gốc, các mô hình Gemini có thể:

  • Phân tích sơ đồ, biểu đồ và bảng trong tài liệu
  • Trích xuất thông tin thành các định dạng đầu ra có cấu trúc
  • Trả lời câu hỏi về nội dung hình ảnh và văn bản trong tài liệu
  • Tóm tắt tài liệu
  • Bản chép lời nội dung tài liệu (ví dụ: sang HTML) giữ nguyên bố cục và định dạng để sử dụng trong các ứng dụng tiếp theo

Hướng dẫn này minh hoạ một số cách có thể sử dụng API Gemini để xử lý tài liệu PDF.

Chi tiết kỹ thuật

Gemini hỗ trợ tối đa 1.000 trang tài liệu. Các trang tài liệu phải ở một trong các loại MIME dữ liệu văn bản sau:

  • PDF – application/pdf
  • JavaScript – application/x-javascript, text/javascript
  • Python – application/x-python, text/x-python
  • TXT – text/plain
  • HTML – text/html
  • CSS – text/css
  • Markdown – text/md
  • CSV – text/csv
  • XML – text/xml
  • RTF – text/rtf

Mỗi trang tài liệu tương đương với 258 mã thông báo.

Mặc dù không có giới hạn cụ thể về số pixel trong tài liệu ngoài cửa sổ ngữ cảnh của mô hình, nhưng các trang lớn hơn sẽ được điều chỉnh theo tỷ lệ xuống độ phân giải tối đa là 3072x3072 trong khi vẫn giữ nguyên tỷ lệ khung hình ban đầu, còn các trang nhỏ hơn sẽ được điều chỉnh theo tỷ lệ lên 768x768 pixel. Không có sự giảm chi phí nào đối với các trang có kích thước thấp hơn, ngoài băng thông hoặc cải thiện hiệu suất cho các trang có độ phân giải cao hơn.

Để có kết quả tốt nhất:

  • Xoay các trang theo hướng chính xác trước khi tải lên.
  • Tránh các trang bị mờ.
  • Nếu sử dụng một trang, hãy đặt lời nhắc văn bản sau trang đó.

Bước tiếp theo

Để tìm hiểu thêm, hãy xem các tài nguyên sau:

  • Chiến lược nhắc tệp: Gemini API hỗ trợ nhắc bằng dữ liệu văn bản, hình ảnh, âm thanh và video, còn gọi là nhắc đa phương thức.
  • Hướng dẫn hệ thống: Hướng dẫn hệ thống cho phép bạn điều hướng hành vi của mô hình dựa trên nhu cầu và trường hợp sử dụng cụ thể của mình.