หน้านี้ได้รับการแปลโดย Cloud Translation API

การทำความเข้าใจเอกสาร

Gemini API รองรับอินพุต PDF รวมถึงเอกสารที่มีความยาว (สูงสุด 1, 000 หน้า) โมเดล Gemini จะประมวลผล PDF ด้วยระบบการมองเห็นแบบดั้งเดิม จึงเข้าใจทั้งเนื้อหาข้อความและรูปภาพในเอกสาร โมเดล Gemini จะทําสิ่งต่อไปนี้ได้เมื่อรองรับ PDF แบบเนทีฟ

วิเคราะห์แผนภาพ แผนภูมิ และตารางในเอกสาร
ดึงข้อมูลในรูปแบบเอาต์พุตที่มีโครงสร้าง
ตอบคำถามเกี่ยวกับเนื้อหาที่เป็นภาพและข้อความในเอกสาร
สรุปเอกสาร
ถอดเสียงเนื้อหาเอกสาร (เช่น เป็น HTML) โดยคงเลย์เอาต์และการจัดรูปแบบไว้เพื่อใช้ในแอปพลิเคชันดาวน์สตรีม

บทแนะนำนี้แสดงวิธีต่างๆ ที่เป็นไปได้ในการใช้ Gemini API เพื่อประมวลผลเอกสาร PDF

รายละเอียดทางเทคนิค

Gemini รองรับหน้าเอกสารได้สูงสุด 1,000 หน้า หน้าเอกสารต้องอยู่ในรูปแบบ MIME ของข้อมูลข้อความประเภทใดประเภทหนึ่งต่อไปนี้

PDF - application/pdf
JavaScript - application/x-javascript, text/javascript
Python - application/x-python, text/x-python
TXT - text/plain
HTML - text/html
CSS - text/css
มาร์กดาวน์ - text/md
CSV - text/csv
XML - text/xml
RTF - text/rtf

แต่ละหน้าเอกสารจะเท่ากับโทเค็น 258 รายการ

แม้ว่าจะไม่มีขีดจำกัดที่เจาะจงสำหรับจำนวนพิกเซลในเอกสารนอกเหนือจากกรอบบริบทของโมเดล แต่ระบบจะปรับขนาดหน้าเว็บขนาดใหญ่ให้ความละเอียดสูงสุด 3072x3072 พิกเซลโดยคงอัตราส่วนภาพเดิมไว้ ส่วนหน้าเว็บขนาดเล็กจะปรับขนาดให้ใหญ่ขึ้นเป็น 768x768 พิกเซล หน้าเว็บที่มีความละเอียดต่ำจะไม่มีค่าใช้จ่ายลดลง นอกเหนือจากแบนด์วิดท์ หรือประสิทธิภาพที่ดีขึ้นสำหรับหน้าเว็บที่มีความละเอียดสูง

เพื่อผลลัพธ์ที่ดีที่สุด ให้ทำดังนี้

หมุนหน้าให้อยู่ในแนวที่ถูกต้องก่อนอัปโหลด
หลีกเลี่ยงหน้าเว็บที่เบลอ
หากใช้หน้าเดียว ให้วางพรอมต์ข้อความไว้หลังหน้านั้น

ขั้นตอนถัดไป

ดูข้อมูลเพิ่มเติมได้ที่แหล่งข้อมูลต่อไปนี้

กลยุทธ์การแจ้งไฟล์: Gemini API รองรับการแจ้งด้วยข้อมูลข้อความ รูปภาพ เสียง และวิดีโอ หรือที่เรียกว่าการแจ้งแบบหลายรูปแบบ
คำสั่งของระบบ: คำสั่งของระบบช่วยให้คุณควบคุมลักษณะการทํางานของโมเดลตามความต้องการและกรณีการใช้งานที่เฉพาะเจาะจง