Gemini API รองรับอินพุต PDF รวมถึงเอกสารที่มีความยาว (สูงสุด 1, 000 หน้า) โมเดล Gemini จะประมวลผล PDF ด้วยระบบการมองเห็นแบบดั้งเดิม จึงเข้าใจทั้งเนื้อหาข้อความและรูปภาพในเอกสาร โมเดล Gemini จะทําสิ่งต่อไปนี้ได้เมื่อรองรับ PDF แบบเนทีฟ
- วิเคราะห์แผนภาพ แผนภูมิ และตารางในเอกสาร
- ดึงข้อมูลในรูปแบบเอาต์พุตที่มีโครงสร้าง
- ตอบคำถามเกี่ยวกับเนื้อหาที่เป็นภาพและข้อความในเอกสาร
- สรุปเอกสาร
- ถอดเสียงเนื้อหาเอกสาร (เช่น เป็น HTML) โดยคงเลย์เอาต์และการจัดรูปแบบไว้เพื่อใช้ในแอปพลิเคชันดาวน์สตรีม
บทแนะนำนี้แสดงวิธีต่างๆ ที่เป็นไปได้ในการใช้ Gemini API เพื่อประมวลผลเอกสาร PDF
รายละเอียดทางเทคนิค
Gemini รองรับหน้าเอกสารได้สูงสุด 1,000 หน้า หน้าเอกสารต้องอยู่ในรูปแบบ MIME ของข้อมูลข้อความประเภทใดประเภทหนึ่งต่อไปนี้
- PDF -
application/pdf
- JavaScript -
application/x-javascript
,text/javascript
- Python -
application/x-python
,text/x-python
- TXT -
text/plain
- HTML -
text/html
- CSS -
text/css
- มาร์กดาวน์ -
text/md
- CSV -
text/csv
- XML -
text/xml
- RTF -
text/rtf
แต่ละหน้าเอกสารจะเท่ากับโทเค็น 258 รายการ
แม้ว่าจะไม่มีขีดจำกัดที่เจาะจงสำหรับจำนวนพิกเซลในเอกสารนอกเหนือจากกรอบบริบทของโมเดล แต่ระบบจะปรับขนาดหน้าเว็บขนาดใหญ่ให้ความละเอียดสูงสุด 3072x3072 พิกเซลโดยคงอัตราส่วนภาพเดิมไว้ ส่วนหน้าเว็บขนาดเล็กจะปรับขนาดให้ใหญ่ขึ้นเป็น 768x768 พิกเซล หน้าเว็บที่มีความละเอียดต่ำจะไม่มีค่าใช้จ่ายลดลง นอกเหนือจากแบนด์วิดท์ หรือประสิทธิภาพที่ดีขึ้นสำหรับหน้าเว็บที่มีความละเอียดสูง
เพื่อผลลัพธ์ที่ดีที่สุด ให้ทำดังนี้
- หมุนหน้าให้อยู่ในแนวที่ถูกต้องก่อนอัปโหลด
- หลีกเลี่ยงหน้าเว็บที่เบลอ
- หากใช้หน้าเดียว ให้วางพรอมต์ข้อความไว้หลังหน้านั้น
ขั้นตอนถัดไป
ดูข้อมูลเพิ่มเติมได้ที่แหล่งข้อมูลต่อไปนี้
- กลยุทธ์การแจ้งไฟล์: Gemini API รองรับการแจ้งด้วยข้อมูลข้อความ รูปภาพ เสียง และวิดีโอ หรือที่เรียกว่าการแจ้งแบบหลายรูปแบบ
- คำสั่งของระบบ: คำสั่งของระบบช่วยให้คุณควบคุมลักษณะการทํางานของโมเดลตามความต้องการและกรณีการใช้งานที่เฉพาะเจาะจง