Die Gemini API unterstützt die PDF-Eingabe, einschließlich langer Dokumente (bis zu 1.000 Seiten). Gemini-Modelle verarbeiten PDFs mit nativer Bilderkennung und können daher sowohl Text als auch Bildinhalte in Dokumenten verstehen. Durch die native Unterstützung von PDF-Vision können Gemini-Modelle Folgendes tun:
- Diagramme, Grafiken und Tabellen in Dokumenten analysieren
- Informationen in strukturierte Ausgabeformate extrahieren
- Fragen zu visuellem und Textinhalt in Dokumenten beantworten
- Dokumente zusammenfassen
- Transkribieren von Dokumentinhalten (z.B. in HTML) unter Beibehaltung von Layout und Formatierung zur Verwendung in nachfolgenden Anwendungen
In dieser Anleitung werden einige Möglichkeiten zur Verarbeitung von PDF-Dokumenten mit der Gemini API gezeigt.
Technische Details
Gemini unterstützt maximal 1.000 Dokumentenseiten. Dokumentseiten müssen einen der folgenden MIME-Typen für Textdaten haben:
- PDF –
application/pdf
- JavaScript –
application/x-javascript
,text/javascript
- Python –
application/x-python
,text/x-python
- TXT –
text/plain
- HTML –
text/html
- Preisvergleichsportal –
text/css
- Markdown –
text/md
- CSV –
text/csv
- XML –
text/xml
- RTF –
text/rtf
Jede Dokumentseite entspricht 258 Tokens.
Die Anzahl der Pixel in einem Dokument ist abgesehen vom Kontextfenster des Modells nicht begrenzt. Größere Seiten werden jedoch auf eine maximale Auflösung von 3.072 × 3.072 herunterskaliert, wobei das ursprüngliche Seitenverhältnis beibehalten wird. Kleinere Seiten werden auf 768 × 768 Pixel skaliert. Es gibt keine Kosteneinsparungen für Seiten mit geringerer Größe, abgesehen von der Bandbreite, und keine Leistungsverbesserung für Seiten mit höherer Auflösung.
Für optimale Ergebnisse:
- Drehen Sie die Seiten vor dem Hochladen in die richtige Ausrichtung.
- Vermeiden Sie unscharfe Seiten.
- Wenn Sie eine einzelne Seite verwenden, platzieren Sie den Textprompt nach der Seite.
Nächste Schritte
Weitere Informationen finden Sie in den folgenden Ressourcen:
- Strategien für Dateiprompts: Die Gemini API unterstützt Prompts mit Text-, Bild-, Audio- und Videodaten, auch als multimodale Prompts bezeichnet.
- Systemanweisungen: Mit Systemanweisungen können Sie das Verhalten des Modells basierend auf Ihren spezifischen Anforderungen und Anwendungsfällen steuern.