Diese Seite wurde von der Cloud Translation API übersetzt.

Verständnis von Dokumenten

Die Gemini API unterstützt die PDF-Eingabe, einschließlich langer Dokumente (bis zu 1.000 Seiten). Gemini-Modelle verarbeiten PDFs mit nativer Bilderkennung und können daher sowohl Text als auch Bildinhalte in Dokumenten verstehen. Durch die native Unterstützung von PDF-Vision können Gemini-Modelle Folgendes tun:

Diagramme, Grafiken und Tabellen in Dokumenten analysieren
Informationen in strukturierte Ausgabeformate extrahieren
Fragen zu visuellem und Textinhalt in Dokumenten beantworten
Dokumente zusammenfassen
Transkribieren von Dokumentinhalten (z.B. in HTML) unter Beibehaltung von Layout und Formatierung zur Verwendung in nachfolgenden Anwendungen

In dieser Anleitung werden einige Möglichkeiten zur Verarbeitung von PDF-Dokumenten mit der Gemini API gezeigt.

Technische Details

Gemini unterstützt maximal 1.000 Dokumentenseiten. Dokumentseiten müssen einen der folgenden MIME-Typen für Textdaten haben:

PDF – application/pdf
JavaScript – application/x-javascript, text/javascript
Python – application/x-python, text/x-python
TXT – text/plain
HTML – text/html
Preisvergleichsportal – text/css
Markdown – text/md
CSV – text/csv
XML – text/xml
RTF – text/rtf

Jede Dokumentseite entspricht 258 Tokens.

Die Anzahl der Pixel in einem Dokument ist abgesehen vom Kontextfenster des Modells nicht begrenzt. Größere Seiten werden jedoch auf eine maximale Auflösung von 3.072 × 3.072 herunterskaliert, wobei das ursprüngliche Seitenverhältnis beibehalten wird. Kleinere Seiten werden auf 768 × 768 Pixel skaliert. Es gibt keine Kosteneinsparungen für Seiten mit geringerer Größe, abgesehen von der Bandbreite, und keine Leistungsverbesserung für Seiten mit höherer Auflösung.

Für optimale Ergebnisse:

Drehen Sie die Seiten vor dem Hochladen in die richtige Ausrichtung.
Vermeiden Sie unscharfe Seiten.
Wenn Sie eine einzelne Seite verwenden, platzieren Sie den Textprompt nach der Seite.

Nächste Schritte

Weitere Informationen finden Sie in den folgenden Ressourcen:

Strategien für Dateiprompts: Die Gemini API unterstützt Prompts mit Text-, Bild-, Audio- und Videodaten, auch als multimodale Prompts bezeichnet.
Systemanweisungen: Mit Systemanweisungen können Sie das Verhalten des Modells basierend auf Ihren spezifischen Anforderungen und Anwendungsfällen steuern.