Einer der Ansätze zum Erzwingen von Caching / Persistenz besteht darin, eine Aktion nach Cache / Persistent aufzurufen, zum Beispiel:
df.cache().count()
Wie hier erwähnt: Muss ich beim Spark-Streaming count () nach cache () oder persist () aufrufen, um das Caching / die Persistenz wirklich zu erzwingen?
Frage:
Gibt es einen Unterschied, wenn take(1)statt aufgerufen wird count()? Wird der gesamte Datenrahmen bei Verwendung im Speicher und / oder auf der Festplatte zwischengespeichert take(1)?
Mir ist aufgefallen, dass df.cache().take(1)das schneller geht, aber ich möchte nur eifriges Caching erreichen.