Apache Spark

Wikipediasta
Siirry navigaatioon Siirry hakuun
Spark
Kehittäjä Apache Software Foundation
Kehityshistoria
Vakaa versio 3.5.3 ()[1]
Tiedot
Ohjelmointikielet Scala, Java, Python, R, SQL ja Java Database Connectivity
Lisenssi Apache-lisenssi, versio 2.0 ja BSD-lisenssi
Aiheesta muualla
Verkkosivusto
Versiohallinta

Spark on Apache Software Foundationin avoimen lähdekoodin ohjelmisto yleiskäyttöiseen klusteripohjaiseen laskentaan.

Spark laajentaa ja yleistää MapReducen käyttöä ns. Big data käytössä ja mahdollistaa laajemman eri muotoisten tietolähteiden käytön (esimerkiksi tekstitiedostot ja SQL-kyselyt).

Spark tarjoaa ohjelmointirajapinnat muun muassa Java, Python, R ja Scala -kielille ja sitä voidaan käyttää Apache Hadoop ja Apache Mesos -klustereissa.[2] Spark on usein mukana Hadoopin kanssa, mutta on korvannut MapReducen käytön nopeusedun vuoksi.[2]

Spark käyttää välimuistina RAM-muistia eikä tiedostojärjestelmää kuten Hadoop, minkä ansiosta Sparkilla on mahdollista käsitellä tapauksia, joita Hadoopilla ei voi.[3] Pienissä kuormituksissa Spark voi olla sata kertaa nopeampi.[3]

  1. Release 3.5.3, (viitattu ). Tieto on haettu Wikidatasta.
  2. a b Pointer, Ian: What is Apache Spark? The big data analytics platform explained 13.11.2017. Infoworld. Viitattu 31.3.2018.
  3. a b Hadoop vs. Spark: What's the Difference? ibm.com. 27.5.2021. Viitattu 27.9.2021. (englanniksi)

Kirjallisuutta

[muokkaa | muokkaa wikitekstiä]
  • Karau, Holden & Konwinski, Andy & Wendell, Patrick & Zaharia, Matei: Learning Spark. O'Reilly. ISBN 978-1-449-35862-4

Aiheesta muualla

[muokkaa | muokkaa wikitekstiä]