W tym poście powiemy sobie o pewnych aspektach działania Sparka w kontekście przetwarzania RDD.
Strona tworzona przez pasjonatów i praktyków Big Data
Strona tworzona przez pasjonatów i praktyków Big Data
W tym poście powiemy sobie o pewnych aspektach działania Sparka w kontekście przetwarzania RDD.
W RDD nie musimy przechowywać pojedynczych obiektów, ale możemy tam przekazywać pary obiektów, czyli tak zwane krotki lub z angielskiego tuple. Na takim RDD mamy dostęp do nowych metod usprawniających nam pracę z krotkami.
RDD (Resilient Distributed Datasets) są podstawowym typem danych wykorzystywanym przez Spark aktualnie będącymi częścią tak zwanego Spark Core czyli bazowego modułu Apache Spark.
Wprowadzenie do programowania Apache Spark dla programistów Java, Scala i Python
Apache Spark został napisany w języku Scala, przez co domyślnym językiem programowania jak i tym które oferuje najwięcej możliwości jest właśnie Scala. Dzięki wyjątkowo dobrej kompatybilności Scali z językiem Java, drugim językiem programowania jaki jest dostępny dla tej platformy jest oczywiście język Java oferujący od wersji 8 wiele funkcjonalności zbliżonych do języka Scala (dosłownie rzecz biorąc, twórcy języka Java w wersji 8 wzorowali się między innymi na języku Scala wprowadzając nowe…
Zacznij swoją przygodę z Apache Spark
Sparka najlepiej pobrać ze strony projektu: http://spark.apache.org/downloads.html. Ja skorzystam z wersji 2.2.0 przystosowanej do pracy z Apache Hadoop w wersji 2.7 lub wyższej. Po ściągnięciu należy wypakować w dowolnym katalogu na dysku.