Sparka najlepiej pobrać ze strony projektu: http://spark.apache.org/downloads.html. Ja skorzystam z wersji 2.2.0 przystosowanej do pracy z Apache Hadoop w wersji 2.7 lub wyższej.
Po ściągnięciu należy wypakować w dowolnym katalogu na dysku.
Apache Spark to platforma obliczeniowa stworzona z myślą o przetwarzaniu danych.
W dzisiejszym poście chciałbym Wam udostępnić maszynę wirtualną z którą można łatwo rozpocząć swoją przygodę z Big Data. Wiele osób uczestniczących w naszych kursach Big Data i Data Science narzeka, że dla początkujących osób często problemem jest zestawienia sobie odpowiedniego środowiska.
Instrukcja instalacji dystrybucji Hortonworks Data Platform HDP-2.6 na maszynach z systemem Red Hat 7 lub CentOS 7.
Jeśli ktoś chciałby pracować na co dzień z systemem CentOS 7 w trybie graficznym, poniżej krótka instrukcja jak to zrobić.