Blog - Big Data Passion

Ambari i biblioteka libtirpc-devel

November 17, 2017 Radosław Szmit

Podczas instalacji Ambari na najnowszych platformach CentOS / Red Hat możemy dostać błąd podobny do poniższego:

Zaawansowane aspekty wykorzystania RDD w Apache Spark

August 7, 2017 Radosław Szmit

W tym poście powiemy sobie o pewnych aspektach działania Sparka w kontekście przetwarzania RDD.

Przetwarzanie RDD par w Apache Spark

August 7, 2017 Radosław Szmit

W RDD nie musimy przechowywać pojedynczych obiektów, ale możemy tam przekazywać pary obiektów, czyli tak zwane krotki lub z angielskiego tuple. Na takim RDD mamy dostęp do nowych metod usprawniających nam pracę z krotkami.

Resilient Distributed Dataset w Apache Spark

August 3, 2017 Radosław Szmit

RDD (Resilient Distributed Datasets) są podstawowym typem danych wykorzystywanym przez Spark aktualnie będącymi częścią tak zwanego Spark Core czyli bazowego modułu Apache Spark.

Podstawy programowania Apache Spark

Wprowadzenie do programowania Apache Spark dla programistów Java, Scala i Python

July 30, 2017 Radosław Szmit

Apache Spark został napisany w języku Scala, przez co domyślnym językiem programowania jak i tym które oferuje najwięcej możliwości jest właśnie Scala. Dzięki wyjątkowo dobrej kompatybilności Scali z językiem Java, drugim językiem programowania jaki jest dostępny dla tej platformy jest oczywiście język Java oferujący od wersji 8 wiele funkcjonalności zbliżonych do języka Scala (dosłownie rzecz biorąc, twórcy języka Java w wersji 8 wzorowali się między innymi na języku Scala wprowadzając nowe…

Big Data Passion

Ambari i biblioteka libtirpc-devel

Zaawansowane aspekty wykorzystania RDD w Apache Spark

Przetwarzanie RDD par w Apache Spark

Resilient Distributed Dataset w Apache Spark

Podstawy programowania Apache Spark

Ostatnie wpisy

DataMass Gdańsk Summit 2023

Przegląd rozwiazań Big Data On Premise i Chmury Publicznej

Big Data Technology Warsaw Summit 2023

Praca z CLI w Apache Kafka

DataMass Gdańsk Summit 2022

Kategorie

About