Big Data Passion

Big Data Passion

Strona tworzona przez pasjonatów i praktyków Big Data

Umarł król, niech żyje król, czyli czym zastąpić dystrybucję Hortonworks

Artykuł poświęcony tematyce migracji klastrów Big Data opartych o platformy firmy Hortonworks, w tym także platform chmurowych jak Microsoft Azure HDInsight lub Oracle Cloud Service

Radosław Szmit

Przez długi czas, Hortonworks Data Platform oraz Hortonworks DataFlow były najpopularniejszymi dystrybucjami Big Data na świecie. Ze względu na możliwość korzystania z platformy całkowicie za darmo bez potrzeby jakiejkolwiek rejestracji, tak naprawdę nie wiadomo jako dużo projektów było o nią opartych, ale widząc choćby popularność w internecie w samej Polsce było ich sporo. Niestety dla tych wszystkich firm i projektów, firma Hortonowrks już nie istnieje, zaś sama platforma nie jest już rozwijana.

Stało się to za sprawą połączenia firmy Hortonworks z firmą Cloudera 1 stycznia 2019 roku.

Od tamtego czasu minęły już ponad trzy lata, a mimo to wiele firm nadal korzysta z rozwiązań zbudowanych przez firmę Hortonworks jak Hortonworks Data Platform oraz Hortonworks DataFlow.

Przyczyn tego zjawiska jest wiele, najczęściej są to braki kadrowe, niechęć do ponoszenia nowych wydatków związanych z migracją, trudność samej migracji, gdyż na obecnej platformie jest opartych wiele produkcyjnych systemów oraz po prostu trudność wyboru nowej platformy.

Niestety 31 grudnia 2021 zakończył się okres wsparcia dla platformy Hortonworks Data Platform, co oznacza, że najwyższy czas pomyśleć o migracji.

Sytuacja jest o tyle ciekawsza, że także część serwisów chmurowych jest także oparta o wspomniane platformy jak na przykład:

  • Microsoft Azure HDInsight
  • Oracle Cloud Big Data Service
  • IBM Analytics Engine
  • OVH Analytics Data Platform

Dlatego powyższym dostawcom usług chmurowych, jak i ich klientom, także będzie zależeć na zastąpieniu tych platform ich nowszymi wersjami.

W artykule spróbuję wskazać kilka najpopularniejszych dróg migracji platform firmy Hortonworks.

Artykuł ten dedykuje Apache Ambari, które przez wiele lat pomagało budować, zarządzać i monitorować klastry Big Data. Niestety jako integralna część platform firmy Hortonworks, 10 stycznia 2022 roku zdecydowano o zamrożeniu repozytorium kodu i przekazaniu projektu do Attic.

Migracja do Cloudera Data Platform

Po połączeniu firmy Hortonworks wraz z firmą Cloudera podjęto decyzję, że firma udostępni swoim klientom swoją nową platformę, która nazywa się Cloudera Data Platform (CDP). W praktyce CDP jest to mocno rozwinięta wersja poprzedniej platformy firmy, czyli Cloudera Distribution for Hadoop (CDH) gdzie dołożone kilka komponentów z dystrybucji Hortonworks jak np. Apache Ranger, który zastąpił Apache Sentry (także przekazane do Attic). Porównanie funkcjonalności HDP z CDP można znaleźć tutaj.

Cloudera Data Platform jest dostępna w trzech wersjach:

  • CDP Private Cloud Base - wersja “tradycyjna” oparta o maszyny fizyczne lub wirtualne, wersja najbliższa architekturą platformie HDP
  • CDP Private Cloud - wersja oparta o klastry Kubernetes, obecnie wspierany jest Red Hat OpenShift (co może zostać rozszerzone w przyszłości)
  • CDP Public Cloud - wersja dla firm chcących korzystać z platformy Cloudery w chmurze na zasobach AWS, GCP lub Azure, jest to gotowy serwis zarządzany przez Clouderę

Dużym plusem dla użytkowników Hortonworks Data Platform (oraz także CDH) jest przygotowany i udokumentowany proces migracji do CDP zarówno z wersji 2.x oraz najnowszej 3.x.

Dużą różnicą w stosunku do dystrybucji Hortonworks jest konieczność zakupu licencji, około 10 tysięcy dolarów rocznie za serwer, chętnych odsyłam do cennika.

Migracja do konkurencyjnej platformy

Cloudera nie jest jedyną firmą, która postanowiła ułatwiać firmom pracę z technologiami Big Data, dlatego też można rozważyć skorzystanie z oferty innej firmy. Oczywiście oferty tych firm są różne i nie stanowią kompletu funkcjonalności Cloudera Data Platform lub niekiedy musimy skorzystać z kilku, by zrealizować wszystkie wymagania naszego biznesu.

Najbliższym rozwiązaniem może okazać się HPE Ezmeral Data Fabric. Osoby dłużej związane z rynkiem Big Data mogą tę platformę kojarzyć pod wcześniejszą nazwą, czyli MapR, gdyż Hewlett Packard Enterprise ogłosił 5 sierpnia 2019 kupno firmy MapR Technologies i jej platformy. W przypadku tej platformy także możemy wybrać instalację w oparciu o maszyny fizyczne bądź wirtualne oraz także klaster Kubernetes. Możemy także skorzystać z oferty “private cloud” od HPE zwanej GreenLake.

Do innych popularnych platform z obszaru Big Data należą między innymi:

Własna platforma

Platformy firmy Hortonworks nie były tylko darmowe, ale także w stu procentach otwartoźródłowe. Biorąc to pod uwagę, możemy rozważyć także budowę własnej platformy, wykorzystując popularne narzędzia jak Hadoop, Spark, Kafka, Flink czy Airflow. Zarządzanie taką platformą, zamiast Ambari i Cloudera Manager, możemy oprzeć o popularne narzędzia takie jak Ansible lub Puppet.

Do zbudowania własnej dystrybucji, możemy także skorzystać z bazowej dystrybucji Apache Bigtop. Na jej podstawie powstaje choćby bardzo popularny AWS EMR.

Ta droga likwiduje potrzebę kupowania drogich licencji i wsparcia, jednak wymaga zbudowania zgranego zespołu specjalistów, którzy stworzą i utrzymają taką własną platformę Big Data.

Chmura publiczna

Jednym z popularnych trendów, zwłaszcza w platformach analitycznych, jest migracja do chmury publicznej. Każdy z większych dostawców chmurowych udostępnia szereg natywnych rozwiązań big data, w tym data science i machine learning. Sprawia to, że praca z danymi w chmurze jest prosta, szybka i przyjemna. Dodatkowo chmury oferują niezwykłą dostępność zasobów, niespotykaną wręcz w środowiskach on premise, gdzie na dodatkowy sprzęt możemy czekać niekiedy miesiącami. Chmura potrafi także być tańsza, szczególnie przez korzystanie z automatycznej skalowalności i płatności tylko za użyte zasoby w czasie. Nie musimy inwestować na start w olbrzymi klaster kilkudziesięciu maszyn i poświęcać wielu tygodni lub miesięcy na jego wdrożenie w organizacji, lecz od pierwszych chwil możemy zająć się już realną pracą z danymi. Nie musimy także zaczynać od nie wiadomo jak dużych wolumenów danych, by nam się opłacało sięgać po te technologie, gdyż próg wejścia jest wyjątkowo niski w chmurze publicznej.

W chmurze możemy korzystać z dystrybucji Big Data takich jak Amazon EMR czy Google Dataproc rozwijanych przez dostawców chmurowych oraz także dystrybucji firm trzecich jak Databricks’ Unified Data Analytics Platform stworzoną przez firmę Databricks i dostępną w AWS, GCP oraz Azure. Należy jednak pamiętać, że część serwisów Big Data, jak np. Azure HDInsight bazuje na rozwiązaniach Hortonworks, dlatego jako nowy klient, lepiej skorzystać z alternatywnych rozwiązań.

Więcej o zaletach pracy z danymi w chmurze można znaleźć w mojej prezentacji.

Docker i Kubernetes

Na koniec jeden z najnowszych trendów, czyli wykorzystanie projektów takich jak Docker i Kubernetes do budowy własnej platformy analitycznej. Do tej pory większość dystrybucji Big Data była oparta o maszyny fizyczne lub wirtualne. Jednak w erze niesamowitej popularyzacji kontenerów, coraz więcej rozwiązań IT jest przenoszonych do tego świata. Tak też się dzieje z technologiami Big Data.

Dobrym przykładem jest firma Uber, która przeniosła swój Data Lake oparty o Apache Hadoop do kontenerów. Także twórcy wielu popularnych narzędzi Big Data jak Spark, Flink lub Kafka Streams wspierają pracę na klastrach Kubernetes. Wspomniane wcześniej komercyjne platformy Big Data jak AWS EMR lub Cloudera Data Platform są dostępne zarówno w wersji opartej o klasyczne wdrożenie na maszyny wirtualne / fizyczne jak i w oparciu o Kubernetes. Databricks, czyli firma stojąca za rozwojem Apache Spark, swoją bardzo popularną platformę chmurową w wersji Google Cloud oparła o Google Kubernetes Engine. Także ich najnowsza usługa, czyli Databricks Serverless SQL, jest oparta o Amazon Elastic Kubernetes Service (EKS) (w momencie pisania artykułu serverless SQL jest dostępny jako preview tylko w chmurze AWS).

Podsumowanie

Jak widać powyżej, połączenie się firm Hortonworks i Cloudera zmusiło wiele firm do przemyślenia na nowo swojego podejścia do budowy platformy analitycznej. Na szczęście, możliwości rynek oferuje sporo, powyżej wymieniłem w skrócie 5 najpopularniejszych kierunków widocznych w polskim i światowym community. Każda z powyższych ścieżek niesie z sobą pewne zalety i wady, ostateczną decyzję zatem każda firma będzie musiała podjąć samodzielnie na podstawie swoich potrzeb i możliwości.

comments powered by Disqus

Ostatnie wpisy

Zobacz więcej

Kategorie

About