Infrastructure as Code
Infrastructure as Code on Biga Data
Infrastructure as Code (IaC) to:
Strona tworzona przez pasjonatów i praktyków Big Data
Infrastructure as Code on Biga Data
Infrastructure as Code (IaC) to:
Instalacja CDP za pomocą Cloudera Managera on premise
Instrukcja instalacji Cloudera Data Platform (CDP) + Cloudera Manager (CM) na CentOS w środowisku nieprodukcyjnym w celu prezentacji lub jako proof-of-concept. Instalujemy Cloudera Manager z JDK, bazą PostgreSQL, usługą Manager Server, Manager Agent i Cloudera Runtime.
Kubernetes to jeden z ważniejszych projektów ostatnich czasów. Jest istotny zarówno dla osób pracujących w on premise jak i w chmurze publicznej. Dla wielu jest to wręcz idealne narzędzie do stworzenia tak zwanej “chmury prywatnej”. Używany zarówno w rozwoju własnych aplikacji jak i coraz częściej jest podstawą dla rozwiązań Big Data!. W wielu firmach, tam gdzie tylko się da, kontenery uruchamiane z pomocą Kubernetes zastępują wirtualizację.
Apache Airflow to obecnie jedno z najpopularniejszych narzędzi służących do zdecentralizowania cyklicznie uruchamianych zadań w postaci workflow/pipeline. Za pomocą kodu definiujemy przepływy pracy i planujemy ich wykonanie. Dostępny lekki interfejs API jak i interfejs graficzny (WebUI) co daje możliwość wizualizacji nawet dość skomplikowanych diagramów i monitorowania ich działania co przekłada się na łatwiejsze rozwiązywanie problemów. Mamy do dyspozycji dziennik, historia zadań i szablony…
Największą zaletą EC (Erasure Coding) w porównianiu do replikacji to redukcja zajętości miejsca. Przy domyślnej replikacji (3) te same dane w EC zajmują połowę powierzchni dyskowych. Dane są przechowywane w różnych lokalizacjach, gdzie nadal mamy pewność, że w przypadku utraty dysku jesteśmy w stanie odbudować brakujące informacje. Zauważmy, że poziom bezpieczeństwa jest taki sam jak w przypadku replikacji tj. mamy 3 kopie. Wygląda to super i tak w rzeczywistości jest, ale.