Big Data Passion

Big Data Passion

Strona tworzona przez pasjonatów i praktyków Big Data

Sandbox Big Data

Maszyna wirtualna z środowiskiem developerskim dla inżynierów i analityków Big Data

Radosław Szmit

W dzisiejszym poście chciałbym Wam udostępnić maszynę wirtualną z którą można łatwo rozpocząć swoją przygodę z Big Data. Wiele osób uczestniczących w naszych kursach Big Data i Data Science narzeka, że dla początkujących osób często problemem jest zestawienia sobie odpowiedniego środowiska.

By wyjść naprzeciw tym wszystkim osobom przygotowałem specjalną maszynę wirtualną która zawiera:

  • System CentOS 7.5
  • Java
  • Scala
  • IntelliJ IDEA
  • Docker
  • Docker Compose
  • Git
  • Maven
  • Dystrybucja Hortonworks

oraz wiele innych przydatnych narzędzi. W środku wrzucony jest także nasz otwarto źródłowy projekt: https://github.com/sagespl/HADOOP oraz przykładowe dane do pracy.

Praca w środowisku graficznym

Najłatwiej zacząć pracę z samą maszyną w środowisku graficznym. W tym celu należy ją jedynie uruchomić i zalogować się jako:

  • user: sages
  • pass: hadoop

Do dyspozycji mamy GNOME 3, bardzo ergonomiczny manager do codziennej pracy.

Praca z SSH

Do maszyny można też połączyć się

ssh root@localhost -p 2222

Dzięki SSH można też tunelować sobie niektóre porty (inaczej mówiąc mapować porty z maszyny wirtualnej na nasz komputer)

ssh root@localhost -L 8020:localhost:8020 -L 50070:localhost:50070 -p 2222
ssh root@localhost -L 8020:localhost:8020 -L 50070:localhost:50070 -L 2181:localhost:2181 -L 16000:localhost:16000 -L 16020:localhost:16020 -p 2222
ssh root@localhost -L 9092:localhost:9092 -L 9093:localhost:9093 -L 9094:localhost:9094 -p 2222

Jeśli nie chcemy wpisywać za każdym razem ciągu znaków jak wyżej, możemy sobie całość zdefiniować w pliku ~/.ssh/config

Host bigdatasandbox
    Hostname localhost
    Port 2222
    User root
    LocalForward 8020 localhost:8020
    LocalForward 50070 localhost:50070
    LocalForward 9092 localhost:9092
    LocalForward 6667 localhost:6667

Możemy po ssh także zamontować sobie dysk z maszyny w naszym własnym (można też użyć odpowiednich opcji z VirtualBoxa)

mkdir /tmp/sages
sshfs sages@localhost:/home/sages /tmp/sages/ -p 2222 -o cache_timeout=80 -f -o allow_other -o no_remote_lock

Mapowanie portów

W maszynie jest zainstalowana dystrybucja Big Data firmy Hortonworks tak zwana Hortonworks Data Platform która pracuje na następujących portach:

Ambari jest dostępne na porcie 8080:

W maszynie wirtualnej wystawione są następujące porty:

VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "SSH"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "Ambari"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "NameNodeHttp"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "NameNodeHttps"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "NameNodeMetadata"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "DataNodeHttp"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "DataNodeHttps"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "DataNodeData"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "DataNodeDatas"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "DataNodeMetadata"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "SecondaryNameNodeHttp"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "ResourceManagerUI"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "JobHistoryUI"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "Zookeeper"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "HMaster"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "HMasterInfoWebUI"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "RegionServer"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "RegionServerInfo"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "SparkHistoryUI"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "Spark2HistoryUI"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "Oozie"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "Kafka"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 delete "KafkaAmbari"

VBoxManage showvminfo "Big Data Sandbox" | grep Rule

VBoxManage modifyvm "Big Data Sandbox" --natpf1 "SSH,tcp,127.0.0.1,2222,,22"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 "Ambari,tcp,127.0.0.1,8080,,8080"
#VBoxManage modifyvm "Big Data Sandbox" --natpf1 "NameNodeHttp,tcp,127.0.0.1,50070,,50070"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 "NameNodeHttps,tcp,127.0.0.1,50470,,50470"
#VBoxManage modifyvm "Big Data Sandbox" --natpf1 "NameNodeMetadata,tcp,127.0.0.1,8020,,8020"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 "DataNodeHttp,tcp,127.0.0.1,50075,,50075"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 "DataNodeHttps,tcp,127.0.0.1,50475,,50475"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 "DataNodeData,tcp,127.0.0.1,50010,,50010"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 "DataNodeDatas,tcp,127.0.0.1,1019,,1019"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 "DataNodeMetadata,tcp,127.0.0.1,50020,,50020"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 "SecondaryNameNodeHttp,tcp,127.0.0.1,50090,,50090"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 "ResourceManagerUI,tcp,127.0.0.1,8088,,8088"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 "JobHistoryUI,tcp,127.0.0.1,19888,,19888"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 "Zookeeper,tcp,127.0.0.1,2181,,2181"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 "HMaster,tcp,127.0.0.1,16000,,16000"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 "HMasterInfoWebUI,tcp,127.0.0.1,16010,,16010"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 "RegionServer,tcp,127.0.0.1,16020,,16020"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 "RegionServerInfo,tcp,127.0.0.1,16030,,16030"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 "SparkHistoryUI,tcp,127.0.0.1,18080,,18080"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 "Spark2HistoryUI,tcp,127.0.0.1,18081,,18081"
VBoxManage modifyvm "Big Data Sandbox" --natpf1 "Oozie,tcp,127.0.0.1,11000,,11000"
#VBoxManage modifyvm "Big Data Sandbox" --natpf1 "Kafka,tcp,127.0.0.1,9092,,9092"
#VBoxManage modifyvm "Big Data Sandbox" --natpf1 "KafkaAmbari,tcp,127.0.0.1,6667,,6667"

VBoxManage showvminfo "Big Data Sandbox" | grep Rule

Uruchomienie maszyny

Możemy to zrobić z GUI programu VirtualBox lub z konsoli:

VBoxManage startvm "Big Data Sandbox"
VBoxManage startvm "Big Data Sandbox" --type headless
comments powered by Disqus

Ostatnie wpisy

Zobacz więcej

Kategorie

About