Apache Hadoop to otwarta platforma napisana w jednym z najpopularniejszych języków programowania – w Javie. Przeznaczona jest do składowania i przetwarzania dużych zbiorów danych. Jej głównym celem jest skrócenie czasu wykonywania operacji na zgromadzonych danych. Brzmi zachęcająco? Powinno. Hadoop jest niezwykle użyteczny dla wszystkich, którzy wiedzą jak sobie z nim radzić. Wszystkie związane z tym zagadnienia wyjaśnia Tom White w książce „Hadoop. Kompletny przewodnik”.
O autorze
Tom White to członek Apache Software Foundation. Jest jednym z czołowych ekspertów zajmujących się platformą Hadoop. Robi to już od 2007 roku. Przez pewien czas świadczył indywidualne konsultacje z obsługi Hadoop-a, ale teraz pracuje dla Cloudera – firmy, która zajmuje się wsparciem platformy. Swoje doświadczenie w pracy z nim ujął w przewodniku. To ponad sześćset sześćdziesiąt stron konkretnej wiedzy i informacji, które można wykorzystać do własnych celów.
Jak to wygląda w całości?
Książka składa się z pięciu części i 24 rozdziałów. Do tego jeszcze cztery dodatki i skorowidz – ogółem, spora dawka wiedzy. Taka ilość może początkowo odstraszyć. Tyle że nie ocenia się książki po okładce. „Hadoop. Komplety przewodnik” został napisany przez człowieka i dla ludzi. To nie jest nieskładny bełkot pełen specjalistycznych określeń i pięciosylabowych słów. To dobrze napisana (i przetłumaczona) książka, z której można się sporo nauczyć. Trzeba tylko dać jej szansę. Każdy rozdział oprócz części teoretycznej zawiera przykłady i wymienione zastosowania i korzyści płynące z użytkowania programu. Co ważne, zawiera też dodatki – instalację Apache Hadoop, dystrybucję Cloudera, przygotowanie danych meteorologicznych, a także porównanie nowego i starego interfejsu API Javy dla modelu MapReduce. To ciekawe uzupełnienie, kompleksowo napisanego przewodnika. Dzięki tym dodatkom jest on dopracowany w pełni i odpowiada wyczerpująco na wszystkie pytania, jakie mogliby zadać użytkownicy Hadoop-a.
Zaczynamy od podstaw
Tom White zaczyna swoją książkę od dość szczegółowego wprowadzenia. Na początek parę słów o samej platformie Hadoop i jej możliwościach. Na sporo uwagi zasługuje rozdział poświęcony porównaniu tej platformy i innych systemów. Dzięki temu Czytelnik właściwie po kilku kartkach wie, czy ma interesować się tą konkretną platformą. W podstawach zostały uwzględnione moduły, z których składa się Hadoop – MapReduce, YARN i HDFS. Każdemu z nich poświęcono później osobny rozdział książki. System HDFS, czyli Hadoop Distributed File System to nazwa rozproszonego systemu plików, a YARN – platforma do zarządzania zasobami klastra. Wszystkie te moduły łączą się w zgrabną całość i mogą współpracować z pobocznymi projektami firmy Apache.
Model MapReduce
Według definicji z Wikipedii: MapReduce to nic innego niż implementacja paradygmatu MapReduce do przetwarzania dużych ilości danych. Świetnie, nie? Samo wyjaśniające się stwierdzenie. Wszystko zostało wyjaśnione, prawda? Na szczęście w książce Toma White nie ma tego typu stwierdzeń. W praktyce MapReduce służy do równoległego przetwarzania dużych zbiorów danych. Działa w dwóch krokach, które składają się też na jego nazwę. „Map” polega na pobieraniu danych i podziale ich na mniejsze problemy. Następnie są wysyłane do węzłów roboczych, gdzie są dzielone lub przetwarzane. „Reduce” to krok, który polega na uwzględnieniu wszystkich odpowiedzi i wyciągnięciu z nich wspólnego mianownika – odpowiedzi na główny problem. W przewodniku dokładnie wyjaśniono każdy krok, jaki należy podjąć, żeby otrzymać wynik. Co ważne, wyjaśniono też jakie działania należy podjąć w razie niepowodzenia poszczególnych operacji. MapReduce jest właściwie najważniejszą i najbardziej przydatną częścią platformy Hadoop. Z tego powodu, warto przyjrzeć mu się bliżej. Tym bardziej że w przewodniku aż roi się od zrzutów ekranu i tabelek, które ułatwiają zrozumienie teorii. Takie elementy są niezwykle ważne dla przejrzystości tekstu oraz sposobu, w jaki jest odbierany. Z wizualizowane fragmenty łatwiej przyswoić i zapamiętać, czyli – zostają z Czytelnikiem na dłużej.
Praca z platformą
Trzecia część książki jest poświęcona wyłącznie tematowi pracy z platformą. Począwszy od przygotowania klastrów, ich instalowaniu i specyfikacji aż do monitorowania i konserwacji. To spora dawka wiedzy, którą też można uznać za podstawową. Autor „Hadoop. Kompletny przewodnik” tłumaczy, jak zainstalować Javę, a jak Hadoopa. Do tego, wyjaśnia konfigurację i zarządzanie nią. Może się wydawać, że to dość żmudna praca, ale jest niezbędna, żeby w ogóle można było mówić o obsłudze platformy. Na szczęście, Tom White podchodzi do tematu bardzo szczegółowo, więc wszystko można przejść z przewodnikiem w ręce.
Powiązane projekty
Warto wiedzieć, że Hadoop to nie platforma zawieszona w próżni. Istnieje wiele projektów, które są z nią powiązane. White wymienia i opisuje najważniejsze z nich. Dzięki łączeniu ich funkcji można osiągać lepsze efekty i zwiększa się możliwości samego Hadoopa. Do najważniejszych projektów należą: Avro, Parquet, Flume, Sqoop, Pig, Hive, Crunch, Spark i HBase. Każdemu z nich, w przewodniku został poświęcony osobny rozdział. To dość miejsca, by zawrzeć wszystkie najważniejsze informacje – instalacje, konfiguracje, instrukcje obsługi i przykłady. Najcenniejsze są jednak wyjaśnienia, dlaczego warto korzystać z funkcji tych projektów i jakie faktyczne mają zalety.
Przykłady
Bardzo ważne jest to, że Tom White nie unika przykładów. I to nie teoretycznych, a wziętych z życia. Ułatwia to zrozumienie Hadoopa i sprawia, że cały poradnik jest bardziej rzeczywisty. Dzięki przykładom wiadomo, że to wszystko, co zostało opisane w książce, nie jest wyłącznie teorią. To teoria wykorzystywana w jakimś celu. Studium przypadków zajmuje całą ostatnią część przewodnika. Poświęcono mu trzydzieści stron. Ktoś może powie, że to mało. Co to jest 30 stron z 660? Ale tyle wystarcza, żeby zrozumieć, że używanie Hadoopa ma przyszłość. Wystarczy „jedynie go opanować” i śmiało można wyciągnąć maksimum korzyści dla siebie i własnej działalności.