пятница, 30 декабря 2011 г.

Подарок к Новому Году от Apache - релиз hadoop'а




27 января компания Apache сделала свой новогодний подарок всем пользователям hadoop.

После 6 лет разработки был выпущен первый релиз hadoop: hadoop 1.0.0 ! 





Релиз был сделан из ветви кода hadoop 0.20-security и включает в себя 
  • систему авторизации и ограничения доступа на основе Kerberos
  • webhdfs - API для доступа к hdfs по протоколу http (с поддержкой авторизации)
  • улучненную совместимость с hBase (в том числе и в области безопасности)
  • увеличение производительности hBase для доступа к локальным файлам
Подробности можно почитать тут:



понедельник, 5 декабря 2011 г.

Обзор утилит Hadoop




Создатели Hadoop называют свое детище "экосистемой для построения распределенных систем". Такую характеристику он имеет за кучу разных инструментов, которые могут работать поверх него или вместе с ним. С их помощью можно заставить hadoop кластер решать задачи пользователя.
В качестве справочника начинающему я советую читать "Hadoop: the definitive guide" Тома Вайта. Отсылая вас к разным главам в ней я буду называть ее [HDG]

В компоненты hadoop'а входят:

среда, 30 ноября 2011 г.

Hello world

Этот блог посвящен hadoop'у - свободной системе распределенных вычислений; "экосистеме", как ее называют создатели.

Решения, типа hadoop'а нужны, когда
  • у вас есть кластер, но вы не знаете, что с ним делать :)
  • вам надо хранить несколько десятков-сотен терабайт данных в одном месте
  • при этом легко обращаться к ним, не вытаскивая харды с бекапом из пыльных коробок
  • или даже вообще: читать и писать данные в онлайне
  • обрабатывать данные на своем кластере за разумное время. Например сортировать, ранжировать, считать статистики, да вообще, делать что потребуется.
  • тратить на разработку не месяцы и годы, а дни и недели
Цель этого блога - рассказать о такой клевой штуке как hadoop, описать полезные программы, которые входят в него, ну и держать народ в курсе событий в мире hadoop разработки.