Блог о Hadoop: октября 2012

понедельник, 29 октября 2012 г.

Hadoop в реальном времени

На прошлой неделе в Нью Йорке состоялась конфа Hadoop World 2012.
На этой конфе клаудера презентовала свою новую разработку Cloudera Impala (анг. "Чернопятая антилопа"). Эта система для выполнения SQL подобных запросов на данных в HDFS в реальном времени.

С точки зрения пользователя - Impala - это облегченый hiveQL. Однако в отличие от Hive - Impala не является оберткой вокруг map-reduce, а независимой утилитой, инстансы которой ставятся на все машины кластера.
Об архитектуре Impala написано очень скупо, приведена лишь такая вот диаграмма

на схеме MPP скорее всего означает "Massive Parallel Processing" - массово паралельную систему вычислений. В блоге cloudera сказано, что так реализован движок распределенных запросов, который очень похож на то, на чем строятся коммерческие паралельные СУБД.

Фичи Impala:

100% open source
может работать с данными как из hdfs, так и из hbase
можно настроить единое хранилище метаинформации для нее и для hive'а, тогда она будет работать с теми же таблицами, что и hive
умеет делать join'ы таблиц

По сравнению с hive:

в задачах ввода-вывода скорость выше в 3-4 раза
в одиночных джойнах в 7-45 раз
в джойнах, когда данные помещаются в память - в 20-90 раз

Я немножно потестировала impala сам, скачав настроенную виртуалку с сайта cloudera.

над простой тестовой задачей "select * from table" Impala работала 0.7 секунд, когда hive'у потребовалось около 12.
с задачей посложнее, где надо было сделать 6 джойнов, Impala думала 16 секунд, а hivе отправил виртуалку в жесткий свап.

Технические органичения на бету строгие: только RHEL или CentOS, причем определенныой версии.

Вот такая вот штука. Будем ждать релиза и облизываться.

Ссылки по теме:

среда, 24 октября 2012 г.

Гитлер и Хадуп

Вот что может случиться, когда неправильно понимаешь архитектуру hadoop кластера :)))

воскресенье, 21 октября 2012 г.

Я прошел Cloudera Certified Hadoop Developer!!!

В пятницу, 19 октября, я ходил сдавать экзамен Cloudera Ceritfied Hadoop Developer в центре "Специалист". Сдал его успешно, дав 56 правильных ответов из 60.

Чем был мне полезен этот экзамен:

Во первых это моя первая сертификация и мой первый сертификат специалиста

Во вторых, при подготовке к экзамену мне пришлось целенаправлено проштудировать Hadoop The Definitive Guide.

В итоге узнал для себя новое о хадупе, например что такое Data Locality, Speculative Execution, что делает маппер, если очередная строка текстового файла оказалась разбита по разным файлам, как реализовать join, чтобы разные входные данные обрабатывались разными мапперами.

В третьих в процессе самого экзамена я встретил несколько "хрен знает как ответить" вопросов. Перед началом экзамена я дал тестирующей программе обещание хранить содержимое экзамена в тайне, поэтому говорить о них не буду :)))

Общее впечатление от экзамена: экзамен легкий, расчитан на то, чтобы новичок в этом деле сдал его, как следует изучив матчасть. Для специалиста, проработавшего с Hadoop не один год большинство вопросов кажутся очевидными, из серии "что делать человеку, который очень хочет запускать задачки на Hadoop, но значет только SQL?".

Несколько слов о том, как готовиться к экзамену. Мне для подготовки вполне хватило информации из Hadoop The Definitive Guide. Экзамен построен на 3й версии клаудеровского дистрибутива hadoop, поэтому вопросы относятся только классическому Map-Reduce и старой версии Hadoop API. Список тем, приведенный на сайте полностью покрывает все вопросы теста.

Ну вот как-то так. На все вопросы про экзамен готов ответить в комментах.

Update: в сети появились примеры экзаменационных вопросов.

среда, 3 октября 2012 г.

Вышел CDH 4.1!

Cloudera - компания, которая разрабатывает бесплатные дистрибутивы hadoop'а и многочисленных его приложений, которые хорошо работают друг с другом.

Вчера (2 октября) Cloudera сообщила о выходе нового дистрибутива hadoop CDH 4.1 (cloudera distribution of hadoop).
Основные фичи нового пакета по сравнению с CDH 4.0:
- Хранилище "по кворуму" - HDFS может хранить в нем свои собственные логи изменений. Теперь "высокодоступную" неймноду можно запускать без использования внешних хранилищ или других решений.
- Безопасность и многопоточность hive - теперь в hive можно ставить задачи, используя авторизацию по kerberos. Также hive теперь поддерживает несколько пользовательских запросов одновременно
- Билдер потока Oozie - ози была добавлена в дистрибутив 2 года назад и за это время куча пользователей просили клаудеру сделать разработку потока для него проще. Теперь в hue добавлен новый job designer, который позволяет строить поток выполнения задач oozie графически
- Улучшения во Flume - за последнее время Flume стал хребтом некоторых существующих проектов по сборку данных. В некоторых системах Flume собирает до 20Tb новых данных в день. В 4.1 добавлена синхронизация с hBase, несколько метрик для мониторинга, улучшения производительности.
- Разные улучшения производительности - меп-редьюс стал шустрее по сравнению с CDH 4.0
- Улучшения в безопасности - CDH 4.1 позволяет шифровать данные на лету на стадии shuffle. Так же появилась безопасность под доступу к файловой системе hdfs через FUSE

Описание нового релиза взято из официального блога cloudera
http://www.cloudera.com/blog/2012/10/cdh4-1-now-released/

понедельник, 29 октября 2012 г.