У большинства окружающих нас программ список релизов устроен просто и скучно. Сначала появляются первые, нестабильные релизы 0.1, 0.2, через какое то время появляется стабильная единичка, патчи к ней, потом приходит время двойки и так далее.
Но для hadoop'а, как для инновационной технологии, призванной изменить подходы
к хранению и обработке информации в мире, такое простое решение с номерами не катит. Hadoop относится к тем вещам, фичи которых нужны уже прямо сейчас, а не с выходом, а потом стабилизацией следующей версии.
Поэтому на сегодняшний день дерево версий хадупа выглядит примерно так:
Небольшое пояснение к схеме:
- синие квадратики обозначают официальные релизы Аpache Hadoop, которые бесплатно доступны для всех в этом мире
- пунктирные квадраты - это бранчи хадупа, которые не были его официальными релизами, однако они обычно доступны в виде исходных кодов или tar архивов.
- красные овалы - коммерческие производные hadoop, которые могут быть основаны на hadoop, или использовать hadoop как часть специальных систем (как в случае MapR). Эти производные могут быть или не быть совместимыми с Hadoop или его компонентами.
HDFS append не был доступен в официальным релизах Apache Hadoop 0.20. В конце концов он был слит в версию 0.20.205, впоследствии переименованную в hadoop 1.0. Наличие HDFS append в сборке позволяет интегрировать hBase в официальный Apache Hadoop безо всяких патчей.
Еще один значимый релиз - это 0.20.203, реализующий надежную, хорошо протестированную систему безопасности hadoop на основе Kerberos. Релиз был разработан командой Yahoo! Hadoop development, ныне выделившуюся в отдельную компанию HortonWorks.
Диаграмма сверху ясно показывает несколько важных упущений коммерческих реализаций:
- многие из них не поддерживает Kerberos security (Greenplum, IBM, MapR)
- также в решениях от Greenplum и IBM недоступна HBase из-за отсутствия HDFS append. В случае MapR приходится использовать специальную версию HBase, распространяемую MapR.
Релиз 0.23 включил в себя множество важных инноваций в hadoop'е:
- новую версию MapReduce 2.0 (aka YARN),
- федерацию неймнод,
- высокая доступность неймноды.
Информацию о том, как развивались версии hadoop'а, а так же как выглядит дерево релизов, мне удалось подчерпнуть в блоге Konstantin Boudnik и официальном блоге cloudera. Идею, как это дерево может расти дальше можно прочитать вот в этом первоапрельском посте.
Комментариев нет:
Отправить комментарий