Блог о Hadoop: Старый и новый Hadoop API

Все начинающие hadoop разработчики рано или поздно обнаруживают, что все примеры готовых hadoop приложений написаны с использованием разных map и reduce функций, разного наследования классов от производного класса, с разным способом запуска задач.

Дело в том. что начиная с версии 0.20 у hadoop появился новый API, который несовместим со старым, хотя они и достаточно похожи друг на друга. Под старый API написано уже много кода, от которого не все еще готовы отказаться, поэтому сейчас два hadoop API существуют параллельно, что создает большую путаницу.

В разных версиях хадупа статусы старого и нового API различаются:

в версии 0.20 новый API реализован частично, старый API рекомендован как основной
в версиях 0.22 и 0.23 старый API помечен как устаревший (deprecated) и рекомендуется пользоваться новым
однако в hadoop 1.x новый API имеет статус "реализован частично", а старый - рекомендован для использования!

Я сам очень удивился, когда, читая доки по старому и новому API, обнаружил метки «deprecated» у старых классов в версиях 0.22 и 0.23 и не увидел ее в версии 1.01. Новый API не так понравился разработчикам как его старая версия? Как выяснилось из умной книжки, версия hadoop 1.0 была сделана из ветки hadoop 0.20 как самой стабильной и унаследовала от нее свое состояние дел. Поэтому в Hadoop 1.x рекомендуется писать свой код на старом API.

Разработчики хадупа иногда называют новый API «интерфейсом контекстных объектов» (context objects), так как в новом API все взаимодействие map-reduce приложений происходит через так называемый контекст. Новый API заточен на то, чтобы его было максимально просто дорабатывать в дальнейшем. Поэтому в нем многие интерфейсы были заменены абстрактными классами. В абстрактный класс гораздо проще добавить новый перегружаемый метод, сохранив при этом поддержку существующего кода.

В чем же разница между старым и новым API?

Новый API живет в пакете пакете org.apache.hadoop.mapreduce,
тогда как старый API находится в org.apache.hadoop.mapred

Задачи теперь управляются через класс Job, а не JobClient

В старом api в выходной директории создавались файлы

    part-00000
    part-00001
    part-00002
    ..........
в новом выходные файлы называются

    part-m-00000
    part-m-00001
    part-m-00002
    ..........
если они создаются после map стадии, или

    part-r-00000
    part-r-00001
    part-r-00002
    ..........
если они получаются после операции reduce
Коллекции ключей на входе метода reduce имеют тип Iterable <...> вместо Iterator <...>. В результате перебор значений в цикле становится более изящным и наглядным.
Метод reduce старого API:

protected void reduce(KeyClass key,
                      Iterator<ValueClass> values, ...) {
    while (values.hasNext()) {
        ValueClass currentValue = clicksCounts.next ().get ();
        // ...
    }
}

тот же метод в новом стиле:

protected void reduce (KeyClass key, 
                       Iterable <ValueClass> values, ...) {
    for (ValueClass currentValue : values) {
        // ...
    }
}

Новый hadoop API позволяет мапперам и редьюсерам контролировать процесс обработки входных значений через перегрузку метода run (). Оригинальный метод состоит из четырех строчек и его можно найти в исходном коде hadoop'а:

public void run(Contextcontext) 
        throws IOException, InterruptedException
 {
    setup(context);
    while(context.nextKeyValue()) {
        map(context.getCurrentKey(), 
            context.getCurrentValue(), 
            context);
    }
    cleanup(context);
}

ChainMapper

MultithreadMapper

Методы map и reduce теперь выбрасывают не один, а два типа исключений. К существовавшему раньше исключению IOException, выбрасывающемуся по любому поводу добавилось еще InterrupdedException, которое вылетает из методов класса Context при принудительной внешней остановке маппера и редьюсера. Его можно перехватывать и обрабатывать в методе run () для корректного завершения работы

После введения API «контекстных объектов» сигнатуры методов map и reduce изменились. И это надо учитывать при переводе своих старых приложений на новый API

Для демонстрации разницы старого и нового API я написал простенькую hadoop-утилиту, которое определяет число кликов каждого из пользователей на выбранном сайте. Исходными данными для нее являются логи Апача, которые можно нагенерировать уже упоминавшимся генератором логов. Подробней про лог апача можно почитать в этой статье.
Проект выложен на github и состоит из трех классов: парсера апачовых логов и двух реализаций подсчета кликов пользователей на старом и на новом API. Собрать код можно ant'ом, предварительно указав верные пути до ваших библиотек hadoop'а. Задачу написанную на старом API можно запустить командой

hadoop jar find_clicks_count.jar \
    FindClicksCountOldApi input_dir1 input_dir2... output_dir

А с использованием нового программного интерфейса:

hadoop jar find_clicks_count.jar \
    FindClicksCountNewApi input_dir1 input_dir2... output_dir

Информация про старый и новый API была взята из книжки Hadoop TheDefinitie Guide Тома Вайта.

Блог о Hadoop

вторник, 3 июля 2012 г.

Старый и новый Hadoop API

Комментариев нет:

Отправить комментарий

вторник, 3 июля 2012 г.

Старый и новый Hadoop API

Комментариев нет:

Отправить комментарий

вторник, 3 июля 2012 г.