вторник, 26 июня 2012 г.

Как использовать hive в веб аналитике. Статистика по пользователям


 В веб аналитике статистики считаются 3х разных размерностях:
  - в кликах
  - в сессиях
  - и в пользователях
 Статистика по пользователям очень важна, ведь именно посетители сайтов в конечном счете приносят бизнесу деньги.
В этом посте мы научимся считать такие статистики. Накапливать информацию о пользователях сложнее, чем о кликах или сессиях: 
  • вся информация о кликах есть в исходном логе, 
  • сессии можно определить обработав логи за один день
  • информацию о пользователях можно получить, обрабатывая недели и месяцы

пятница, 22 июня 2012 г.

Как использовать hive в веб аналитике. Сокращение больших данных


При работе с логами высоконагруженного сервиса приходится решать следующие проблемы
  • новые логи появляются каждый день и нужно автоматизировать их добавление и обработку
  • многие статистики считаются за день, неделю, месяц. Хочется простым способом считать их, используя при этом только логи за выбранные даты, а не за все время
  • если логов очень много, то хочется уметь считать статистики приближенно, используя только часть данных
Первые две проблемы решаются созданием разделов в таблице, последняя — семплированием

вторник, 19 июня 2012 г.

Как использовать hive в веб аналитике. Статистика сессий


Это третий пост про использование hive в веб аналитике. В предыдущих
постах я описал сам hive и задачу веб-аналитики, а так же как считать стастики по логам apache.
Здесь я разберу расчет статистик по сессиям, который требует особого подхода.

понедельник, 18 июня 2012 г.

Как использовать hive в web-аналитике. Анализ логов апача

В этом посте я расскажу, как при помощи hive можно вытащить что-нибудь ценное из логов апача. Если слова hive или веб-аналитика вам ничего не говорят, то рекомендую прочитать мой предыдущий пост:


В качестве справочного материала рекомендую использовать книгу Tom White "Hadoop The DefinitiveGuide", или читать про hive в wiki на сайте apache

четверг, 14 июня 2012 г.

Как использовать hive в web-аналитике. Введение


Прошлой осенью на мейлрушной конференции я услышал от тренера из cloudera, что hive являетя любимым инструментом многих пользователей hadoop'а. Эта штука радикальным образом упрощает написание hadoop задач, переводя их из терминова map-reduce команд в более понятный для человека sql-подобный язык. Рассказать подробно про hive за один раз невозможно, поэтому я решил посвятить ему небольшую серию постов.