Основы Hadoop и обработка больших данных
JS_Hadoop
Курс дает представление об основах Apache™ Hadoop® и методах разработки приложений, обрабатывающих данные, на его основе. Участники познакомятся с HDFS – стандартом де факто для долговременного надежного хранения больших объемов данных, фреймворком MapReduce, автоматически управляющим параллельным выполнением приложений на кластере, новым фреймворком YARN, а также сопутствующими проектами, составляющими экосистему Hadoop®.
Аудитория
Курс предназначен для специалистов в области распределённой обработки больших данных
Предварительный уровень подготовки
Обязательное знание диалекта 1.8 языка Java на уровне JavaSE8Core. Желательно понимание обобщённых типов Java и фреймворка коллекций Java.
Программа курса
1. Введение.
- Hadoop и РСУБД
- Распределенные вычисления
- Краткая история Hadoop
- ApacheHadoop и экосистема Hadoop
- ВыпускиHadoop
- Версии MapReduceAPI
- Совместимость версий
2. MapReduce.
- Набор метеорологических данных
- Формат данных
- Анализ данных средствами Unix
- Анализ данных в Hadoop
- Отображение и свертка
- Программа MapReduce на языке Java
- MapReduce в перспективе
- Поток данных
- Комбинирующие функции
- Выполнение распределенного задания MapReduce
- Hadoop Streaming
- Hadoop Pipes
- Компиляция и запуск
3. HDFS.
- Строение HDFS
- Основные концепции HDFS
- Блоки
- Узлы имен и узлы данных
- HDFS Federation
- Высокая доступность HDFS
- Преодоление сбоев и изоляция
- Интерфейс командной строки
- Основные операции файловой системы
- Файловые системы Hadoop
- Интерфейсы
- Интерфейс Java
- Чтение данных Hadoop по URL-адресу
- Чтение данных с использованием Filesystem API
- Запись данных
- Получение информации от файловой системы
- Удаление данных
- Поток данных
- Чтение файла, запись в файлы
- Модель целостности
- Перемещение данных: Flume и Sqoop
- Параллельное копирование с использованием distcp
- Сбалансированность кластеров HDFS
- HAR
- Использование HAR
- Ограничения
4. Ввод/вывод в Hadoop.
- Целостность данных
- Целостность данных в HDFS
- Local File System
- Checksum File System
- Сжатие
- Кодеки
- Сжатие и разбиение входных данных
- Использование сжатия в MapReduce
- Сериализация
- Интерфейс Writable
- Классы Writable
- Пользовательские реализации Writable
- Программные среды сериализации
5. Avro.
- Типы данных и схемы Avro
- Сериализация и десериализация в памяти
- Файлы данных Avro
- Файловые структуры данных
- SequenceFile
- MapFile
6. Разработка приложений MapReduce.
- API конфигурации
- Объединение ресурсов
- Расширение переменных
- Настройка среды разработки
- Управление конфигурацией
- Написание модульных тестов с MRUnit
- Функция отображения
- Функция свертки
- Локальное выполнение с тестовыми данными
- Локальный запуск задания
- Тестирование управляющей программы
- Запуск в кластере
- Упаковка задания, запуск задания
- Веб-интерфейсMapReduce
- Получение результатов
- Отладка задания
- Журналы Hadoop
- Удаленная отладка
- Оптимизация задания
- Профилирование
- Модель Map Reduce
- Разложение задачи на задания MapReduce
7. Создание кластера Hadoop.
- Оборудование кластера
- Сетевая топология
- Настройка и установка кластера
- Создание пользователя Hadoop
- Установка Hadoop
- Тестирование установки
- КонфигурацияSSH
- Конфигурация Hadoop
- Управление конфигурацией
- Настройки окружения
- Важные свойства демонов Hadoop
- Адреса и порты демонов Hadoop
- Другие свойства Hadoop
- Создание учетных записей пользователей
- Конфигурация YARN
- Важные свойства демонов YARN
- Адреса и порты демонов YARN
8. Администрирование Hadoop.
- HDFS
- Дисковые структуры данных
- Безопасный режим
- Журналы аудита
- Инструменты
- Мониторинг
- Ведение журналов
- Метрики
- Сопровождение
- Стандартные административные процедуры
- Включение и исключение узлов
- Обновления
9. Hive.
- Оболочка Hive
- Пример
- Администрирование Hive
- Настройка конфигурации Hive
- Сервисные функции Hive
- Метахранилище
- Сравнение с традиционными базами данных
- Проверка схемы при чтении и записи
- Обновления, транзакции и индексы
- HiveQL
- Типы данных
- Операторы и функции
- Таблицы
- Управляемые и внешние таблицы
- Разделы и гнезда
- Форматы хранения данных
- Импортирование данных
- Модификация таблиц
- Удаление таблиц
- Запросы к данным
- Сортировка и агрегирование
- Сценарии MapReduce
- Подзапросы
- Пользовательские функции
10. HBase.
- Знакомство с Hbase
- История
- Концепции
- Краткий обзор модели данных
- Реализация
- Пробный запуск
- Клиенты
- Java
- Avro,RESTиThrift
- Схемы
- Загрузка данных
- Веб-запросы
- HBase и РСУБД
- Масштабирование успешного сервиса
11. ZooKeeper.
- Установка и запуск ZooKeeper
- Реализация списка принадлежности в ZooKeeper
- Создание группы
- Присоединение к группе
- Вывод списка участников группы
- Удаление группы
- Сервис ZooKeeper
- Модель данных
- Операции
- Реализация
- Согласованность данных
- Сеансы
- Состояния
- Построение приложений с использованием ZooKeeper
- Отказоустойчивое приложение ZooKeeper
- Блокировка
- Другие распределенные структуры данных и протоколы
- Практическое использование ZooKeeper
- Надежность и производительностьHadoop и РСУБД
- Распределенные вычисления
- Краткая история Hadoop
- ApacheHadoop и экосистема Hadoop
- ВыпускиHadoop
- Версии MapReduceAPI
- Совместимость версий