Основы Hadoop и обработка больших данных
JS_Hadoop

Курс дает представление об основах Apache™ Hadoop® и методах разработки приложений, обрабатывающих данные, на его основе. Участники познакомятся с HDFS – стандартом де факто для долговременного надежного хранения больших объемов данных, фреймворком MapReduce, автоматически управляющим параллельным выполнением приложений на кластере, новым фреймворком YARN, а также сопутствующими проектами, составляющими экосистему Hadoop®.

Документы об окончании обучения: Сертификат УЦ ЮНИТУдостоверение гос. образца о повышении квалификации (по требованию).

Аудитория

Курс предназначен для специалистов в области распределённой обработки больших данных

Предварительный уровень подготовки

Обязательное знание диалекта 1.8 языка Java на уровне JavaSE8Core. Желательно понимание обобщённых типов Java и фреймворка коллекций Java.
 

Программа курса

1. Введение. 

  • Hadoop и РСУБД
  • Распределенные вычисления
  • Краткая история Hadoop
  • ApacheHadoop и экосистема Hadoop
  • ВыпускиHadoop
  • Версии MapReduceAPI
  • Совместимость версий

2. MapReduce. 

  • Набор метеорологических данных
  • Формат данных
  • Анализ данных средствами Unix
  • Анализ данных в Hadoop
  • Отображение и свертка
  • Программа MapReduce на языке Java
  • MapReduce в перспективе
  • Поток данных
  • Комбинирующие функции
  • Выполнение распределенного задания MapReduce
  • Hadoop Streaming
  • Hadoop Pipes
  • Компиляция и запуск

3. HDFS.

  • Строение HDFS
  • Основные концепции HDFS
  • Блоки
  • Узлы имен и узлы данных
  • HDFS Federation
  • Высокая доступность HDFS
  • Преодоление сбоев и изоляция
  • Интерфейс командной строки
  • Основные операции файловой системы
  • Файловые системы Hadoop
  • Интерфейсы
  • Интерфейс Java
  • Чтение данных Hadoop по URL-адресу
  • Чтение данных с использованием Filesystem API
  • Запись данных
  • Получение информации от файловой системы
  • Удаление данных
  • Поток данных
  • Чтение файла, запись в файлы
  • Модель целостности
  • Перемещение данных: Flume и Sqoop
  • Параллельное копирование с использованием distcp
  • Сбалансированность кластеров HDFS
  • HAR
  • Использование HAR
  • Ограничения

4. Ввод/вывод в Hadoop. 

  • Целостность данных
  • Целостность данных в HDFS
  • Local File System
  • Checksum File System
  • Сжатие
  • Кодеки
  • Сжатие и разбиение входных данных
  • Использование сжатия в MapReduce
  • Сериализация
  • Интерфейс Writable
  • Классы Writable
  • Пользовательские реализации Writable
  • Программные среды сериализации

5. Avro. 

  • Типы данных и схемы Avro
  • Сериализация и десериализация в памяти
  • Файлы данных Avro
  • Файловые структуры данных
  • SequenceFile
  • MapFile

6. Разработка приложений MapReduce. 

  • API конфигурации
  • Объединение ресурсов
  • Расширение переменных
  • Настройка среды разработки
  • Управление конфигурацией
  • Написание модульных тестов с MRUnit
  • Функция отображения
  • Функция свертки
  • Локальное выполнение с тестовыми данными
  • Локальный запуск задания
  • Тестирование управляющей программы
  • Запуск в кластере
  • Упаковка задания, запуск задания
  • Веб-интерфейсMapReduce
  • Получение результатов
  • Отладка задания
  • Журналы Hadoop
  • Удаленная отладка
  • Оптимизация задания
  • Профилирование
  • Модель Map Reduce
  • Разложение задачи на задания MapReduce

7. Создание кластера Hadoop. 

  • Оборудование кластера
  • Сетевая топология
  • Настройка и установка кластера
  • Создание пользователя Hadoop
  • Установка Hadoop
  • Тестирование установки
  • КонфигурацияSSH
  • Конфигурация Hadoop
  • Управление конфигурацией
  • Настройки окружения
  • Важные свойства демонов Hadoop
  • Адреса и порты демонов Hadoop
  • Другие свойства Hadoop
  • Создание учетных записей пользователей
  • Конфигурация YARN
  • Важные свойства демонов YARN
  • Адреса и порты демонов YARN

8. Администрирование Hadoop. 

  • HDFS
  • Дисковые структуры данных
  • Безопасный режим
  • Журналы аудита
  • Инструменты
  • Мониторинг
  • Ведение журналов
  • Метрики
  • Сопровождение
  • Стандартные административные процедуры
  • Включение и исключение узлов
  • Обновления

9. Hive. 

  • Оболочка Hive
  • Пример
  • Администрирование Hive
  • Настройка конфигурации Hive
  • Сервисные функции Hive
  • Метахранилище
  • Сравнение с традиционными базами данных
  • Проверка схемы при чтении и записи
  • Обновления, транзакции и индексы
  • HiveQL
  • Типы данных
  • Операторы и функции
  • Таблицы
  • Управляемые и внешние таблицы
  • Разделы и гнезда
  • Форматы хранения данных
  • Импортирование данных
  • Модификация таблиц
  • Удаление таблиц
  • Запросы к данным
  • Сортировка и агрегирование
  • Сценарии MapReduce
  • Подзапросы
  • Пользовательские функции

10. HBase. 

  • Знакомство с Hbase
  • История
  • Концепции
  • Краткий обзор модели данных
  • Реализация
  • Пробный запуск
  • Клиенты
  • Java
  • Avro,RESTиThrift
  • Схемы
  • Загрузка данных
  • Веб-запросы
  • HBase и РСУБД
  • Масштабирование успешного сервиса

11. ZooKeeper. 

  • Установка и запуск ZooKeeper
  • Реализация списка принадлежности в ZooKeeper
  • Создание группы
  • Присоединение к группе
  • Вывод списка участников группы
  • Удаление группы
  • Сервис ZooKeeper
  • Модель данных
  • Операции
  • Реализация
  • Согласованность данных
  • Сеансы
  • Состояния
  • Построение приложений с использованием ZooKeeper
  • Отказоустойчивое приложение ZooKeeper
  • Блокировка
  • Другие распределенные структуры данных и протоколы
  • Практическое использование ZooKeeper
  • Надежность и производительностьHadoop и РСУБД
  • Распределенные вычисления
  • Краткая история Hadoop
  • ApacheHadoop и экосистема Hadoop
  • ВыпускиHadoop
  • Версии MapReduceAPI
  • Совместимость версий
Рекомендуемые курсы
Дополнительно

Курс читает тренер-практик с опытом проведения курса и практическими знаниями в работе программы. 

Для получения более подробной информации о наших преподавателях свяжитесь с нами по тел. (343) 227-30-37, по эл.почте edu@unit-edu.ru или в нашем Online-чате.

Ближайшие курсы

55176 25.05 - 25.05.2026

Microsoft PowerPoint 2016. Уровень 1

Стоимость обучения в группе

7 300 ₽

Стоимость индивидуального обучения

17 400 ₽

Длительность

1 день (8 ак. ч.)

VM_lev1 25.05 - 29.05.2026

VMware vSphere 8/7. Уровень 1. Внедрение и эксплуатация vSphere

Стоимость обучения в группе

83 500 ₽

Стоимость индивидуального обучения

110 000 ₽

Длительность

40 ак. ч. (5 дней)

1С_ERP_Б_угл 25.05 - 29.05.2026

Бюджетирование в прикладном решении "1С:ERP Управление предприятием 2.5"

Стоимость обучения в группе

69 000 ₽

Стоимость индивидуального обучения

89 700 ₽

Длительность

40 ак. ч. (5 дней)

VM1 v.8.0/7.0/6.5 25.05 - 29.05.2026

Построение виртуальной инфраструктуры с помощью VMware ESXi 8.0/7.0/6.5 и VMware vCenter Server 8.0/7.0/6.5

Стоимость обучения в группе

83 500 ₽

Стоимость индивидуального обучения

115 500 ₽

Длительность

5 дней (40 ак. ч.)

20462 25.05 - 29.05.2026

Администрирование баз данных Microsoft SQL Server

Стоимость обучения в группе

43 200 ₽

Стоимость индивидуального обучения

72 050 ₽

Длительность

5 дней (40 ак. ч.)

Or12c_DBA2 25.05 - 29.05.2026

Администрирование Oracle 12c. Часть II.»

Стоимость обучения в группе

63 700 ₽

Стоимость индивидуального обучения

108 300 ₽

Длительность

5 дней (40 ак. ч.)

РЕДОС-102 25.05 - 29.05.2026

Сетевое администрирование РЕД ОС

Стоимость обучения в группе

50 000 ₽

Стоимость индивидуального обучения

65 000 ₽

Длительность

5 дней (40 ак. ч.)

LPI-201 25.05 - 29.05.2026

Углубленное администрирование GNU/Linux

Стоимость обучения в группе

41 900 ₽

Стоимость индивидуального обучения

55 500 ₽

Длительность

5 дней (40 ак. ч.)

MS-203T00 25.05 - 29.05.2026

Microsoft 365 Messaging

Стоимость обучения в группе

50 105 ₽

Стоимость индивидуального обучения

65 130 ₽

Длительность

5 дней (40 ак. ч.)

Python-1 25.05 - 29.06.2026

Основы программирования Python. Уровень 1.

Стоимость обучения в группе

37 450 ₽

Стоимость индивидуального обучения

61 000 ₽

Длительность

5 дней (40 ак. ч.)

55177 26.05 - 26.05.2026

Microsoft PowerPoint 2016. Уровень 2

Стоимость обучения в группе

7 300 ₽

Стоимость индивидуального обучения

17 400 ₽

Длительность

1 день (8 ак. ч.)

55160 01.06 - 03.06.2026

Microsoft Excel 2016 Уровень 2. Расширенный

Стоимость обучения в группе

19 350 ₽

Стоимость индивидуального обучения

25 850 ₽

Длительность

3 дня (24 ак. ч.)

ViPNet 4 01.06 - 03.06.2026

Администрирование системы защиты информации ViPNet 4 (Программно-аппаратные комплексы VipNet)

Стоимость обучения в группе

37 500 ₽

Стоимость индивидуального обучения

64 000 ₽

Длительность

3 дня (72 ак. ч.)

PGSQL_develop 01.06 - 05.06.2026

PostgreSQL для разработчиков: SQL, PL/PgSQL, Java

Стоимость обучения в группе

47 600 ₽

Стоимость индивидуального обучения

64 500 ₽

Длительность

5 дней (40 ак. ч.)

DevOps 01.06 - 05.06.2026

DevOps: Культура, автоматизация и ваш первый конвейер

Стоимость обучения в группе

43 800 ₽

Стоимость индивидуального обучения

57 000 ₽

Длительность

40 ак. ч. (5 дней)

Python-2 01.06 - 05.06.2026

Продвинутое программирование Python. Уровень 2.

Стоимость обучения в группе

37 450 ₽

Стоимость индивидуального обучения

64 300 ₽

Длительность

5 дней (40 ак. ч.)

LPI-adm 01.06 - 05.06.2026

Администрирование GNU/Linux – интенсивный курс

Стоимость обучения в группе

83 400 ₽

Стоимость индивидуального обучения

108 500 ₽

Длительность

6 дней (48 ак. ч.)

СТП 04.06 - 05.06.2026

Современные технологии продаж

Стоимость обучения в группе

30 250 ₽

Стоимость индивидуального обучения

41 250 ₽

Длительность

2 дня (14 ак. ч.)

PG_миграция 08.06 - 09.06.2026

Миграция на Postgres: Подходы, проблемы и решения

Стоимость обучения в группе

35 400 ₽

Стоимость индивидуального обучения

84 700 ₽

Длительность

2 дня (16 ак. ч.)

БТ_TCP/IP 08.06 - 09.06.2026

Основы TCP/IP

Стоимость обучения в группе

37 500 ₽

Стоимость индивидуального обучения

53 350 ₽

Длительность

2 дня (16 ак. ч.)

Тех.PQ 08.06 - 09.06.2026

Технология Power Query в Excel

Стоимость обучения в группе

20 300 ₽

Стоимость индивидуального обучения

37 400 ₽

Длительность

2 дня (16 ак. ч.)

Or12c_APLS0 08.06 - 10.06.2026

Передовые методы PL/SQL

Стоимость обучения в группе

52 700 ₽

Стоимость индивидуального обучения

75 000 ₽

Длительность

3 дня (24 ак. ч.)

ITIL ® 4.0 08.06 - 10.06.2026

Основы управления ИТ услугами по ITIL® 4.0

Стоимость обучения в группе

35 000 ₽

Стоимость индивидуального обучения

66 600 ₽

Длительность

3 дня (24 ак. ч.)

10962 08.06 - 10.06.2026

Расширенные возможности по автоматизации администрирования с помощью Windows PowerShell

Стоимость обучения в группе

32 500 ₽

Стоимость индивидуального обучения

53 800 ₽

Длительность

3 дня (24 ак. ч.)

Компас-3D 08.06 - 10.06.2026

Компас-3D для пользователей

Стоимость обучения в группе

36 300 ₽

Стоимость индивидуального обучения

60 500 ₽

Длительность

3 дня (24 ак. часа)

PG_QPT 08.06 - 10.06.2026

PostgreSQL. Оптимизация запросов

Стоимость обучения в группе

28 600 ₽

Стоимость индивидуального обучения

42 400 ₽

Длительность

3 дня (24 ак. ч.)

Or12c_SQLк 08.06 - 11.06.2026

Основы БД Oracle 12c: SQL- комплексная программа

Стоимость обучения в группе

68 500 ₽

Стоимость индивидуального обучения

110 000 ₽

Длительность

5 дней (40 ак. ч.)

LPI-301 08.06 - 11.06.2026

Программирование в Linux на C\С++

Стоимость обучения в группе

82 700 ₽

Стоимость индивидуального обучения

160 000 ₽

Длительность

4 дня (32 ак. ч.)

БТ17 08.06 - 12.06.2026

Расследование компьютерных инцидентов. Компьютерная криминалистика

Стоимость обучения в группе

52 250 ₽

Стоимость индивидуального обучения

80 190 ₽

Длительность

5 дней (40 ак. ч.)

Тех_П 09.06 - 10.06.2026

Технический писатель: создание технической документации

Стоимость обучения в группе

31 900 ₽

Стоимость индивидуального обучения

41 500 ₽

Длительность

2 дня (16 ак. ч.)

Primavera 2 10.06 - 11.06.2026

Планирование и контроль с использованием Primavera. Расширенный курс

Стоимость обучения в группе

39 850 ₽

Стоимость индивидуального обучения

51 800 ₽

Длительность

16 ак. ч. (2 дня)

HCIP_DC 14.06 - 26.06.2026

Внедрение ключевых технологий направления Datacom Huawei

Стоимость обучения в группе

120 350 ₽

Стоимость индивидуального обучения

170 500 ₽

Длительность

80 ак. ч.

20778 15.06 - 16.06.2026

Анализ Данных с помощью Power BI

Стоимость обучения в группе

32 000 ₽

Стоимость индивидуального обучения

50 000 ₽

Длительность

3 дня (24 ак. ч.)

ITPM 15.06 - 17.06.2026

Управление проектами ИТ. Практические аспекты

Стоимость обучения в группе

58 180 ₽

Стоимость индивидуального обучения

158 000 ₽

Длительность

3 дня (24 ак. ч.)

Twr 15.06 - 18.06.2026

Тестирование WEB-приложений

Стоимость обучения в группе

43 800 ₽

Стоимость индивидуального обучения

66 550 ₽

Длительность

4 дня (32 ак. ч.)

20413 15.06 - 19.06.2026

Проектирование и внедрение серверной инфраструктуры

Стоимость обучения в группе

41 800 ₽

Стоимость индивидуального обучения

68 000 ₽

Длительность

5 дней (40 ак. ч.)

PGSQL_develop 2 15.06 - 19.06.2026

PostgreSQL. Разработка

Стоимость обучения в группе

39 600 ₽

Стоимость индивидуального обучения

51 500 ₽

Длительность

5 дней (40 ак. часов)

20412 15.06 - 19.06.2026

Настройка дополнительных сервисов Windows Server 2012 R2

Стоимость обучения в группе

41 800 ₽

Стоимость индивидуального обучения

64 000 ₽

Длительность

5 дней (40 ак. ч.)

10969 15.06 - 19.06.2026

Cлужбы Active Directory в Windows Server 2012 R2

Стоимость обучения в группе

42 600 ₽

Стоимость индивидуального обучения

65 000 ₽

Длительность

5 дней (40 ак. ч.)

20345-1-B 15.06 - 19.06.2026

Администрирование Microsoft Exchange Server 2016/2019

Стоимость обучения в группе

45 100 ₽

Стоимость индивидуального обучения

65 000 ₽

Длительность

5 дней (40 ак. ч.)

ME_Mid 15.06 - 19.06.2026

Microsoft Excel Middle. Автоматизация рутинных процессов

Стоимость обучения в группе

35 000 ₽

Стоимость индивидуального обучения

45 000 ₽

Длительность

40 ак.ч. (5 дней)

LPI-103 16.06 - 19.06.2026

Системное администрирование Linux

Стоимость обучения в группе

34 100 ₽

Стоимость индивидуального обучения

50 500 ₽

Длительность

4 дня (32 ак. ч.)

20779 17.06 - 19.06.2026

Анализ Данных с помощью Excel

Стоимость обучения в группе

32 000 ₽

Стоимость индивидуального обучения

50 000 ₽

Длительность

3 дня (24 ак. ч.)

Юнит_Тренинг-9 22.06 - 23.06.2026

Сервисная работа с клиентом

Стоимость обучения в группе

44 000 ₽

Стоимость индивидуального обучения

66 550 ₽

Длительность

2 дня (16 ак. часов)

10987 22.06 - 25.06.2026

Настройка производительности и оптимизации баз данных SQL

Стоимость обучения в группе

41 900 ₽

Стоимость индивидуального обучения

61 100 ₽

Длительность

4 дня (32 ак. ч.)

NC1 22.06 - 25.06.2026

Проектирование в nanoCAD. Базовый курс

Стоимость обучения в группе

40 000 ₽

Стоимость индивидуального обучения

116 000 ₽

Длительность

4 дня (32 ак. ч.)

20762 22.06 - 26.06.2026

Разработка баз данных SQL

Стоимость обучения в группе

44 400 ₽

Стоимость индивидуального обучения

71 850 ₽

Длительность

5 дней (40 ак. ч.)

20483 22.06 - 26.06.2026

Программирование на C#

Стоимость обучения в группе

44 440 ₽

Стоимость индивидуального обучения

74 850 ₽

Длительность

5 дней (40 ак. ч.)

Python-3 22.06 - 26.06.2026

Разработка веб - приложений в Django. Уровень 3.

Стоимость обучения в группе

53 400 ₽

Стоимость индивидуального обучения

105 300 ₽

Длительность

5 дней (40 ак. ч.)

HCIP_DA 22.06 - 26.06.2026

Внедрение продвинутых технологий маршрутизации и коммутации Huawei

Стоимость обучения в группе

120 350 ₽

Стоимость индивидуального обучения

150 300 ₽

Длительность

5 дней (40 ак. часов)

LPI-101 22.06 - 26.06.2026

Администрирование GNU/Linux

Стоимость обучения в группе

40 650 ₽

Стоимость индивидуального обучения

53 000 ₽

Длительность

5 дней (40 ак. ч.)

ARH-0300 22.06 - 26.06.2026

Углубленное администрирование Red Hat Linux

Стоимость обучения в группе

55 250 ₽

Стоимость индивидуального обучения

84 700 ₽

Длительность

5 дней (40 ак. ч.)

HCIA_DC 22.06 - 03.07.2026

Курс подготовки специалиста Huawei по технологиям и оборудованию передачи данных. Базовый уровень.

Стоимость обучения в группе

150 000 ₽

Стоимость индивидуального обучения

170 500 ₽

Длительность

80 ак. ч.