Обработка Данных с Microsoft HDInsight

В данный момент идет прием заявок на курс.
Мы можем сообщить вам о начале
запланированного обучения


Код: 20775
Длительность: 40 ак.ч.
Стоимость: 31 500 р.

Цель курса: Предоставить слушателям знания и навыки, необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight.

Аудитория:
Этот курс предназначен для инженеров, архитекторов, специалистов по подготовке данных, а также разработчиков желающих использовать HDInsight и язык R в своих проектах.

По окончании курса слушатели смогут:
· Описать Hadoop, MapReduce, HDInsight
· Описать типы кластеров HDInsight
· Описать создание, управление и удаление кластеров HDInsight с помощью PowerShell.
· Описать, как разрешать доступ пользователей к объектам.
· Описать конфигурации и архитектуру хранилища HDInsight.
· Проводить мониторинг ресурсов с Operations management suite.
· Выполнять запросы с Hive и Pig
· Описать использование ETL и Spark
· Внедрить интерактивные запросы
· Выполнить интерактивную обработку данных с помощью Apache Phoenix
· Управлять задачами потоковой аналитики
· Создать приложения для обработки структурированных потоков в Spark.
· Использовать потоковые данные в Storm
· Объяснить, как работает язык R
· Преобразовывать и зачищать наборы данных

Необходимая подготовка:
Для эффективного обучения на курсе, слушатели должны обладать следующими знаниями и навыками:
· Опыт программирования на R и знание распространенных пакетов R
· Знания общих статистических методов анализа данных и лучших практик.
· Основные сведения о операционных системах Microsoft Windows.
· Опыт работы с реляционными базами данных.

Материалы слушателя:
Слушателям предоставляется фирменное учебное пособие и прочие материалы, необходимые для обучения.

Регистрация на курс:
1.   По электронной почте. Отправьте сообщение на адрес edu@unitgroup.ru, с указанием: названия предприятия, ФИО участников, их должностей, контактных телефонов и e-mail.
2.   По телефону +7(343) 344-25-60 Учебный центр Юнит.

Содержание курса:
Модуль 1: Начало работы с HDInsight
Этот модуль описывает возможности Hadoop, парадигмы MapReduce и основы работы с HDInsight.
Темы
·         Большие данные
·         Hadoop
·         MapReduce
·         HDInsight
Лабораторная работа: Запросы к большим данным
·         Запросы к данным с Hive
·         Запросы к данным с Excel

Модуль 2: Развертывание кластеров HDInsight
Этот модуль описывает процедуру развёртывания кластеров HDInsight.
Темы
·         Типы кластеров HDInsight
·         Управление кластерами HDInsight
·         Управление кластерами HDInsight с помощью PowerShell
Лабораторная работа: Управление кластерами HDInsight в Azure
·         Создать кластер Hadoop в HDInsight
·         Настроить HDInsight с помощью скрипта
·         Настроить HDInsight с помощью Bootstrap
·         Удалить кластер HDInsight

Модуль 3: Авторизация пользователей для доступа к ресурсам
Этот модуль описывает, как назначать права и выдавать разрешения для пользователей в Azure.
Темы
·         Недоменные кластеры
·         Настройка кластера HDInsight, подключенного к домену
·         Управление подключенным к домену кластером HDInsight
Лабораторная работа: Авторизация пользователей для доступа к ресурсам
·         Настройка кластера HDInsight, подключенного к домену
·         Настроить политики Hive

Модуль 4: Загрузка данных в HDInsight
Этот модуль описывает способы загрузки данных в HDInsigh.
Темы
·         Хранилище HDInsigh
·         Средства загрузки данных
·         Производительность и надёжность
Лабораторная работа: Загрузка данных в HDInsight
·         Загрузка данных с помощью Sqoop
·         С помощью загрузка данных в AZcopy
·         Загрузка данных с помощью ADLcopy
·         Использовать HDInsight для сжатия данных

Модуль 5: Поиск и устранение неисправностей в HDInsight
Этот модуль описаны способы устранения неполадок в HDInsight.
Темы
·         Анализ журналов
·         Журналы YARN
·         Дампы кучи (Heap)
·         Operations management suite
Лабораторная работа: Поиск и устранение неисправностей в HDInsight
·         Анализ журналов HDInsight
·         Анализ журналов YARN
·         Мониторинг ресурсов с Operations management suite
   
Модуль 6: Внедрение пакетных решений
Этот модуль объясняет, как реализовать пакетные решения.
Темы
·         Хранилище Apache Hive
·         Запросы с Hive и Pig
·         Подключение HDInsight
Лабораторная работа: Резервное копирование баз данных SQL Server
·         Загрузка данных в таблицу Hive
·         Запрос данных в Hive и Pig
   
Модуль 7: Проектирование пакетных решений ETL для больших данных с помощью Spark
В этом модуле описывается, как проектировать пакетные решения ETL для больших данных с помощью Spark.
Темы
·         Что такое Spark?
·         ETL и Spark
·         Производительность Spark
Лабораторная работа: Проектирование пакетных решений ETL для больших данных с помощью Spark
·         Создание кластера HDInsight с доступом к хранилищу Data Lake
·         Использование кластера Spark в HDInsight для анализа данных в хранилище Data Lake
·         Анализ журналов сайта с помощью настраиваемой библиотеки кластера Apache Spark в HDInsight
·         Управление ресурсами кластера Apache Spark в Azure HDInsight
   
Модуль 8: Анализ данных со Spark SQL
Этот модуль описывает, как анализировать данные со Spark SQL.
Темы
·         Внедрение интерактивных запросов
·         Проведение исследовательского анализа данных
Лабораторная работа: Анализ данных со Spark SQL
·         Внедрение интерактивных запросов
·         Проведение исследовательского анализа данных
   
Модуль 9: Анализ данных с помощью Hive и Phoenix
Этот модуль описывает, как анализировать данные с помощью Hive и Phoenix.
Темы
·         Внедрение интерактивных запросов для больших данных с помощью Hive.
·         Проведение исследовательского анализа данных с помощью Hive
·         Выполнение интерактивной обработки данных с помощью Apache Phoenix
Лабораторная работа: Анализ данных с помощью Hive и Phoenix
·         Внедрение интерактивных запросов для больших данных с помощью Hive.
·         Проведение исследовательского анализа данных с помощью Hive
·         Выполнение интерактивной обработки данных с помощью Apache Phoenix

Модуль 10: Потоковая аналитика
Этот модуль описывает потоковую аналитику в Azure.
Темы
·         Потоковая аналитика
·         Обработка потоковых данных из потоковой аналитики
·         Управление задачами потоковой аналитики
Лабораторная работа: Внедрение потоковой аналитики
·         Обработка потоковых данных из потоковой аналитики
·         Управление задачами потоковой аналитики

Модуль 11: Spark Streaming и DStream API
Этот модуль знакомит с DStream API и описывает, как в Spark создать приложения для обработки структурированных потоков.
Темы
·         DStream
·         Создание приложений для обработки структурированных потоков в Spark
·         Стабильность и визуализация
Лабораторная работа: Использование DStream API для создания приложений Spark Streaming
·         Создание приложения Spark Streaming с помощью DStream API
·         Создание приложения для обработки структурированных потоков в Spark

Модуль 12: Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
В этом модуле рассказано, как обрабатывать большие данные в режиме реального времени с помощью Apache Storm.
Темы
·         Долго хранимые данные
·         Потоковые данные в Storm
·         Создание топологии Storm
·         Настройка Apache Storm
Лабораторная работа: Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
·         Потоковые данные в Storm
·         Создание топологии Storm

Модуль 13: Анализ данных с помощью Spark SQL
Этот модуль объясняет, как анализировать данные с помощью Spark SQL.
Темы
·         Внедрение интерактивных запросов
·         Проведение исследовательского анализа данных
Лабораторная работа: Анализ данных с помощью Spark SQL
·         Внедрение интерактивных запросов
·         Проведение исследовательского анализа данных