Анализ Больших Данных с помощью Microsoft R
Цель курса: Предоставить слушателям знания и навыки, необходимые для создания и запуска сценариев анализа больших данных на сервере Microsoft R. Также в курсе описано как работать с Microsoft R в средах обработки больших данных как Hadoop, кластер Spark или база SQL Server.
Аудитория:
Этот курс предназначен для специалистов, анализирующих огромные наборы данных, а также разработчиков, использующих R в своих проектах.
По окончании курса слушатели смогут:
· Описать работу Microsoft R;
· Использовать клиента R и Server R для обработки больших данных из разных хранилищ
· Визуализировать данные с помощью графиков и схем
· Преобразовывать и зачищать наборы больших данных
· Использовать способы разделения аналитических задач на параллельные задачи
· Построить и оценить регрессионные модели, генерируемые на основе больших данных
· Создать, оценить и разворачивать партиционированных моделей на основе больших данных
· Использовать язык R в средах SQL Server и Hadoop
Сертификационные экзамены:
Сертификационные экзамены не предусмотрены.
Необходимая подготовка:
Для эффективного обучения на курсе, слушатели должны обладать следующими знаниями и навыками:
· Опыт программирования на R и знакомство с основными пакетами
· Знание общих статистических методов и рекомендованных методов анализа данных.
· Базовые знания операционной системы Windows и ее основных возможностей.
Материалы слушателя:
Слушателям предоставляется фирменное учебное пособие и прочие материалы, необходимые для обучения.
Регистрация на курс:
1. По электронной почте. Отправьте сообщение на адрес edu@unitgroup.ru, с указанием: названия предприятия, ФИО участников, их должностей, контактных телефонов и e-mail.
2. По телефону +7(343) 344-25-60 Учебный центр Юнит.
Содержание курса:
Модуль 1: Сервер и клиент Microsoft R (3 ак.часа)
Этот модуль рассказывает, как работают сервер и клиент Microsoft R.
Темы
· Обзор сервера Microsoft R
· Использование клиента Microsoft R
· Функции ScaleR
Лабораторная работа: Обзор сервера и клиента Microsoft R
· Использование клиента R в VSTR и RStudio
· Обзор функций ScaleR
· Подключение к удалённому серверу
Модуль 2: Обзор больших данных (3 ак.часа)
Этот модуль описывает, как предоставлять доступ клиентам к большим данным из разных хранилищ с помощью сервера Microsoft R.
Темы
· Источники данных ScaleR
· Чтение данных в XDF-объекте
· Обобщение данных в XDF-объекте
Лабораторная работа: Обзор больших данных
· Чтение локального CSV-файла и передача данных в XDF-файл
· Преобразование данных на входе
· Чтение данных из SQL Server и передача в XDF-файл
· Подведение итогов в XDF-файле
Модуль 3:Визуализация больших данных (3 ак.часа)
Этот модуль описывает, как визуализировать большие данные, используя диаграммы и графики.
Темы
· Визуализация данных в памяти
· Визуализации больших данных
Лабораторная работа: Визуализация данных
· Использование ggplot для создания многогранной диаграммы с наложением
· Использование rxlinePlot и rxHistogram
Модуль 4: Обработка больших данных (3 ак.часа)
Этот модуль описывает, как преобразовывать и вычищать наборы больших данных.
Темы
· Преобразование больших данных
· Управление наборами данных
Лабораторная работа: Обработка больших данных
· Преобразование больших данных
· Сортировка и слияние больших данных
· Подключение к удаленному серверу
Модуль 5: Распараллеливание операций анализа (3 ак.часа)
Этот модуль описывает, как разбивать задачу анализа набора данных на параллельно выполняемые подзадачи.
Темы
· Использование вычислительного контекста RxLocalParallel с функцией rxExec
· Использование пакета revoPemaR
Лабораторная работа: Использование rxExec и revoPemaR для распараллеливания операций
· Использование rxExec для оптимизации использования ресурсов
· Создание и применение класса PEMA
Модуль 6: Создание и оценка регрессионной модели (3 ак.часа)
Этот модуль объясняет, как создавать и оценивать регрессионные модели на базе больших данных.
Темы
· Кластеризации больших данных
· Создание регрессионных моделей и подготовка прогнозов
Лабораторная работа: Создание линейной регрессионной модели
· Создание кластера
· Создание регрессионной модели
· Генерация данных для составления прогнозов
· Использование модели для составления прогнозов и сравнение результатов
Модуль 7: Создание и оценка партиционированных моделей (Partitioning Model) (3 ак.часа)
В этом модуле описывается, как создавать и обсчитывать партиционированные модели.
Темы
· Создание партиционированных моделей на основе дерева решений.
· Тестирование прогнозов партиционированных моделей
Лабораторная работа: Создание и оценка партиционированных моделей
· Разбиение набора данных
· Построение моделей
· Подготовка прогноза и тестирование результатов
· Сравнение результатов
Модуль 8: Обработка больших данных в SQL Server и Hadoop (3 ак.часа)
Этот модуль описывает, как преобразовывать и зачищать наборы больших данных в SQL Server и Hadoop
Темы
· Использование R в SQL Server
· Использование Map/Reduce в Hadoop
· Использование Hadoop Spark
Лабораторная работа: Обработка больших данных в SQL Server и Hadoop
· Создание модели и прогнозирования результатов в SQL Server
· Анализ и вывод результата с помощью Map/Reduce в Hadoop
· Интеграция скрипта sparklyr в рабочий процесс
ScaleR