Анализ Больших Данных с помощью Microsoft R

В данный момент идет прием заявок на курс.
Мы можем сообщить вам о начале
запланированного обучения


Код: 20773
Длительность: 24 ак.ч.
Стоимость: 21 000 р.

Цель курса: Предоставить слушателям знания и навыки, необходимые для создания и запуска сценариев анализа больших данных на сервере Microsoft R. Также в курсе описано как работать с Microsoft R в средах обработки больших данных как Hadoop, кластер Spark или база SQL Server. 

Аудитория:
Этот курс предназначен для специалистов, анализирующих огромные наборы данных, а также разработчиков, использующих R в своих проектах.

По окончании курса слушатели смогут:
·         Описать работу Microsoft R;
·         Использовать клиента R и Server R для обработки больших данных из разных хранилищ
·         Визуализировать данные с помощью графиков и схем
·         Преобразовывать и зачищать наборы больших данных
·         Использовать способы разделения аналитических задач на параллельные задачи
·         Построить и оценить регрессионные модели, генерируемые на основе больших данных
·         Создать, оценить и разворачивать партиционированных моделей на основе больших данных
·         Использовать язык R в средах SQL Server и Hadoop

Сертификационные экзамены:
Сертификационные экзамены не предусмотрены.

Необходимая подготовка:
Для эффективного обучения на курсе, слушатели должны обладать следующими знаниями и навыками:
·         Опыт программирования на R и знакомство с основными пакетами
·         Знание общих статистических методов и рекомендованных методов анализа данных.
·         Базовые знания операционной системы Windows и ее основных возможностей.

Материалы слушателя:
Слушателям предоставляется фирменное учебное пособие и прочие материалы, необходимые для обучения.

Регистрация на курс:
1.   По электронной почте. Отправьте сообщение на адрес edu@unitgroup.ru, с указанием: названия предприятия, ФИО участников, их должностей, контактных телефонов и e-mail.
2.   По телефону +7(343) 344-25-60 Учебный центр Юнит.

Содержание курса:
Модуль 1: Сервер и клиент Microsoft R
Этот модуль рассказывает, как работают сервер и клиент Microsoft R.
Темы
·         Обзор сервера Microsoft R
·         Использование клиента Microsoft R
·         Функции ScaleR
Лабораторная работа: Обзор сервера и клиента Microsoft R
·         Использование клиента R в VSTR и RStudio
·         Обзор функций ScaleR
·         Подключение к удалённому серверу

Модуль 2: Обзор больших данных
Этот модуль описывает, как предоставлять доступ клиентам к большим данным из разных хранилищ с помощью сервера Microsoft R.
Темы
·         Источники данных ScaleR
·         Чтение данных в XDF-объекте
·         Обобщение данных в XDF-объекте
Лабораторная работа: Обзор больших данных
·         Чтение локального CSV-файла и передача данных в XDF-файл
·         Преобразование данных на входе
·         Чтение данных из SQL Server и передача в XDF-файл
·         Подведение итогов в XDF-файле

Модуль 3:Визуализация больших данных
Этот модуль описывает, как визуализировать большие данные, используя диаграммы и графики.
Темы
·         Визуализация данных в памяти
·         Визуализации больших данных
Лабораторная работа: Визуализация данных
·         Использование ggplot для создания многогранной диаграммы с наложением
·         Использование rxlinePlot и rxHistogram
  
Модуль 4: Обработка больших данных
Этот модуль описывает, как преобразовывать и вычищать наборы больших данных.
Темы
·         Преобразование больших данных
·         Управление наборами данных
Лабораторная работа: Обработка больших данных
·         Преобразование больших данных
·         Сортировка и слияние больших данных
·         Подключение к удаленному серверу
  
Модуль 5: Распараллеливание операций анализа
Этот модуль описывает, как разбивать задачу анализа набора данных на параллельно выполняемые подзадачи.
Темы
·         Использование вычислительного контекста RxLocalParallel с функцией rxExec
·         Использование пакета revoPemaR
Лабораторная работа: Использование rxExec и revoPemaR для распараллеливания операций
·         Использование rxExec для оптимизации использования ресурсов
·         Создание и применение класса PEMA

Модуль 6: Создание и оценка регрессионной модели
Этот модуль объясняет, как создавать и оценивать регрессионные модели на базе больших данных.
Темы
·         Кластеризации больших данных
·         Создание регрессионных моделей и подготовка прогнозов
Лабораторная работа: Создание линейной регрессионной модели
·         Создание кластера
·         Создание регрессионной модели
·         Генерация данных для составления прогнозов
·         Использование модели для составления прогнозов и сравнение результатов

Модуль 7: Создание и оценка партиционированных моделей (Partitioning Model)
В этом модуле описывается, как создавать и обсчитывать партиционированные модели.
Темы
·         Создание партиционированных моделей на основе дерева решений.
·         Тестирование прогнозов партиционированных моделей
Лабораторная работа: Создание и оценка партиционированных моделей
·         Разбиение набора данных
·         Построение моделей
·         Подготовка прогноза и тестирование результатов
·         Сравнение результатов

Модуль 8: Обработка больших данных в SQL Server и Hadoop
Этот модуль описывает, как преобразовывать и зачищать наборы больших данных в SQL Server и Hadoop
Темы
·         Использование R в SQL Server
·         Использование Map/Reduce в Hadoop
·         Использование Hadoop Spark
Лабораторная работа: Обработка больших данных в SQL Server и Hadoop
·         Создание модели и прогнозирования результатов в SQL Server
·         Анализ и вывод результата с помощью Map/Reduce в Hadoop
·         Интеграция скрипта sparklyr в рабочий процесс ScaleR