Главная страница
qrcode

Программа курса о курсе Откуда берутся датасеты


Скачать 337.47 Kb.
НазваниеПрограмма курса о курсе Откуда берутся датасеты
АнкорMetody raboty s dannymi - Programma kursa.pdf
Дата11.08.2018
Размер337.47 Kb.
Формат файлаpdf
Имя файлаMetody_raboty_s_dannymi_-_Programma_kursa.pdf
оригинальный pdf просмотр
ТипПрограмма курса
#17133
Каталог

МЕТОДЫ РАБОТЫ С ДАННЫМИ
программа курса

О курсе
«Откуда берутся датасеты?»
Многие статьи, посвященные методам машинного обучения и обработке данных, начинаются со слов «возьмем датасет…». Однако в реальности далеко не всегда существует необходимый датасет, и тогда возникает задача сбора данных. Основная проблема, обсуждаемая на курсе: как собрать необходимые данные и подготовить их для обработки.
Целью курса является формирование базовых навыков получения данных из различных источников с использованием современных инструментов; создания и обеспечение доступа к хранилищам данных; создания систем мониторинга и автоматической предобработки данных; визуализации данных для предварительного анализа.
В курсе не затрагиваются вопросы обработки и анализа данных,
однако при желании методы анализа данных можно применить при реализации итогового проекта.
Длительность: 32-64 часа
Сложность: средняя
Желательные навыки: знание на базовом уровне R или python, SQL, понимание http, Ubuntu

Содержание курса
 Введение
 Получение данных из различных источников
 Обзор инструментов и технологий для сбора данных
 Локальные файлы
 Реляционные базы данных
 Web-страницы, социальные сети
 Web API
 Загрузка данных в БД
 Обзор решений для хранения данных
 Знакомство с Ubuntu, установка и настройка PostgreSQL
 Основы SQL
 Подключение к БД, загрузка, обновление и удаление данных
 Визуализация
 Обзор инструментов для визуализации данных
 Установка и настройка web-сервера
 Создание дэшборда и размещение на web-сервере
 Подключение дэшборда к БД
 Построение систем мониторинга
 Диаграммы потоков данных
 Создание системы мониторинга на основе изученных методов получения, хранения и визуализации данных
Работа над проектами
 Постановка задачи
 Реализация проекта
 Защита проектов

Формы занятий и контроля
Курс состоит из двух частей: изучение методов и технологий на тематических занятиях в аудитории + проектная часть.
Предлагается следующая схема проведения тематических занятий (типичная схема для курсов по IT):
1.
Ставится конкретная и вполне реальная задача по сбору данных, соответствующая теме занятия.
2.
Я начинаю решать эту задачу, учащиеся видят все мои действия на экране.
3.
Попутно идет обсуждение вариантов решения возникающих проблем, объясняется происходящее на экране, предлагается решить некоторые проблемы самостоятельно (погуглить или посмотреть в документации) и т.д.
4.
После того, как задача решена, на дом задается схожая задача, для решения которой придется дополнительно подумать.
5.
В начале следующего занятия обсуждаются решения домашнего задания, после чего начинается новая тема.
После изучения всех тем, учащимся предлагается разделиться на группы и выбрать темы проектов (из предложенных либо придумать что-то свое). На всех следующих занятиях я помогаю реализовать эти проекты.
На последнем занятии происходит защита проектов.
Примеры проектов:

Мониторинг лесных пожаров для оперативного координирования пожарных расчётов

Календарь мемов/трендов

Проксимити

Менеджмент домашнего бара

Мониторинг групп вк

Мониторинг купонов и акций

Проекты на данных игровых серверов (minecraft, ingress)

Проекты на открытых данных РФ

Проекты на данных, которые предоставлю лично я
(замаскированные базы от реальных поставщиков данных)

Материально-техническое обеспечение
 Проектор
 Доска
 Доступ к интернету
 Желательно сервер с доступом по ssh (Ubuntu 16.04, 2-4 ядра, 8-16 Гб оперативной памяти, 100-200 Гб HDD)
 У учащихся должны быть ноутбуки или компьютеры хотя бы по одному на двух человек с правами администратора и доступом в интернет
Платное ПО не требуется
 Литература не требуется

перейти в каталог файлов


связь с админом