Финальный проект специализации МФТИ и Яндекса "Машинное обучение и анализ данных"
Задача этого проекта — научиться предсказывать количество поездок в ближайшие часы в каждом районе Нью-Йорка. Для того, чтобы её решить, сырые данные необходимо агрегировать по часам и районам. Агрегированные данные будут представлять собой почасовые временные ряды с количествами поездок из каждого района. Похожие задачи возникают на практике, если вам необходимо спрогнозировать продажи большого количества товаров в большом количестве магазинов, объём снятия денег в сети банкоматов, посещаемость разных страниц сайта и т.д.
Помимо прогнозирования количества поездок из каждой активной геозоны Нью-Йорка необходимо представить интерактивное демо проекта с наглядным отображением результатов модели (прогноз на 1-6 часов).
Первые 6 недель посвящены исследованию и обработке данных, отображению информации на карте, построению моделей ARIMA, регрессионной модели и выбору финальной модели. В последней 7 неделей приводится демо с использованием интерактивных графиков.
- Неделя 1 -- знакомство с данными и аггрегация,
- Неделя 2 -- работа с геоданными,
- Неделя 3 -- прогнозирование рядов со сложной сезонностью, использование модели ARIMA,
- Неделя 4 -- прогнозирование большого количества рядов, кластеризация географических зон и ARIMA для каждой из них,
- Неделя 5 -- прогнозирование с помощью регрессии,
- Неделя 6 -- финальная модель (xgboost regressor),
- Неделя 7 -- демонстрация результатов проекта.
- Demo 1 -- gif-файл с демонстрацией работы ноутбука 7 недели
- Demo 2 -- gif-файл с демонстрацией работы ноутбука 7 недели