Студенты Вышки заняли первое место в международном конкурсе по анализу данных от Kaggle
Учащиеся второго курса магистерской программы «Прикладная статистика с методами сетевого анализа» Артем Волгин и Екатерина Мелианова обошли более ста команд-конкурентов из разных стран и заняли первое место в конкурсе DS4G: Environmental Insights Explorer, который проходил на платформе Kaggle.
Придумать методологию для расчета коэффициента интенсивности выбросов оксида азота на основе спутниковых данных — такая задача стояла перед участниками конкурса. Артем и Екатерина анализировали информацию об электростанциях, погоде и выбросах за последний год в Пуэрто-Рико.
«По сути мы должны были выяснить, насколько на острове экологично производство электроэнергии, и построить модель, по которой можно рассчитать интенсивность выбросов для других территорий, — объясняет Артем. — Задача была простой, но чтобы понять это, нам понадобилось несколько дней».
По словам ребят, до конкурса они знали об электросетях немного и никогда не работали с данными со спутников. «Кроме того, Пуэрто-Рико — сложная территория для подобных экспериментов. Электростанции на острове достаточно слабые, и эффект от них тяжело отделить от общего фона оксида азота, который, в основном, выделяется автомобилями», — рассказывает студент.
Состязание длилось около шести недель, в нем участвовали более ста команд из Индии, Испании, Франции и других стран. Для Артема и Екатерины это уже второе успешное выступление на Kaggle. В прошлом году они заняли второе место на другом конкурсе по анализу данных этой же сети. Теперь же ребята стали победителями и выиграли 10 тысяч долларов.
Kaggle — Data Science платформа корпорации Google. Сообщество объединяет около трех миллионов специалистов по обработке данных и машинному обучению со всего мира. Ресурс публикует обучающие материалы, устраивает опросы и онлайн-соревнования. На конкурсе DS4G: Environmental Insights Explorer участники решают разные прикладные задачи, а работы оцениваются экспертами исходя из спектра критериев: качество модели, информативность визуализации, полезность рекомендаций и т. д.
Для победы на конкурсе ребятам пригодился навык формулирования содержательных задач на языке статических методов, который они получили в Вышке.
Знание большого набора прикладных аналитических инструментов, которые мы изучили на нашей магистерской программе, позволило нам выбрать подходящую для данной задачи модель
Всем студентам, которые хотят участвовать в состязаниях по анализу данных, Артем советует развивать исследовательские навыки: умение формулировать вопросы, поиск подходящих методов их решения, обоснование важности работы, обработка и анализ данных, интерпретация полученных результатов.
«Особую роль играет умение рассказывать историю (storytelling) — ясно и лаконично излагать ход мысли с грамотным использованием визуализации. В основном, мы учимся этому при работе над исследовательскими проектами (курсовыми, диссертациями), поэтому важно уделять им особое внимание. Еще полезно владеть широким спектром прикладных методов анализа данных и быть готовым к их углубленному изучению в процессе работы», — делится опытом победитель.