Петербург стал лидером: тридцать два участника из региона стали призёрами окружного хакатона

17:0702 сентября 202217:07

701просмотров

17:0702 сентября 2022

Пресс-служба РАЭК

В Санкт–Петербурге подведены итоги пятого окружного хакатона конкурса "Цифровой прорыв. Сезон: искусственный интеллект" — одного из проектов президентской платформы "Россия — страна возможностей", который проходил на площадке "Ленполиграфмаш".

Команда ITMEM из Санкт–Петербурга стала победителем в кейсе VK, а Юрий Баландин и Анастасия Алимова из Санкт–Петербурга в составе команды "Московские Зайцы", Алсу Курмакаева и Евгений Федотовских из Санкт–Петербурга в составе команды hack into your soul стали призерами в этом же кейсе. Владимир Дубровин, Илья Василенко, Михаил Пуртов и Александр Карпов из Санкт–Петербурга в составе команды MAGNUM OPUS стали победителями в кейсе Министерства науки и высшего образования Российской Федерации, а команда Bumblebee из Санкт–Петербурга стала призером в этом же кейсе. Екатерина Назаренко из Санкт–Петербурга в составе команды SFTB и команда ADAM из Санкт–Петербурга стали призерами в кейсе ПАО "Ростелеком". Даниил Максимов, Анна Никифорова и Диана Бармина из Санкт–Петербурга в составе команды "мы пытались в ML, а получилось, что получилось" стали победителями в кейсе Центрального банка Российской Федерации, а команда FEDOT TEAM и Павел Алексеев и Сергей Миллер из Санкт–Петербурга в составе команды Profit стали призерами в этом же кейсе.

До финальных защит дошли 56 команд. Участники разработали решения в четырёх кейсах. По итогам хакатона двенадцать команд-победителей разделят между собой призовой фонд в 2 400 000 рублей.

"Хочу поздравить победителей и кейсодержателей за лучшие кейсы лучших питерских разработчиков. Я также понимаю, насколько важно сейчас попытаться поработать с датасетами, чтобы создать реальные кейсы, которые в последствии или уже сейчас могут приносить пользу. Это помогает развиваться молодым специалистам и создавать в будущем ещё более интересные решения. Мы в Санкт–Петербурге тоже движемся в этом направлении и начинаем работать в кроссдоменной аналитикой. Конечно, удивляюсь, как быстро вы собрали такую большую команду. Хочу пожелать максимально быстро реализовать все наработки, чтобы ребята увидели, что это реально работает", — отметил Михаил Кораблев, начальник Управления развития перспективных проектов СПб ГУП "Санкт–Петербургский информационно–аналитический центр".

К участникам торжественной церемонии закрытия обратилась руководитель проекта "Искусственный интеллект" АНО "Россия ― страна возможностей" Светлана Терехова: "Эти три дня в Северной столице пролетели как один миг, особенно для участников хакатона ― мы видели, какая напряженная работа шла на площадке, не менее жаркая она была, я полагаю, и в онлайне. По результатам хакатона было разработано 56 решений по 4 кейсам. Участники построили модель прогнозирования макроэкономических и финансовых данных, составили алгоритм предсказания поведения пользователей в социальной сети, разработали систему классификации и проверки текстов нормативно правовых актов, а также обогатили датасет для упрощенной работы с данными о покупках клиентов. Уверена, кейсодержатели продолжат взаимодействие с командами, а лучшие решения будут внедрены. Я хочу сказать большое спасибо всем, кто пришел на этот хакатон и всем, кто дошел до конца. Особая благодарность всем кейсодержателям и Администрации г. Санкт–Петербурга за содействие в проведении хакатона, и, конечно, площадке Технопарка "Ленполиграфмаш", на которой проходило соревнование. Думаю, на этом хакатоне все мы зарядились технологичностью, инновационностью и спортивным азартом от кейсовых задач, площадки и, конечно, наших замечательных участников!"

"На площадке в эти дни собрались самые разные люди, кто–то пришел даже семьями: в команде "ИИнтеграция" кодили два брата, а один из участников, Дмитрий Грибанов из команды "ДронБ", даже решил приобщить к культуре хакатонов свою дочь — она провела все три дня здесь. Кстати, сам Дмитрий участвовал в разработке приложения для социального такси в Санкт–Петербурге. Кроме того, на площадке собрались люди самых разных возрастов. Самому младшему участнику, Ивану Вяхиреву из команды FSD 15 лет", — отметил руководитель хакатонов проекта "Цифровой прорыв. Сезон: искусственный интеллект" Дмитрий Захарченко.

Команда ITMEM из Санкт–Петербурга (Денис Жимоедов, Асад Рахмани, Илья Пономаренко, Алексей Мясников, Кирилл Санников) заняла первое место в кейсе VK. Решение поможет сформировать спектр услуг под приоритеты и потребности отдельного пользователя VK.

Для решения поставленной задачи некоторые термины заменялись на неточные, но более знакомые большинству людей. C помощью таких технологий, как numpy, pandas, word2vec, sklearn, scipy, navac участники команды конвертировали столбцы "tokens" и "urls_hashed" из текстового в более удобный для компьютера числовой формат. При этом были сохранены их значения (смысл). После чего с данными стало легче работать и добавлять новые признаки в датасет. Дальше была выбрана модель и обучена на данных.

Уникальность: использование библиотек машинного обучения, созданных для работы с русским языком.

Юрий Баландин и Анастасия Алимова из Санкт–Петербурга в составе команды "Московские Зайцы" заняли второе место в кейсе VK.

Решение команды представляет собой полноценную исследовательскую работу на тему возможных алгоритмов для предсказания факта совершения целевого действия по неоднородным данным кликстрима. Решение состоит из нескольких блоков:

1) Инжиниринг фичей. В данном блоке преобразовывались данные в векторы для обучения различными методами, начиная от эвристик, заканчивая SVD и эмбеддингами моделей–трансформеров.

2) Обучение предсказательных моделей. Здесь создавались как NLP–модели BERT, так и обучение градиентного бустинга на полученных во время инжиниринга фичах.

3) Инференс моделей для получения результата на тестовых данных.

Уникальность: так как задача является крайне индустриальной и open-source решений не найти, то любые нестандартные методы вносят уникальность в решение поставленной задачи.

Стек технологий: CatBoost, Transformers (BERT, LaBSE), SVD, Feature Engineering.

Алсу Курмакаева и Евгений Федотовских из Санкт–Петербурга в составе команды hack into your soul заняли третье место в кейсе VK.

В рамках решения команда сделала фильтрацию данных, построив матрицу TF–IDF, выяснив, какие слова важны для данного контекста. Также участники оставили для пользователя его уникальный набор ключевых для него слов и проверили, какие слова встречаются часто для пользователей с таргетом 1. Таким образом, команда смогла выдвинуть несколько гипотез об интересах пользователей данной категории и предположить тематику целевого действия. В качестве признаков добавили эмбеддинги, полученные с помощью Word2vec из отсеянных токенов пользователей и из отсеянных хэшей. При этом хэши взяли из файла с последовательностями сессий, поэтому лучше учли контекст закодированных urlов и их связь друг с другом. В качестве модели для предсказания попробовали несколько моделей, из которых лучше всего себя показали LogReg и CatBoost. Для разнообразия фичей сгенерировали тематические признаки для каждого пользователя с помощью LDA и BigARTM.

Уникальность: команда учла семантический контекст не только токенов, но и временную последовательность хэшей.

Стек технологий: TF–IDF и матрицы корреляции для статистических показателей, Word2vec для создания эмбеддингов, тематический анализ ― LDA и BigARTM, LogisticRegression, CatBoost для предсказания, аналитика и визуализация ― seaborn и matplotlib.

Владимир Дубровин, Илья Василенко, Михаил Пуртов и Александр Карпов из Санкт–Петербурга в составе команды MAGNUM OPUS заняли первое место в кейсе Министерства науки и высшего образования Российской Федерации по разработке системы корректировки проектов НПА.

Команда представила сервис для проверки нормативных правовых актов (НПА). Сервис оценивает содержание НПА, выделяет абзацы, которые соответствуют структуре НПА, обозначенной Постановлением Правительства №1492. Пользователь получает информацию по каждому из 39 пунктов, если имеются замечания, система предложит ему варианты реализации этого блока в уже утверждённых НПА. Также пользователь видит оценку принадлежности куска текста к какому–либо структурному блоку документа. Пользователь может скачать документ в формате docx, где будут пометки. Есть возможность просмотра предыдущих файлов. Одна из возможностей ― загрузка множества файлов, что позволяет проверять юристам файлы сразу пачками. Сервис прост в освоении и имеет гайд по использованию. Помимо основной веб-версии предусмотрен также плагин для программы MS Word, который позволяет находить ошибки в документе прямо в программе.

Уникальностью решения является не только поразительная точность, но и удобство и разносторонность сервиса за счёт наличия выгрузки документа с пометками и дополнительного расширения MS Word.

Стек технологий: Frontend ― Next js, Plugin Word ― React js, Backend ― Django, ML ― PyTorch.

Команда Bumblebee из Санкт–Петербурга (Евгений Пахалюк, Максим Трофимов, Данила Козырьков, Данил Казанцев, Максим Семёнов) заняла второе место в кейсе Министерства науки и высшего образования Российской Федерации.

Для решения классификации использовались хороший кастомный аугментатор (удалось избежать дисбаланса классов), жесткий препроцессинг (только кириллица, лемматизация, нижний регистр), TF–IDF и RandomForest в качестве бейзлайн решения, предобученный Bert и декодер–перцептрон в качестве основного решения (оптимайзер Adam, лосс CrossEntropy). Также реализована рекомендательная система для оценки валидности документа по набору классов абзацев и рекомендации недостающего абзаца, если такой есть.

Технические особенности: Pytorch, sklearn, fast API, js, react, annoy, navec, transformers, docker.

Уникальность: создана рекомендательная система для поиска пропущенных абзацев, участники команды проверили много нетривиальных гипотез.

Екатерина Назаренко из Санкт–Петербурга в составе команды SFTB заняла второе место в кейсе ПАО "Ростелеком". Решение поможет упростить трудоёмкий процесс сбора и проверки данных и сделает возможным прогнозирование покупок клиентами ПАО "Ростелеком" на основании внутренних и внешних данных.

Команда реализовала пайплайн, позволяющий спрогнозировать потенциальных клиентов, основываясь на метаинформации о них. В ходе предобработки исходных данных осуществлена обработка пропущенных значений, основанная на статистических распределениях и очистка данных от дубликатов. В исходный датасет добавлены агрегированные статистики по субъектам РФ. Также он обогащён дополнительными значениями из внешних источников: экономические и демографические показатели по субъектам РФ; статистика использования населением инфокоммуникационных технологий; информация о характеристиках доступных в регионе тарифов "Ростелеком"; данные о курсах валют, фондовых рынках и ситуации с COVID–19.

На обработанных данных были обучены следующие модели машинного обучения: LightAutoML, CatBoost, LightGBM.

Итоговый алгоритм представляет собой их совокупность. Разработанный пайплайн является быстрым и удобным инструментом для выделения клиентов, которым необходимо предложить услугу.

Уникальность: разработанный пайплайн является уникальным решением на рынке за счёт использования для обучения обогащённого набора данных, разработанного алгоритма предобработки исходных данных, а также имплементированного механизма блендинга полученных моделей.

Стек технологий: Python3, git, Github, CatBoost, Plotly, Seaborn, SciPy.

Команда ADAM из Санкт–Петербурга (Андрей Шалашов, Данил Исламов, Артемий Горя, Михаил Мартьянов, Кирилл Ергин) заняла третье место в кейсе ПАО "Ростелеком".

В самом начале участниками команды была сделана baseline–модель, результаты и метрики которой стали ориентиром, порогом, который обязательно нужно "побить", что и было сделано. Для этого использовалось несколько методов, чтобы одолеть одно из самых больших преткновений, что есть в этом датасете, для его анализа, а именно — большой дисбаланс классов. Один из них oversampling, например.

Также реализуется другая модель, в которой используется иная технология. Это требуется, чтобы сделать ансамбль, который покроет большее число случаев и будет иметь большую предсказательную силы, чем каждый алгоритм по отдельности.

Уникальность: используется CatBoostClassifier в синергии с другими фреймворками (например Решающий лес). Таким образом, затрагивается большее число случаев. Так как комбинаций может быть довольно много по соображениям, исходящим из дискретной математики, то можно смело утверждать что решение уникально.

Стек технологий: CatBoost, AutoML, DecisionTreeClassifier, эвристики.

Даниил Максимов, Анна Никифорова и Диана Бармина из Санкт–Петербурга в составе команды «мы пытались в ML, а получилось, что получилось» заняли первое место в кейсе Центрального банка Российской Федерации. Разработанная участниками модель поможет решить вопрос совершенствования методов макроэкономического и макрофинансового прогнозирования.

Решение представляет собой композицию нескольких наиболее удачных алгоритмов для работы с временными рядами во главе с мета-алгоритмом. Для начала из Train–датасета с помощью библиотеки Kats были выделены мета–признаки. Для каждого временного ряда алгоритм прогнал сразу 6 моделей: Prophet, SARIMA, ARIMA, stlf, HoltWinters, Theta. Затем для каждого набора мета–признаков была выбрана лучшая модель. Далее мета–алгоритм решил задачу классификации и научился для каждого набора выбирать наиболее удачный алгоритм.

Модель при получении временного ряда отдаёт его на обработку мета–модели. Анализируя мета–данные, она выбирает, какой из алгоритмов, перечисленных ранее, может решить данную задачу прогнозирования лучше. Затем в режиме онлайн идёт обучение модели на предложенном тестовом ряде, её улучшение, и в итоге выводятся предсказания.

Технические особенности решения продиктованы неоднозначностью связей между данными в таблицах Train и Test. Модель рассматривает каждый из временных рядов в тестовых данных независимо друг от друга.

Уникальность: участники пробовали много разных технических подходов: тюнили МЕТА–алгоритмы с помощью классических ML–подходов и параметры эксп. сглаживания с помощью ньютоновских методов оптимизации, использовали не менее 6 алгоритмов, близких к эконометрическим, для предсказания временных рядов, рассуждали о данных в контексте кластеризации для создания связей между train и test выборками, думали над гипотезой горизонтального рассмотрения рядов, что в совокупности помогло подобрать оптимальное решение.

Стек решения: Google Colaboratory, numpy, pandas, matplotlib, kats, sklearn, stats, seaborn, Facebook Prophet.

Команда FEDOT TEAM из Санкт–Петербурга (Андрей Гетманов, Майя Пинчук, Валерий Покровский) заняла второе место в кейсе Центрального банка Российской Федерации.

В качестве изначальных данных использованы только данные показателей, предоставленные организаторами. Данные отражают значения различных макроэкономических показателей за 2001–2015 год. На основе этих данных создано отображение "временной ряд –> параметры пайплайна". В качестве начального приближения для каждого ряда в целях экономии времени использована модель авторегрессии с L2 регуляризацией.

На основе этих данных построена двухуровневая мета–модель, учитывающая структуру временных рядов (вычисление характеристик по скользящему окну). Для каждого временного ряда выбирается самый близкий по структуре временной ряд из тестовых данных и выбираются гиперпараметры, которые оказались лучшими для похожего ряда из обучающей выборки. В случаях условного предсказания используется модель с добавлением в нее экзогенных переменных.

В качестве проверки финального решения алгоритм будет запущен на тестовых данных, представленных организаторами.

Уникальность: использование двухуровневой мета–модели. Автоматическая настройка параметров с помощью фреймворка FEDOT. Возможность масштабирования решения до подбора оптимальной композитной модели.

Стек технологий: AutoML фреймворк FEDOT, язык программирования python 3.8.

Павел Алексеев и Сергей Миллер из Санкт–Петербурга в составе команды Profit заняли третье место в кейсе Центрального банка Российской Федерации.

Система позволяет предсказывать поведение экономической переменной на основе исторических данных. Реализован веб-сервис, который принимает на вход произвольный числовой ряд по месяцам или кварталам, а также время для предсказания. В ответ выдаётся прогноз. Реализована двухуровневая модель для предсказаний.

Технические особенности: pandas, numpy, scikit-learn, torch, streamlit, ya.cloud, двухуровневый ансамбль.

Уникальность решения состоит в использовании двухуровневого ансамбля: сначала временной ряд отображается в латентное пространство автоэнкодера, и далее в этом пространстве ищутся наиболее похожие ряды на исторических данных. В качестве предсказания выдаётся усреднённое продолжение ближайших соседей.

Хакатон проекта "Цифровой прорыв. Сезон: искусственный интеллект" в Северо–Западном федеральном округе проводится при широкой поддержке Технопарка "Ленполиграфмаш" и Администрации г. Санкт–Петербурга.

Организатор конкурса — Министерство экономического развития Российской Федерации. Оператором конкурса выступает АНО "Россия — страна возможностей", организационный партнер — Ассоциация электронных коммуникаций (РАЭК), технологический партнер — компания VK, цифровой партнер — ПАО "Ростелеком", партнеры: VK Cloud Solutions, ОАО "РЖД" и ПАО "Промсвязьбанк".

Основные цели проекта "Цифровой прорыв. Сезон: искусственный интеллект": создание системы отбора кадров для решения задач, поиск, развитие и поддержка талантливых, перспективных специалистов, желающих создавать продукты и сервисы с использованием технологий искусственного интеллекта, повышение уровня обеспечения российского рынка технологий ИИ квалифицированными кадрами, а также формирование и развитие ИИ–сообщества, популяризация, разработка и развитие продуктов с использованием искусственного интеллекта.

На 2022 год запланировано проведение в разных регионах России 8 окружных хакатонов — это гибридные соревнования регионов с единой турнирной таблицей. На каждый такой хакатон будут поставлены от 3 до 5 кейсовых задач.

Также пройдут 25 региональных чемпионатов — индивидуальных онлайн–соревнований ИТ–специалистов. Каждый чемпионат будет идти не менее 25 дней, всего за этот год в чемпионатах примут участие не менее 2500 человек.

Официальный сайт проекта: hacks–ai.ru

Трансляция церемонии закрытия хакатона проекта "Цифровой прорыв. Сезон: искусственный интеллект" в Северо–Западном федеральном округе по ссылке: https://vk.cc/cg7ny1

Информационная справка:

Автономная некоммерческая организация (АНО) "Россия — страна возможностей" была создана по инициативе Президента РФ Владимира Путина. Ключевые цели организации: создание условий для повышения социальной мобильности, обеспечения личностной и профессиональной самореализации граждан, а также создание эффективных социальных лифтов в России. Наблюдательный совет АНО "Россия — страна возможностей" возглавляет Президент РФ Владимир Путин.

За 4 года работы платформы участниками её проектов стали более 15 миллионов человек из всех регионов России и 150 стран мира, а партнерами — более 1500 компаний, вузов, государственных и общественных организаций.

АНО "Россия — страна возможностей" развивает одноименную платформу, объединяющую 26 проектов: конкурс управленцев "Лидеры России", клуб Лидеров России "Эльбрус", всероссийская олимпиада студентов "Я — профессионал", всероссийский студенческий конкурс "Твой Ход", всероссийский конкурс "Большая перемена", всероссийский проект "Время карьеры", проект "ТопБЛОГ", проект "Культурный код", фестиваль "Российская студенческая весна", всероссийский конкурс "Мастера гостеприимства", "Цифровой прорыв. Сезон: искусственный интеллект", всероссийский профессиональный конкурс "Флагманы образования", всероссийский конкурс "Лучший социальный проект года", чемпионаты по профессиональному мастерству среди инвалидов и лиц с ограниченными возможностями здоровья "Абилимпикс", конкурс "Экософия", Российская национальная премия "Студент года", движение Ворлдскиллс Россия, благотворительный проект "Мечтай со мной", конкурс "Моя страна — моя Россия", международный инженерный чемпионат "CASE–IN", "Национальная технологическая олимпиада", платформа "Другое дело", Международный строительный чемпионат, проект "Начни игру", программа поощрительных поездок "Больше, чем путешествие", в т. ч. проект "Больше, чем работа", а также конкурс "Пишем будущее" для школьников и студентов ДНР и ЛНР.

В рамках деятельности АНО "Россия — страна возможностей" в феврале 2019 года создан образовательный центр — Мастерская управления "Сенеж". Обучение в нем проходят участники проектов и конкурсов платформы, активная молодежь, а также управленцы и государственные служащие. Мастерская выступает площадкой для проведения различных образовательных и молодежных форумов, в том числе форума "Территория смыслов".

В рамках АНО "Россия — страна возможностей" в августе 2020 года создан департамент оценки и методологии. Его задачами являются разработка и внедрение собственных инструментов оценки управленческих и деловых компетенций во все конкурсы и проекты платформы "Россия — страна возможностей" и партнеров, создание и поддержка центров компетенций в университетах, проведение оценки, организация обучения и подготовки кадров для деятельности центров компетенций. В вузах в 25 регионах страны создано более 50 центров оценки и развития надпрофессиональных компетенций студентов.

Российская ассоциация электронных коммуникаций (РАЭК) была создана в 2006 году и на сегодняшний день объединяет более 100 игроков рынка электронных коммуникаций. В задачи РАЭК входит экспертиза, стандартизация и развитие интернет–технологий, взаимодействие с государственными органами управления, формирование отраслевых позиций, отстаивание интересов интернет–бизнеса, поддержка проектов в отраслевом образовании и науке, развитие профессиональных компетенций специалистов в сфере интернет–технологий и многое другое.