Трое петербуржцев стали призёрами чемпионата по искусственному интеллекту в Курской области

В Курской области подвели итоги четвертого регионального чемпионата конкурса "Цифровой прорыв. Сезон: искусственный интеллект" — одного из проектов президентской платформы "Россия — страна возможностей".

Антон Зубоченко из Санкт–Петербурга занял первое место, Андрей Валухов — второе место, а Ольга Позняк из Санкт–Петербурга вошла в топ–15 участников.
На чемпионат зарегистрировались 395 участников. Участники чемпионата решили задачу от Комитета цифрового развития и связи Курской области. Они разработали классификатор для автоматического определения категории запроса по тексту сообщения, оставленному на сайте Администрации Курской области. Применение алгоритма ускорит ответы на обращения жителей, так как существенно сократится время на предобработку и маршрутизацию обращений. Всего по итогам чемпионата было создано 1249 решений.
Со вступительным словом к присутствующим на церемонии объявления результатов обратился заместитель генерального директора АНО "Россия — страна возможностей" Антон Сериков: "Почти 400 участников откликнулись на решение поставленной задачи, большинство из них представляют Курскую область. Кроме курян это, конечно, Москва, Московская область, Санкт–Петербург и многие другие города, чьи специалисты, которые хотят попробовать свои силы или уже давно работают в сфере искусственного интеллекта, присоединились к решению задачи. Я хотел бы поблагодарить Правительство Курской области: тех людей, которые отвечают за цифровизацию в регионе и поставленный кейс. Надеюсь, что решения, а их было больше тысячи, смогут быть применены на практике. Приятно отметить, что аудитория наших чемпионатов разнообразна — по возрасту, по географии проживания. Интересно, что каждый пятый участник в Курской области — представитель прекрасного пола. Я хотел бы поблагодарить всех, кто принял участие в этом чемпионате. Уверен, скоро мы встретимся на других мероприятиях проекта и новых активностях от президентской платформы "Россия — страна возможностей" в ИТ–сфере. Я уверен, что мы вместе с командой конкурса "Цифровой прорыв" и ИТ–сообществом нашей платформы сможем вас удивить новыми направлениями, задачами и форматами. Победителей мы ждем в программе "Больше, чем путешествие". В России еще много мест, которые вы можете посетить и открыть для себя их красоту и уникальность. Помните, Россия — это страна возможностей!"
По итогам чемпионата 15 сильнейших участников получили ценный приз — туристическую поездку в один из регионов России в рамках программы «Больше, чем путешествие» президентской платформы "Россия — страна возможностей".
Первое место занял Антон Зубоченко из Санкт-Петербурга.
Для решения задачи был использован комбинированный подход между классическим машинным обучением и deep learning. Особенности решения: количество текстов в обучающей выборке увеличено путем нарезки обращений на 256 символов, затем была сформирована общая матрица–словарь весов tf idf для всего набора данных на основе биграм. Данные в обучающей выборке кластеризовались по тематике и т. к. использовать лики запрещено, данная колонка прогнозировалась на тестовую выборку с точностью 0.991. Текст и предсказанная тематика — объединены. Bert файнтюнинг на классификацию категории по тексту.
Технические особенности: sklearn, gensim, nltk, pytorch, bert, tf idf, clustering.
Решение полностью создано на основании большого количества тестов и подробного анализа данных. Обученная модель bert уникальна для данных, на которых обучалась, и в таком виде существует только для представленного набора данных.
Второе место занял Андрей Валухов из Санкт–Петербурга.
Для решения задачи классификации обращений граждан был использован комбинированный подход. На первом шаге производилась очистка текста от латинских символов, пунктуации и остальных небуквенных символов, приведение к нижнему регистру. На втором шаге были выделены редкие категории из обучающей выборки: для них предсказание класса осуществлялось по наличию во фразе ключевого слова. Была выделена валидационная часть выборки (10% от обучающей). Обучающая выборка (90%) была увеличена методом апсэмплинга оставшихся редких категорий. Был протестирован предобученный bert–энкодер cointegrated/rubert–tiny2. Затем он был дообучен на upsampled–части обучающей выборки — качество увеличилось. Финальное предсказание было получено смешиванием вероятностей дообученного bert–энкодера, логистической регрессии, k ближайших соседей, метода опорных векторов.
Технические особенности: Python, sklearn, simple_transformers, transformers.
Применение векторизации эмбеддингов и логистической регрессии является стандартным приемом. Уникальность в том, что были смешаны предсказания 4 моделей.
Шестое место заняла Ольга Позняк из Санкт–Петербурга.
Для решения задачи классификации текстов сообщений была проведена предварительная обработка текстов, в результате чего был создан новый столбец с извлеченными словами текста, приведенными к изначальной словарной форме. Было решено протестировать 4 модели: мультиномиальный наивный байесовский классификатор, логистическую регрессию, метод k–ближайших соседей, стохастический градиентный спуск, найдя для них лучшие параметры. Также для автоматизации предварительных преобразований данных перед обучением модели использовался класс Pipeline, чтобы упростить работу преобразования текста в векторные представления. Лучший результат показала логистическая регрессия.
Технические особенности: язык — Python, модели были взяты из Sklearn, работа с текстом выполнялась с помощью регулярного выражения, pymorphy2, NLTK, CountVectorizer, TfidfTransformer.
Основные цели проекта "Цифровой прорыв. Сезон: искусственный интеллект": создание системы отбора кадров для решения задач, поиск, развитие и поддержка талантливых, перспективных специалистов, желающих создавать продукты и сервисы с использованием технологий искусственного интеллекта, повышение уровня обеспечения российского рынка технологий ИИ квалифицированными кадрами, а также формирование и развитие ИИ-сообщества, популяризация, разработка и развитие продуктов с использованием искусственного интеллекта.
На 2022 год запланировано проведение 25 региональных чемпионатов — индивидуальных онлайн–соревнований ИТ–специалистов. Каждый чемпионат будет идти не менее 25 дней, всего за этот год в чемпионатах примут участие не менее 2 500 человек. Также в разных регионах России пройдут 8 окружных хакатонов — это гибридные соревнования регионов внутри федерального округа с единой турнирной таблицей. На каждый такой хакатон будут поставлены от 3 до 5 кейсовых задач.
Всего в рамках проекта в период с 2021 по 2024 гг. запланировано проведение 116 хакатонов по искусственному интеллекту. В 2022 году планируется провести 36 мероприятий (хакатонов и чемпионатов) по ИИ и 25 образовательных мероприятий.
Организатор конкурса — Министерство экономического развития Российской Федерации. Оператором конкурса выступает АНО "Россия — страна возможностей", организационный партнер — Ассоциация электронных коммуникаций (РАЭК), технологический партнер — компания VK, цифровой партнер — ПАО "Ростелеком".
Генеральными информационными партнерами конкурса выступают: холдинг "РГ—Медиа", мультимедийный холдинг РБК, информационно–аналитическое агентство "Телеком–Дэйли", оператор наружной рекламы Gallery, телеканал 360, группа компаний ComNews, "Телеспутник", ICT.Moscow, "Деловой Петербург". Информационные партнеры: информационное агентство "ФедералПресс", телеканал "МИР 24", "Вести Подмосковья", МЕЛ и другие.