Анна Торговцева Все статьи автора
12 марта 2021, 07:52 448

Гонка перевоплощений: петербургская компания научит нейросети рисовать

Превращать слова в изображения роботы пока не научились.
Превращать слова в изображения роботы пока не научились.
Фото: Vostock-photo

Компания Statanly Technologies разрабатывает нейросеть, генерирующую изображение по текстовому описанию. Над похожей системой работает Илон Маск.

Технология text–to–image предполагает, что искусственному интеллекту выдаётся набор слов (например: море, песок, белый лайнер, закат), а он генерирует соответствующий пейзаж. Полноценное решение такой задачи может занять и год, и два, и десять, рассказал генеральный директор Statanly Technologies Сергей Фёдоров.

Нейросети готовы заменить пилотов, но писателями им пока не стать

Нейросети готовы заменить пилотов, но писателями им пока не стать

184
Георгий Богданов

Однако некоторые наработки уже есть. Петербургские учредители компании основали в США стартап Deflamel.

"Мы разбираем текст по тегам — ключевым словам. Делаем запрос, накладываем картинки друг на друга — получается оригинальное изображение. Своего рода коллаж, у которого не будет проблем с авторским правом", — говорит Сергей Фёдоров. Другой проект — Witsart — пока только осуществляет поиск подходящего изображения к тексту.

Стоимость создания инновации оценивается примерно в десятки миллионов рублей.

"В США, например, те же разработки могут вестись уже за десятки миллионов долларов — там кадры дороже (но при этом не лучше)", — подчёркивает Фёдоров. Пока проект финансируется целиком за счёт собственных средств компании.

"Для генерации произвольных изображений из произвольного текста высока вероятность столкнуться, во–первых, с очень наукоёмкими проблемами, которые потребуют привлечения дорогих разработчиков, математиков, а возможно, даже лучших мировых учёных в этой области. А во–вторых, с необходимостью поиска, покупки или формирования больших наборов данных (датасетов). В таком случае бюджет проекта легко вырастает до десятков, а то и сотен миллионов долларов", — считает Алексей Каленчук, директор по акселерации по направлению технологий виртуальной и дополненной реальности фонда "Сколково".

Существующие технологии, в том числе Open AI от Илона Маска, уже умеют генерировать тривиальные объекты (стол, стул или окно). Однако пейзажи и сложные композиции нейросетям не даются.

"С точки зрения нейросетей и текст, и изображения описываются одинаково — векторами признаков. Большой интерес к генерации изображений по текстовому описанию возник благодаря проекту DALL·E в январе этого года. Новый алгоритм построен на основе архитектуры нейросетей Transformer, которая обычно используется для обработки текстов, но в данном случае была применена для работы с изображениями. DALL·E способен генерировать иллюстрации, реалистичные фотографии, несуществующие комбинации объектов и многое другое", — отмечает генеральный директор Sarafan Technology Андрей Корхов.

Выделите фрагмент с текстом ошибки и нажмите Ctrl+Enter
Новости партнеров
Реклама