07:5212 марта 202107:52
675просмотров
07:5212 марта 2021
Компания Statanly Technologies разрабатывает нейросеть, генерирующую изображение по текстовому описанию. Над похожей системой работает Илон Маск.
Технология text–to–image предполагает, что искусственному интеллекту выдаётся набор слов (например: море, песок, белый лайнер, закат), а он генерирует соответствующий пейзаж. Полноценное решение такой задачи может занять и год, и два, и десять, рассказал генеральный директор Statanly Technologies Сергей Фёдоров.
Однако некоторые наработки уже есть. Петербургские учредители компании основали в США стартап Deflamel.
"Мы разбираем текст по тегам — ключевым словам. Делаем запрос, накладываем картинки друг на друга — получается оригинальное изображение. Своего рода коллаж, у которого не будет проблем с авторским правом", — говорит Сергей Фёдоров. Другой проект — Witsart — пока только осуществляет поиск подходящего изображения к тексту.
Стоимость создания инновации оценивается примерно в десятки миллионов рублей.
"В США, например, те же разработки могут вестись уже за десятки миллионов долларов — там кадры дороже (но при этом не лучше)", — подчёркивает Фёдоров. Пока проект финансируется целиком за счёт собственных средств компании.
"Для генерации произвольных изображений из произвольного текста высока вероятность столкнуться, во–первых, с очень наукоёмкими проблемами, которые потребуют привлечения дорогих разработчиков, математиков, а возможно, даже лучших мировых учёных в этой области. А во–вторых, с необходимостью поиска, покупки или формирования больших наборов данных (датасетов). В таком случае бюджет проекта легко вырастает до десятков, а то и сотен миллионов долларов", — считает Алексей Каленчук, директор по акселерации по направлению технологий виртуальной и дополненной реальности фонда "Сколково".
Существующие технологии, в том числе Open AI от Илона Маска, уже умеют генерировать тривиальные объекты (стол, стул или окно). Однако пейзажи и сложные композиции нейросетям не даются.
"С точки зрения нейросетей и текст, и изображения описываются одинаково — векторами признаков. Большой интерес к генерации изображений по текстовому описанию возник благодаря проекту DALL·E в январе этого года. Новый алгоритм построен на основе архитектуры нейросетей Transformer, которая обычно используется для обработки текстов, но в данном случае была применена для работы с изображениями. DALL·E способен генерировать иллюстрации, реалистичные фотографии, несуществующие комбинации объектов и многое другое", — отмечает генеральный директор Sarafan Technology Андрей Корхов.