
Бендж Эдвардс / Стабильная диффузия
Генерация изображений ИИ здесь имеет большое значение. Недавно выпущенная модель синтеза изображений с открытым исходным кодом под названием Стабильная диффузия позволяет любому, у кого есть ПК и приличный графический процессор, создавать практически любую визуальную реальность, которую они могут себе представить. Он может имитировать практически любой визуальный стиль, и если вы подадите ему описательную фразу, результаты появятся на вашем экране как по волшебству.
Некоторые художники в восторге на перспективу, другие не в восторге от этого, и общество в целом по-прежнему, кажется, в значительной степени не знает о быстро развивающейся технологической революции, происходящей через сообщества в Twitter, Discord и Github. Синтез изображений, возможно, имеет такие же важные последствия, как изобретение камеры или, возможно, создание самого визуального искусства. Даже наше чувство истории может быть на кону, в зависимости от того, как все вытряхнуть. В любом случае, Stable Diffusion возглавляет новую волну творческих инструментов глубокого обучения, которые способны произвести революцию в создании визуальных медиа.
Рост синтеза изображений с помощью глубокого обучения
Stable Diffusion — это детище Эмада Мостака, бывшего управляющего хедж-фонда из Лондона, целью которого является распространение новых приложений глубокого обучения через свою компанию Stability AI. Но корни современного синтеза изображений восходят к до 2014 г.и Stable Diffusion не были первой моделью синтеза изображений (ISM), которая произвела фурор в этом году.
В апреле 2022 года OpenAI объявила ДАЛЛ-Э 2, который шокировал социальные сети своей способностью превращать сцену, написанную словами (называемую «подсказкой»), в множество визуальных стилей, которые могут быть фантастическими, фотореалистичными или даже обыденными. Люди с привилегированным доступом к закрытому инструменту создавали космонавтов верхом на лошадях, плюшевых мишек, покупающих хлеб в Древнем Египте, новые скульптуры в стиле известных художников и многое другое.

OpenAI
Вскоре после DALL-E 2, Google а также Мета объявили о своих собственных моделях искусственного интеллекта, преобразующих текст в изображение. Середина путешествиядоступный как сервер Discord с марта 2022 года и открытый для публики через несколько месяцев, взимает плату за доступ и обеспечивает аналогичные эффекты, но с более живописным и иллюстративным качеством по умолчанию.
Тогда есть стабильная диффузия. 22 августа Стабильный ИИ вышел его модель генерации изображений с открытым исходным кодом, которая, возможно, соответствует DALL-E 2 по качеству. Он также запустил свой собственный коммерческий веб-сайт под названием ДримСтудио, который продает доступ к вычислительному времени для создания изображений с помощью Stable Diffusion. В отличие от DALL-E 2, его может использовать любой, а поскольку код Stable Diffusion является открытым, проекты могут создаваться на его основе с небольшими ограничениями.
Только за последнюю неделю десятки проектов, использующих Stable Diffusion в радикально новых направлениях, возник. И люди добились неожиданных результатов, используя технику под названием «img2img», которая “обновленный” искусство игры MS-DOS, преобразованная графика майнкрафта в реалистичные, превратил сцену из Аладдина в 3Dпереведено детские каракули в богатые иллюстрации и многое другое. Синтез изображений может предоставить возможность богатой визуализации идей для массовой аудитории, снизив входные барьеры, а также расширив возможности художников, использующих эту технологию, как это сделал Adobe Photoshop в 1990-х годах.

Вы можете запустить Stable Diffusion локально самостоятельно если вы последуете ряду несколько загадочных шагов. Последние две недели мы запускали его на ПК с Windows с графическим процессором Nvidia RTX 3060 12 ГБ. Он может генерировать изображения размером 512×512 примерно за 10 секунд. На 3090 Ti это время сокращается до четырех секунд на изображение. Интерфейсы также продолжают быстро развиваться, переходя от грубых интерфейсов командной строки и блокнотов Google Colab к более совершенным (но все же сложным) интерфейсным графическим интерфейсам, и вскоре появятся гораздо более совершенные интерфейсы. Так что, если вы не разбираетесь в технике, держитесь крепче: на подходе более простые решения. И если ничего не помогает, вы можете попробовать демо онлайн.