Благодаря стабильной диффузии вы больше никогда не поверите тому, что видите в Интернете.


Три изображения, созданные с помощью Stable Diffusion
Увеличить / Знаете ли вы, что Авраам Линкольн был ковбоем? Стабильная диффузия.

Бендж Эдвардс / Стабильная диффузия

Генерация изображений ИИ здесь имеет большое значение. Недавно выпущенная модель синтеза изображений с открытым исходным кодом под названием Стабильная диффузия позволяет любому, у кого есть ПК и приличный графический процессор, создавать практически любую визуальную реальность, которую они могут себе представить. Он может имитировать практически любой визуальный стиль, и если вы подадите ему описательную фразу, результаты появятся на вашем экране как по волшебству.

Некоторые художники в восторге на перспективу, другие не в восторге от этого, и общество в целом по-прежнему, кажется, в значительной степени не знает о быстро развивающейся технологической революции, происходящей через сообщества в Twitter, Discord и Github. Синтез изображений, возможно, имеет такие же важные последствия, как изобретение камеры или, возможно, создание самого визуального искусства. Даже наше чувство истории может быть на кону, в зависимости от того, как все вытряхнуть. В любом случае, Stable Diffusion возглавляет новую волну творческих инструментов глубокого обучения, которые способны произвести революцию в создании визуальных медиа.

Рост синтеза изображений с помощью глубокого обучения

Stable Diffusion — это детище Эмада Мостака, бывшего управляющего хедж-фонда из Лондона, целью которого является распространение новых приложений глубокого обучения через свою компанию Stability AI. Но корни современного синтеза изображений восходят к до 2014 г.и Stable Diffusion не были первой моделью синтеза изображений (ISM), которая произвела фурор в этом году.

В апреле 2022 года OpenAI объявила ДАЛЛ-Э 2, который шокировал социальные сети своей способностью превращать сцену, написанную словами (называемую «подсказкой»), в множество визуальных стилей, которые могут быть фантастическими, фотореалистичными или даже обыденными. Люди с привилегированным доступом к закрытому инструменту создавали космонавтов верхом на лошадях, плюшевых мишек, покупающих хлеб в Древнем Египте, новые скульптуры в стиле известных художников и многое другое.

Скриншот сайта OpenAI DALL-E 2.
Увеличить / Скриншот сайта OpenAI DALL-E 2.

OpenAI

Вскоре после DALL-E 2, Google а также Мета объявили о своих собственных моделях искусственного интеллекта, преобразующих текст в изображение. Середина путешествиядоступный как сервер Discord с марта 2022 года и открытый для публики через несколько месяцев, взимает плату за доступ и обеспечивает аналогичные эффекты, но с более живописным и иллюстративным качеством по умолчанию.

Тогда есть стабильная диффузия. 22 августа Стабильный ИИ вышел его модель генерации изображений с открытым исходным кодом, которая, возможно, соответствует DALL-E 2 по качеству. Он также запустил свой собственный коммерческий веб-сайт под названием ДримСтудио, который продает доступ к вычислительному времени для создания изображений с помощью Stable Diffusion. В отличие от DALL-E 2, его может использовать любой, а поскольку код Stable Diffusion является открытым, проекты могут создаваться на его основе с небольшими ограничениями.

Только за последнюю неделю десятки проектов, использующих Stable Diffusion в радикально новых направлениях, возник. И люди добились неожиданных результатов, используя технику под названием «img2img», которая “обновленный” искусство игры MS-DOS, преобразованная графика майнкрафта в реалистичные, превратил сцену из Аладдина в 3Dпереведено детские каракули в богатые иллюстрации и многое другое. Синтез изображений может предоставить возможность богатой визуализации идей для массовой аудитории, снизив входные барьеры, а также расширив возможности художников, использующих эту технологию, как это сделал Adobe Photoshop в 1990-х годах.

Портреты из Duke Nukem, The Secret of Monkey Island, King's Quest VI и Star Control II получили обновления вентиляторов на базе Stable Diffusion.
Увеличить / Портреты из Duke Nukem, The Secret of Monkey Island, King’s Quest VI и Star Control II получили обновления вентиляторов на базе Stable Diffusion.

Вы можете запустить Stable Diffusion локально самостоятельно если вы последуете ряду несколько загадочных шагов. Последние две недели мы запускали его на ПК с Windows с графическим процессором Nvidia RTX 3060 12 ГБ. Он может генерировать изображения размером 512×512 примерно за 10 секунд. На 3090 Ti это время сокращается до четырех секунд на изображение. Интерфейсы также продолжают быстро развиваться, переходя от грубых интерфейсов командной строки и блокнотов Google Colab к более совершенным (но все же сложным) интерфейсным графическим интерфейсам, и вскоре появятся гораздо более совершенные интерфейсы. Так что, если вы не разбираетесь в технике, держитесь крепче: на подходе более простые решения. И если ничего не помогает, вы можете попробовать демо онлайн.



Последние статьи

Похожие истории