URL: https://www.opennet.dev/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 132122
[ Назад ]

Исходное сообщение
"Представлена система синтеза видео Stable Video Diffusion"

Отправлено opennews , 22-Ноя-23 21:54 
Компания Stability AI опубликовала модель машинного обучения Stable Video Diffusion, позволяющую генерировать короткие видео на основе изображений. Модель расширяет возможности проекта Stable Diffusion, ранее ограниченного синтезом статических изображений. Код инструментов для обучения нейронной сети и генерации изображений написан на языке Python с использованием фреймворка PyTorch  и опубликован под лицензией MIT. Уже обученные модели открыты под пермиссивной лицензией Creative ML OpenRAIL-M, допускающей использование в коммерческих целях...

Подробнее: https://www.opennet.dev/opennews/art.shtml?num=60165


Содержание

Сообщения в этом обсуждении
"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 22-Ноя-23 21:54 
Ждём поддержки в a1111, comfyui и invokeai 🤩

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 22-Ноя-23 22:08 
Пока к сожалению SD гораздо хуже чем DALL-E 3. Генерация чего-то сложнее рисованной девушки (Внезапно, это и есть 90% сгенерированных картинок) практически нереальна.

Но, может, развитие нейросетей поможет поднять независимость от центра. Можно будет в лесу без интернета генерировать бесконечное количество музыки/историй. Посмотрим.


"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Нон , 22-Ноя-23 22:53 
Зайди на civitai и выбирай модель для генерации чего угодно сложнее девушки по своему вкусу.

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 00:14 
Я имею небольшой (Пара вечеров) опыт использования SD, с разными моделями, LoRaми и т.д. Конечно, сказав про одних лишь девушек я приувеличил проблему, но сложные сцены даются ей крайне плохо. Возможно, это связано с промптом, я слышал (Не ручаюсь), чтов случае dall-e gpt перефразирует его, для лучшего понимания моделью.

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 03:57 
А смысл сравнивать с DALLe? Он проприетарный, как работает не известно, на чем обучали - не известно, сколько ресурсов потребляет - неизвестно, сколько денег вбухали - непонятно. Возможно там армия индусов учила ещё пару нейросетей для отбраковки, а на запрос генерируется не одна картинка, а например тысяча с вариациями параметров и из них только одна показывается пользователю. С таким раскладом и SD будет сильно лучше. Ну и от модели сильно зависит. Одно дело обучать на плохо размеченных картинках из интернета с логотипа, скриншотами и пр, другое дело закидать стоки деньгами (ну или индусов нанять чтобы пособирали втихаря). Ну и DALLe не даст ничего сделать с настройками. Ни controlnet, ни читаемый текст, ни бесконечное количество плагинов вплоть до интеграциями с редакторами. Ну такое.

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 11:51 
> А смысл сравнивать с DALLe? Он проприетарный, как работает не известно, на чем обучали - не известно, сколько ресурсов потребляет - неизвестно, сколько денег вбухали - непонятно.

Для программиста — смысла нет, для пользователя — смысл непосредственный.


"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 17:28 
Да, возможность дообучения и контроля программы (а ещё свобода промта) это важно. Но какая будет разница, если качество проприетарных сетей будут лучше даже круто настроенного SD? Даже если он будет требовать вагон серверов с 4090, сейчас он доступен то ли бесплатно, то ли за какую-то небольшую плату. OAI может даже в итоге этого обанкротиться, но пока они есть, зачем среднему пользователю выбирать худшую альтернативу?

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Nourepide , 24-Ноя-23 10:01 
Подозреваю что проблема в том что модели по большему счёту сейчас лишь на 3B параметров, звучит много если не думать о том что текстовые модели на 3B только начинают связанно говорить

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноньимъ , 23-Ноя-23 00:02 
>  Можно будет в лесу без интернета генерировать бесконечное количество музыки/историй. Посмотрим.

В лесу без интернета можно генерировать бесконечное количество музыки/историй.

Качественных. Отличных.

И для этого ненужно бдь никаких ИИ.


"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 00:15 
Боюсь, удовольствия от сгенерированного самим собой контента будет маловато.

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 25-Ноя-23 03:46 
Ну это смотря насколько хорошо грибы народились. Иной раз так в лесу насочиняешь…

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 07:15 
Хочу возразить сразу по обоим пунктам.
Во первых эти sd-бабы загадившие все хентай-сайты кроме священного гелбору, выглядят все однотипно и легко замечаются. А вот стилистические рисунки, которые с закосом под сказки, гравюры и тд - я реально порой не могу отличить от рукотворных.
Во вторых в чем прикол генерировать истории или музыку, если весь их смысл в том чтобы волеизъявленный наратив передать от одного человека к другому, люди хотят узнать чем закончилась игра престолов именно в представлении джорджа мартина, а не читать фанфики.

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 09:26 
> Во первых эти sd-бабы загадившие все хентай-сайты кроме священного гелбору, выглядят все однотипно и легко замечаются.

Потому что весь хентай и выглядит однотипно. Датасет же не с потолка взялся?


"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 18:14 
Сразу видно человека в хентае не разбирающегося. Вас ждет дивный новый мир.

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 24-Ноя-23 00:55 
Спасибо, нет. С этим миром я ознакомился и прошёл мимо.

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 16:04 
> люди хотят узнать чем закончилась игра престолов именно в представлении джорджа мартина, а не читать фанфики.

Люди слишком общее понятие. Каждый хочет что бы игра (не)закочилась в меру его разбушевавшихся фантазий.


"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 18:26 
Ну напиши что джон сноу избранный, всех трахнул и победил, люди вроде как именно за него больше всех переживают, так что станешь толкиеном цифровой эпохи, что может пойти не так.

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено лютый арчешкольник... , 23-Ноя-23 16:41 
>sd-бабы загадившие все хентай-сайты

на джойреакторе периодически пролетают фотореалистичные нейрогенерёные девки просто неописуемой крутоты. где-то ты не там и не то ищешь.


"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 18:55 
>А вот стилистические рисунки, которые с закосом под сказки, гравюры и тд - я реально порой не могу отличить от рукотворных.

Это вкусовщина. Но вопрос был не в генерации чего-то красивого/реалистичного, а генерации чего-то качественно соответствующего промту. Если оно мне на запрос черного шара на белом фоне выдаст красивый красный куб на зеленом фоне мне её выхлоп не нужен будет от слова совсем.

>Во вторых в чем прикол генерировать истории или музыку, если весь их смысл в том чтобы волеизъявленный наратив передать от одного человека к другому, люди хотят узнать чем закончилась игра престолов именно в представлении джорджа мартина, а не читать фанфики.

Кто говорит, что нейросеть неспособна в какой-то посыл или мнение (Зависящее от настроек)? Хотя нынче, имхо, сюжет в кино не особо ценится. А в музыке по-моему главное мелодия, и возможность каждый час себе сделать что-то новое и не приевшееся была бы в самый раз.


"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 22:12 
Музыка нужна для мурашек и волос дыбом на коже, сосущего ощущения под ложечкой и между ног, взрыва гормонов как будто секс на американских горках, многолетних поисков того самого альбома и чтобы потом его рекомендовать по секрету всем друзьям как величайшее сокровище.
Со всем остальным искусством плюс минус тоже самое.

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Анонус , 22-Ноя-23 22:48 
Жаль, что не нашлось места для новости о другой опенсорс нейронке для генерации видео
https://huggingface.co/ai-forever/KandinskyVideo

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено ИмяХ , 23-Ноя-23 07:22 
Жаль, что у тебя не нашлось на это времени.

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Анонус , 23-Ноя-23 12:44 
> Жаль, что у тебя не нашлось на это времени.

Я стесняюсь писать. Еще со времен школьных сочинений :(


"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 16:05 
Используйте чатжпт.

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Skullnet , 23-Ноя-23 00:36 
Для того чтобы в том же Stable Diffusion получить что-то годное приходится часами "рандомить" искать более качественные "мозги" для нейронки. При этом всё равно получается страшная рандомная хрень с неправильной симметрией, 10ю пальцами и прочее Даже impainting не помогает. Midjourney в разы лучше, что даже вызывает бугурт у художников, но он платный и нельзя на своей машине.

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 01:26 
Ну немного подождите.
В сентябре была новость, что начали строить новый суперкомпьютер:
https://www.datacenterdynamics.com/en/news/intel-and-dell-to.../

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 03:33 
Тут проблема отнюдь не в вычислительных мощностях, это не ChatGPT.

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 01:38 
Попробуйте Fooocus, это локальный аналог MidJourney на базе Stable Diffusion

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 09:14 
Попробуй https://lexica.art/

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 09:54 
> часами "рандомить"
> неправильной симметрией

Используй ControlNet, модель pose.

> 10ю пальцами

Используй ControlNet, модель pose, в качестве картинки с позой бери ту, на которой есть пальцы. Или сгенерируй ее сам через препроцессор. Иногда с пальцами помогает модель canny. А иногда -- модель depth. А лучше все вместе и сразу.

Также я заметил, что SD плохо генерит пальцы, если они слишком мелкие, то есть если персонаж находится слишком далеко от камеры, и при этом разрешение картинки в районе 512x512. Хорошие пальцы выходят, если они занимают скажем четверть картинки (допустим лицо мужика, который в раздумьях чешет подбородок).


"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 00:54 
Квадратные зрачки и 6 больших пальцев на одной руке всё так же генерит?

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено iPony129412 , 23-Ноя-23 03:27 
Я PonyDiffusion использую, на такое не натыкался

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 04:00 
От модели сильно зависит. А модели сильно улучшились. Теперь даже текст может получиться читабельный.

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 06:13 
> Квадратные зрачки и 6 больших пальцев на одной руке всё так же генерит?

Ящерки тренировавшие модель в надежде поработить двуногих совсем не палятся :)


"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 24-Ноя-23 15:47 
Я не понимаю людей которые не хотят разбираться и дай все на хвляву. Почему бы не разобраться в этом вопросе для начала, а потом иметь какие-либо основания обвинять? У меня не генерит квадратные зрачки и 6 пальцев на руке.

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 01:00 
Подскажите, уже норм генерит видео, про которое одна часть говорит, что смотрит, а другая часть говорит, стране смотрит, но на самом деле смотрит?

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 04:01 
Дайте угадаю: сосед/брат/сват интересуется?

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 06:00 
Дед просит ссылку

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено nebularia , 23-Ноя-23 06:26 
Видео любое сейчас на начальной стадии в виде нескольких секунд низкого качества, дайте нейронкам время, картинки всего за год прошли колоссальный путь, а тут он только начинается.

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено Аноним , 23-Ноя-23 09:14 
14 кадров это по твоему норм?

"Представлена система синтеза видео Stable Video Diffusion"
Отправлено EuPhobos , 23-Ноя-23 09:20 
https://ai-forever.github.io/kandinsky-video/static/videos/M...
Тот что справа суслик на терминатора Т-1000 похож.