URL: https://www.opennet.dev/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 136045
[ Назад ]

Исходное сообщение
"Опубликована AI-модель синтеза речи Zonos, поддерживающая клонирование голоса"

Отправлено opennews , 17-Фев-25 12:23 
Компания Zyphra опубликовала под лицензией Apache 2.0 первый бета-выпуск  AI-модели для синтеза речи Zonos. Предлагаемый вместе с моделью инструментарий поддерживает функцию клонирования голоса, позволяющую  синтезировать речь желаемым голосом, для воспроизведения которого модели достаточно предоставить 30-секундную эталонную запись речи говорящего. Поддерживается синтез на английском, японском, китайском, французском и немецком языках...

Подробнее: https://www.opennet.dev/opennews/art.shtml?num=62733


Содержание

Сообщения в этом обсуждении
"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 12:32 
открыл себе такой новость, а тебе хором четыре семпла с порога в уши долбят

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 12:36 
потому что надо юзать Firefox :D

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 12:44 
noscript

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Шарп , 17-Фев-25 13:08 
яшка.браузер. Автоматически ничего не воспроизводится. У тетя там lynx?

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 12:39 
Кто тестил, оно лучше XTTSv2 и F5-TTS?

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 13:53 
На смартфоне может?

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 13:00 
С одной стороны интересно, но всё чаще такой "дипфейковый" прогресс вызывает настороженность:
https://en.wikipedia.org/wiki/Artificial_Intelligence_Act

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено X86 , 17-Фев-25 13:20 
эти все лезут регулировать то, в чем не разбираются. Потом будут в OpenAI GPT свой "браузер" продвигать)

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 13:32 
У Франции есть Le Chat от Mistral AI:
https://chat.mistral.ai/chat
https://en.wikipedia.org/wiki/Mistral_AI

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Смузихлёб , 17-Фев-25 13:53 
> Le Chat от Mistral AI

Который недавно стал платным. Раньше годный продукт был, часто использовал, теперь оно даже более упоротое по лимитам, если сравнивать с чатгпт.


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено X86 , 17-Фев-25 17:24 
> У Франции есть Le Chat от Mistral AI:
> https://chat.mistral.ai/chat
> https://en.wikipedia.org/wiki/Mistral_AI

гонял на локалке этот мистраль, не впечатлил совсем.


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Смузихлёб , 17-Фев-25 13:56 
Это тот редкий случай, когда лучше зарегулировать. И чем раньше, тем лучше.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено take 100500 , 17-Фев-25 16:10 
Неее... свобода!

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 17:14 
Неее... Не надо!

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено corvuscor , 17-Фев-25 19:31 
Клонирование голоса по 30-секундной записи - это вообще портал в ад.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 18-Фев-25 04:39 
Еще лет 5 назад читал статью, где представили сетку, клонирующую голос за 5 секунд

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Андрей , 18-Фев-25 11:39 
Real-Time-Voice-Cloning на гитхабе. На самом деле подвох прост - всё это черри-пикинг, т.к. что прошлая, что данная модель дают уверенный результат только на 5% голосов, причём чем ближе к выборке, тем лучше. В реальных же применениях всё это как правило работает очень грустно. Касательно 30 секунд вместо 5 - оправдаю авторов тем, что RTVC делала клонирование в лоб(более примитивной моделью) и не учитывала многих качеств голоса, собственно обратите внимание на схему с моделью, где по меньшей мере упомянуты эмбеддинги для `Speaker ID`, `Emotion`, `Pitch`, а на деле там сидит ещё несколько, поэтому улучшение есть, но цена и сложность модели растут сильнее, чем качество и простота адаптации.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 19:46 
Ты зарегулируешь, а китай, хакеры и пр не зарегулируют и будут пользоваться. Только у тебя не будет профита от этого потому что тебе запретили. А у них будет.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 19:55 
Если кто-то откажется, тем надо выписывать санкции по самое небалуйся. И регулировать не всё подряд, а например, только этот момент с генерацией голоса, фоток и видео людей.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Shantikov , 25-Фев-25 14:15 
Ну то есть, чтоб если законопослушный гражданин  услышит клон голоса - он был уверен, что они настоящие, ведь клонирование голоса запрещено!

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 19:56 
>а китай не зарегулируют

Что ? Полистайте список, КПК там повсюду:
https://www.tadviser.ru/index.php/%D0%A1%D1&#...)_%D0%B2_%D0%B8%D0%BD%D1%82%D0%B5%D1%80%D0%BD%D0%B5%D1%82%D0%B5._%D0%9E%D0%BF%D1%8B%D1%82_%D0%9A%D0%B8%D1%82%D0%B0%D1%8F


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 19:57 
Корректная ссылка:
https://www.tadviser.ru/a/349521

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено огнемётные казни , 18-Фев-25 21:50 
Китай не зарегулируют. Китай - это "свобода". В понимании многих местных "свободных".

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено поле Name , 17-Фев-25 13:05 
Ну не знаю, из 4х семплов мне меньше всех понравился сабж. Слишком звучит как робот из колцентра, а добавленное мычание
звучит принужденно. Fish хороший.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 13:07 
К о з л ы, не только они, но и подобные. Строют хаус где лицо и голос себе уже не принадлежит, цена подтелки стоимость видеокарты.  Кого хочу беру лицо и голос и делаю видео подтелку какое захочу. Примерно в 2017 году начиналось с заменой лиц женщин на другие лица женщин в порно, мошенники стали делать видео с людьми рекламирующие пирамиды которые этого не делали. Дальше видео звонки с поделкой голосов и лиц. Часть кино индустрии хочет без живых людей делать фильмы не спрашивая у мёртвых актёров их разрешения. Нет смысла у мёртвого тела спрашивать о делах живых пытаются с родственниками договориться, чтобы купить разрешение на использование голоса и изображения лица и используют.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено тоже Аноним , 17-Фев-25 13:43 
Собственно, Пелевин предсказал использование компьютерной графики для полноценного телевизионного симулякра еще в прошлом веке, в "Generation П".
И это действительно проблема - для людей, которые готовы верить лицу из телевизора.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Bottle , 17-Фев-25 14:26 
Это не он придумал, ещё в "Бегущем человеке" была сцена подобной фальсификации, которую сценаристы явно слизали у кого-то из фантастов.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 14:35 
А потом всё окажется как в «They Live» 1988г.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 13:48 
Согласен. Человечество само себя погубит, предварительно погрузив во всемирный хаос. Выживут только затворники в глухих не_электрифицированных деревнях под Соликамском.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 18:07 
> Согласен. Человечество само себя погубит, предварительно погрузив во всемирный хаос. Выживут
> только затворники в глухих не_электрифицированных деревнях под Соликамском.

А чо, запасаемся динамками, солнечными панелями, кучей ониме и отакувать в под Саликамск, звучит как план! xD


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 13:21 
А синтезатор, который можно заставить говорить мультяшным голосом, кто-нибудь может посоветовать?

Предполагаемое использование: глупый попугай, повторяющий на разные лады одну и ту же выученную фразу в рекламных роликах.

Magic Goody почти подходит, но этот голос заезженный и несвободный.


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 13:50 
> мультяшным голосом

Для этого не нужны нейросети. Просто увеличь скорость воспроизведения на своём катушечном бобиннике.


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 14:22 
Мультяшный голос делали из обычного ещё в дремучие годы, ускоряя плёнку.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 14:26 
> Мультяшный голос делали из обычного ещё в дремучие годы, ускоряя плёнку.

Я неправильно выразился. Тут нужен скорее не столько мультяшный, сколько "птичий" голос. Или трескучий, или "петушиный" голос, с резким различием высоты тона для ударных и безударных слогов. Примерно как espeak с задранным значением -P:

espeak -v Storm -p 99 -P 199 "Senior citizens, have, priority!"


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 14:31 
>> Мультяшный голос делали из обычного ещё в дремучие годы, ускоряя плёнку.
> Я неправильно выразился. Тут нужен скорее не столько мультяшный, сколько "птичий" голос.
> Или трескучий, или "петушиный" голос, с резким различием высоты тона для
> ударных и безударных слогов. Примерно как espeak с задранным значением -P:
> espeak -v Storm -p 99 -P 199 "Senior citizens, have, priority!"

Или еще лучше:

espeak -w /tmp/input.wav -v Storm -p 99 -P 199 "Senior citizens, have, priority!"
sox /tmp/input.wav /tmp/output.wav pitch 300
aplay /tmp/output.wav


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено bOOster , 17-Фев-25 13:22 
И все равно точно голос все эти поделки клонировать не могут.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 13:29 
Тенденция чтобы могло, если не сейчас и не у них так у других, и если не сейчас так позже.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 13:45 
Могут уже достаточно чтобы разводить людей мошенниками. Таких случаев полно уже не первый год. Особенно, когда звонят "родственники", которые оказались в сложном положении своим 80-летним бабушкам, которые бегут снимать миллионы. Одна южная "страна" очень хорошо в этом преуспела.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Андрей , 18-Фев-25 11:41 
Но качество за пять лет нехилое

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Уууууъъъ , 17-Фев-25 13:34 
Архитектурная диаграмма понравилась, красиво!

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 13:46 
Можно подумать там что-то понял.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 13:43 
> Для работы рекомендуется наличие GPU NVIDIA как минимум серии 3000 с 6 Гб видеопамяти.

Т.е. недоступно для большинства людей.

А бесплатно онлайн есть?


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 14:22 
>недоступно для большинства

Ну самые доступные с 6gb gddr6 это GeForce RTX 3050, также есть Intel Arc A380.


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 21:08 
> А бесплатно онлайн есть?

А сам-то как думаешь, будет ли кто-то держать кучу серваков с мощными GPU за бесплатно?

Вам прогу написали, натренировали, под открытой лицензией на блюдечке выложили, а вы "хочу бесплатно!". Совсем уже зажрались...


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 21:19 
Как Лян Вэньфэн, который заявил, что создал DeepSeek всего за $6 млн.
https://3dnews.ru/1117636/

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 22:41 
> А бесплатно онлайн есть?

Да, 100 бесплатных минут в месяц, дальше за деньги:

https://playground.zyphra.com/audio


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 18-Фев-25 19:39 
300$ — космическая цена, да.
RTX 3060 на первом месте в стиме.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 18-Фев-25 20:42 
Это действительно большие деньги даже для Москвы. Просто кто-то умеет их считать, а кто-то спускает всё в кофе\бары\рестораны\игрушки\железо и живёт 29 дней в месяце на дошираке.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 18-Фев-25 21:36 
Видеокарту не каждый день покупают. И «спустить» раз в пару-тройку лет 300$ на видеокарту — не значит жить на дошираке, даже для РФ, даже для провинции (кстати, на дошираке жить крайне невыгодно).

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 19-Фев-25 05:22 
> на дошираке жить крайне невыгодно

На фриганство перешел? По контейнерам лазишь? Хмм... а стоит ли оно того, чтобы ради видеокарты так опускаться по социальной лестнице)


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 19-Фев-25 12:15 
Если вам из-за покупки видеокарты за триста баксов приходится лазить по контейнерам — с социальной лестницы падать уже некуда.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 25-Фев-25 06:08 
Доширак же дороже обычной вермишели, помни это.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено mustai , 17-Фев-25 13:53 
> монотонной (как в аудиокнигах)

Такие аудиокниги невозможно долго слушать.


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 15:19 
Блин, а можно было хотя бы не такую тупую фразу составлять на семпле?

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 16:16 
всё это кончиться : "Мама, ты позвонила и сказала если придёт дядя Петя - передать ему деньги..  дядя Петя   приходил  , я деньги передала . дядя просил передать тебе спасибо!"

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Ivan7 , 17-Фев-25 16:20 
Т.е. нам нужно минимум GPU RTX 4080 для работы в реальном времени, и при этом комп будет греться и шуметь как не в себя)) Т.е. надо ставить мини электростанцию рядом! Спасите планету!!!

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Андрей , 18-Фев-25 11:42 
И что ? Аудиокниги начитывать и с задержкой можно

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 18-Фев-25 14:48 
> Аудиокниги начитывать

У вас для аудиокниг, а у кого-то для обмана доверчивых пожилых людей.


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Андрей , 19-Фев-25 08:26 
>> Аудиокниги начитывать
> У вас для аудиокниг, а у кого-то для обмана доверчивых пожилых людей.

Так и что - не будет этой штуки останутся другие тысяча и один способ "обмана пожилых людей". Тут уж извините, но тут ничем не помочь, кроме как разъяснительными беседами с пожилыми людьми и доведения до них информации о том, что нужно быть осторожными или вовсе убеждать в том, что нельзя поднимать звонки с незнакомых номеров и пр. Поэтому конечно крутые нейронки увеличивают риски, но с другой стороны я бы рекомендовал больше за LLMки беспокоится, ибо голос ещё нужно скопировать, а вот в ролевую LLMку уже сейчас можно вгрузить фотки и инфу из соц сетей, так, что она в "вайбере", "ватцапе" может дурить родственников, так, что с трудом получится отличить от оригинала, не переходя на совсем уж личные темы. Ну и в целом, опять же - чтобы не дурили по телефону, нужно просто на белые списки переходить, дабы у и без того "непонятно кого", даже возможности не было предложить каверзные услуги или обмануть как-то иначе.


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 16:58 
> "Для работы рекомендуется наличие GPU NVIDIA как минимум серии 3000 с 6 Гб видеопамяти!"

А как же владельцы карт от AMD?


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 17:03 
Им для начала надо стать владельцами ВИДЕОКАРТЫ, а не Радеона.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено ЛщЛ , 17-Фев-25 18:03 
> Им для начала надо стать владельцами ВИДЕОКАРТЫ, а не Радеона.

А они и так самые настоящие владельцы видеокарт, а не комбаина для майнинга крипты и нейронок.


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено огнемётные казни , 18-Фев-25 22:11 
Но ведь радеоны не игровые! Они для запуска этих ваших вейляндов. И то под вопросом.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Андрей , 18-Фев-25 11:44 
Ну готовый докер образ разворачивает докеровский pytorch под cuda - под ocl/vulkan pytorch придётся разворачивать самому

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 19-Фев-25 01:09 
Переписывать под себя, естественно.
cuda на амд будет никогда, так что ручками всё, ручками

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 18:00 
"Для работы рекомендуется наличие GPU NVIDIA как минимум серии 3000 с 6 Гб видеопамяти."

А чо, рыксы от AMD совсем в пролёте? А как жи рыксы опенсорснее и лучше под линуксами?

Или опенсорс такой дружный, что не может договориться друг с другом?


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 18:27 
Ну так ты попробуй разобраться. Потыкать по ссылочкам, увидеть torch, нагуглить, работает ли он с AMD ROCm

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 19:57 
Главное чтоб не вышло, когда что-то делают во благо или ради интереса, а потом это попадает в злые руки. В общем, опасная тенденция.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 18-Фев-25 01:37 
Уже попало, а почему это плохо?

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 18-Фев-25 03:06 
Мне почему-то печально немного видеть такие комменты на wannabe-технарском сайте. Если тут такое происходит, то что ждать от простого населения, не жаждущего tech-stuff.

Или это такая интервенция политиков в it. Со страхов сноса правительств, и старых схем управления они пошли строчить комменты нейросетками по всему интернету.


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 18-Фев-25 14:41 
Если бы ты не был таким приземлённым и думал не только о ближайших месяцах, то понял бы, почему умные люди беспокоятся о будущем — о годах и даже десятилетиях.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Андрей , 18-Фев-25 11:55 
Почти любую вещь можно использовать как во зло так и во благо - вопрос только меры и воспитания.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено огнемётные казни , 18-Фев-25 22:14 
Why so serious?

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 22:24 
Давайте угадаем с одного раза завезли ли русский язык

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 17-Фев-25 22:56 
> Давайте угадаем с одного раза завезли ли русский язык

Давайте будем читать дальше заголовка.


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 18-Фев-25 01:26 
Кому он нужен?

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 18-Фев-25 03:07 
Кто заказал, тому завезли.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 18-Фев-25 01:34 
Хорошо что таки "опасные" вещи выкладываются в паблик, ибо они разрушают штуки куда более опасные, например аутентификацию голосом.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 18-Фев-25 03:17 
Представляете, как можно сегодня влиять на общественное мнение подобными разработками. Раньше-то было это не так сложно всё устроить. Тем, у кого есть ресурсы, конечно.

Идет всё ко "входу в интернет по паспорту", и "ограничению иностранного влияния в нашем сегменте"


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Дарт Линус , 18-Фев-25 12:00 
Какая-то у вас рекурсия.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 18-Фев-25 14:44 
> входу в интернет по паспорту

И это правильно, так и должно быть. Это для твоего же блага, потому что слишком много свободы — это плохо, и если бы ты немного подумал, то сам бы всё понял.


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Udaff , 24-Фев-25 11:42 
а почему ты думаешь что у вас примут такое решение? в Верховной Раде не дураки же сидят

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 18-Фев-25 13:44 
Аутенртификация голосом вообще ужасная идея с точки зрения опсека, как и все биометрические формы в прочем, из которых голосом - худшая.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено prokoudine , 19-Фев-25 02:33 
Иные биометрические формы "взломать" можно только методом ректального криптоанализа. Что прекрасно работает и с другими формами аутентификации.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 18-Фев-25 04:44 
Ну 30 секунд не показатель. 5+ лет назад уже представили сетку клонирующую голос за 5 секунд

https://www.youtube.com/watch?v=0sR1rU3gLzQ


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Андрей , 18-Фев-25 12:01 
Там была более примитивная модель, которая выдавала качественный результат по сути только на черрипиках, а по сути только на удачном тексте и достаточно похожем на голоса из выборки, в противном случае получалось очень плохо. Собственно говоря это как был так и пока остаётся только хороший маркетинг, но на деле обобщающие способности моделей довольно так себе. Собственно в данном случае ведь не случайно подсовывают голос трампа в примерах, ровно как пару лет назад на конференции Путина тоже показывали перетюненый фейк, но что пять лет назад, что сейчас пока модели довольно средние. Единственное, что удивляет - это поющая suno, в ней реально генерятся довольно крутые вещи, в том числе с голосом.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 18-Фев-25 14:46 
Оно работало чуть более, чем никак. Так, просто пруф оф концепт.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 18-Фев-25 17:41 
В этих 5 секундах, ложечка дегтя. И там же в видео говорится, что они достигли этого за счёт "тонны" аудио образцов с речью людей.

Если данная технология Zonos использует меньший объём тренировочных данных, но за счёт более умного алгоритма выруливает отсутствие такого же количества образцов, но она более передовая.


"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 19-Фев-25 09:39 
Kokoro TTS звучит приятней, и работает практически на всём, ресурсов жрет минимум

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Аноним , 19-Фев-25 17:19 
Ну все теперь не определишь бот тебе звонит или спамер. Спамер человек плохо, но это хотя бы человек. Бот может 24/7 этим заниматься.

"Опубликована AI-модель синтеза речи Zonos, поддерживающая кл..."
Отправлено Udaff , 24-Фев-25 11:34 
Главное, чтоб в готовом докере web-интерфейс для управления был нескучный.