The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Опубликована AI-модель синтеза речи Zonos, поддерживающая клонирование голоса

17.02.2025 11:51

Компания Zyphra опубликовала под лицензией Apache 2.0 первый бета-выпуск AI-модели для синтеза речи Zonos. Предлагаемый вместе с моделью инструментарий поддерживает функцию клонирования голоса, позволяющую синтезировать речь желаемым голосом, для воспроизведения которого модели достаточно предоставить эталонную запись речи говорящего, продолжительностью 10-30 секунд. Поддерживается синтез на английском, японском, китайском, французском и немецком языках.

Модель охватывает 1.6 млрд параметров и обучена на 200 тысячах часов аудиозаписей. Поддерживается синтез монотонной (как в аудиокнигах) и эмоциональной речи (как в живом разговоре), а также синтез на основе заданного префикса (приводится аудиозапись с началом речи, на основе которой модель синтезирует продолжение по указанному тексту, воспроизводя исходные характеристики речи, например, продолжая говорить шёпотом).

На выходе генерируется звук с частотой дискретизации 44kHz. Поддерживается подстановка синтезируемых вставок для симуляции выступлений с несколькими говорящими или построения интерактивных диалогов, а также добавление меток для управления скоростью речи, тональностью и выражением эмоций, таких как радость, страх, печаль и гнев.

По заявлению разработчиков, по качеству генерируемой речи модель не уступает или превосходит все публично доступные открытые и коммерческие системы синтеза (в тестах приводится сравнение с ElevenLabs, Cartesia и FishSpeech). Из недостатков отмечается более высокая концентрация звуковых артефактов, таких как кашель, звук дыхания или скрипы, в начале или в конце формируемого звукового материала.

  • Zonos:
  • ElevenLabs:
  • Cartesia:
  • Fish Speech v1.5:

Для использования модели на своей системе подготовлен готовый к работе образ для системы Docker, в состав которого входит web-интерфейс для управления синтезом, основанный на платформе Gradio. Для начала работы достаточно установить образ командой "git clone https://github.com/Zyphra/Zonos.git; cd Zonos; docker compose up" и открыть в браузере страницу "http://localhost:7860". Для работы рекомендуется наличие GPU NVIDIA как минимум серии 3000 с 6 Гб видеопамяти. Производительность работы на системе с GPU RTX 4090 в два раза превышает возможности, необходимые для синтеза в режиме реального времени.



  1. Главная ссылка к новости (https://www.theregister.com/20...)
  2. OpenNews: Опубликована AI-модель ChatTTS для синтеза речи
  3. OpenNews: Новый выпуск системы синтеза речи Silero
  4. OpenNews: Выпуск синтезатора речи RHVoice 1.8.0
  5. OpenNews: Компания Mozilla представила систему синтеза речи LPCNet
  6. OpenNews: Открыт код системы распознавания и перевода речи Whisper
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/62733-zonos
Ключевые слова: zonos, speach, tts, ai, model
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (90) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.3, Аноним (3), 12:32, 17/02/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • –3 +/
    открыл себе такой новость, а тебе хором четыре семпла с порога в уши долбят
     
     
  • 2.4, Аноним (4), 12:36, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +34 +/
    потому что надо юзать Firefox :D
     
  • 2.6, Аноним (6), 12:44, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +3 +/
    noscript
     
  • 2.12, Шарп (ok), 13:08, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +2 +/
    яшка.браузер. Автоматически ничего не воспроизводится. У тетя там lynx?
     

  • 1.5, Аноним (4), 12:39, 17/02/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Кто тестил, оно лучше XTTSv2 и F5-TTS?
     
     
  • 2.32, Аноним (32), 13:53, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    На смартфоне может?
     

  • 1.7, Аноним (7), 12:45, 17/02/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +7 +/
    > Поддерживается синтез на английском, японском, китайском, французском
    > и немецком языках.

    этот терминатор бракованный, мою маму не обманет, несите следующего.

     
     
  • 2.8, EULA (?), 12:48, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Меняй на Электроника - мальчика из чемодана.
     

  • 1.9, Аноним (9), 13:00, 17/02/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    С одной стороны интересно, но всё чаще такой "дипфейковый" прогресс вызывает настороженность:
    https://en.wikipedia.org/wiki/Artificial_Intelligence_Act
     
     
  • 2.16, X86 (ok), 13:20, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    эти все лезут регулировать то, в чем не разбираются. Потом будут в OpenAI GPT свой "браузер" продвигать)
     
     
  • 3.21, Аноним (9), 13:32, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    У Франции есть Le Chat от Mistral AI:
    https://chat.mistral.ai/chat
    https://en.wikipedia.org/wiki/Mistral_AI
     
     
  • 4.33, Смузихлёб (ok), 13:53, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > Le Chat от Mistral AI

    Который недавно стал платным. Раньше годный продукт был, часто использовал, теперь оно даже более упоротое по лимитам, если сравнивать с чатгпт.

     
  • 4.58, X86 (ok), 17:24, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > У Франции есть Le Chat от Mistral AI:
    > https://chat.mistral.ai/chat
    > https://en.wikipedia.org/wiki/Mistral_AI

    гонял на локалке этот мистраль, не впечатлил совсем.

     
  • 3.34, Смузихлёб (ok), 13:56, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Это тот редкий случай, когда лучше зарегулировать. И чем раньше, тем лучше.
     
     
  • 4.46, take 100500 (?), 16:10, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Неее... свобода!
     
     
  • 5.56, Аноним (56), 17:14, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • –4 +/
    Неее... Не надо!
     
  • 4.66, corvuscor (ok), 19:31, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Клонирование голоса по 30-секундной записи - это вообще портал в ад.
     
     
  • 5.84, Аноним (84), 04:39, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Еще лет 5 назад читал статью, где представили сетку, клонирующую голос за 5 секунд
     
     
  • 6.86, Андрей (??), 11:39, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Real-Time-Voice-Cloning на гитхабе. На самом деле подвох прост - всё это черри-пикинг, т.к. что прошлая, что данная модель дают уверенный результат только на 5% голосов, причём чем ближе к выборке, тем лучше. В реальных же применениях всё это как правило работает очень грустно. Касательно 30 секунд вместо 5 - оправдаю авторов тем, что RTVC делала клонирование в лоб(более примитивной моделью) и не учитывала многих качеств голоса, собственно обратите внимание на схему с моделью, где по меньшей мере упомянуты эмбеддинги для 'Speaker ID', 'Emotion', 'Pitch', а на деле там сидит ещё несколько, поэтому улучшение есть, но цена и сложность модели растут сильнее, чем качество и простота адаптации.
     
  • 4.67, Аноним (67), 19:46, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Ты зарегулируешь, а китай, хакеры и пр не зарегулируют и будут пользоваться. Только у тебя не будет профита от этого потому что тебе запретили. А у них будет.
     
     
  • 5.68, Аноним (68), 19:55, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Если кто-то откажется, тем надо выписывать санкции по самое небалуйся. И регулировать не всё подряд, а например, только этот момент с генерацией голоса, фоток и видео людей.
     
  • 5.69, Аноним (9), 19:56, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    >а китай не зарегулируют

    Что ? Полистайте список, КПК там повсюду:
    https://www.tadviser.ru/index.php/%D0%A1%D1%82%D0)_%D0%B2_%D0%B8%D0%BD%D1%82%D0%B5%D1%80%D0%BD%D0%B5%D1%82%D0%B5._%D0%9E%D0%BF%D1%8B%D1%82_%D0%9A%D0%B8%D1%82%D0%B0%D1%8F

     
     
  • 6.71, Аноним (9), 19:57, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Корректная ссылка:
    https://www.tadviser.ru/a/349521
     
  • 6.105, огнемётные казни (?), 21:50, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Китай не зарегулируют. Китай - это "свобода". В понимании многих местных "свободных".
     

  • 1.10, поле Name (?), 13:05, 17/02/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Ну не знаю, из 4х семплов мне меньше всех понравился сабж. Слишком звучит как робот из колцентра, а добавленное мычание
    звучит принужденно. Fish хороший.
     
  • 1.11, Аноним (-), 13:07, 17/02/2025 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ]     [к модератору]
  • +2 +/
     

  • 1.17, Аноним (17), 13:21, 17/02/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А синтезатор, который можно заставить говорить мультяшным голосом, кто-нибудь может посоветовать?

    Предполагаемое использование: глупый попугай, повторяющий на разные лады одну и ту же выученную фразу в рекламных роликах.

    Magic Goody почти подходит, но этот голос заезженный и несвободный.

     
     
  • 2.28, Аноним (27), 13:50, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +5 +/
    > мультяшным голосом

    Для этого не нужны нейросети. Просто увеличь скорость воспроизведения на своём катушечном бобиннике.

     
  • 2.37, Аноним (37), 14:22, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Мультяшный голос делали из обычного ещё в дремучие годы, ускоряя плёнку.
     
     
  • 3.39, Аноним (17), 14:26, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Мультяшный голос делали из обычного ещё в дремучие годы, ускоряя плёнку.

    Я неправильно выразился. Тут нужен скорее не столько мультяшный, сколько "птичий" голос. Или трескучий, или "петушиный" голос, с резким различием высоты тона для ударных и безударных слогов. Примерно как espeak с задранным значением -P:

    espeak -v Storm -p 99 -P 199 "Senior citizens, have, priority!"

     
     
  • 4.41, Аноним (17), 14:31, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    >> Мультяшный голос делали из обычного ещё в дремучие годы, ускоряя плёнку.
    > Я неправильно выразился. Тут нужен скорее не столько мультяшный, сколько "птичий" голос.
    > Или трескучий, или "петушиный" голос, с резким различием высоты тона для
    > ударных и безударных слогов. Примерно как espeak с задранным значением -P:
    > espeak -v Storm -p 99 -P 199 "Senior citizens, have, priority!"

    Или еще лучше:

    espeak -w /tmp/input.wav -v Storm -p 99 -P 199 "Senior citizens, have, priority!"
    sox /tmp/input.wav /tmp/output.wav pitch 300
    aplay /tmp/output.wav

     

  • 1.18, bOOster (ok), 13:22, 17/02/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    И все равно точно голос все эти поделки клонировать не могут.
     
     
  • 2.20, Аноним (-), 13:29, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Тенденция чтобы могло, если не сейчас и не у них так у других, и если не сейчас так позже.
     
  • 2.25, Аноним (27), 13:45, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +5 +/
    Могут уже достаточно чтобы разводить людей мошенниками. Таких случаев полно уже не первый год. Особенно, когда звонят "родственники", которые оказались в сложном положении своим 80-летним бабушкам, которые бегут снимать миллионы. Одна южная "страна" очень хорошо в этом преуспела.
     
  • 2.87, Андрей (??), 11:41, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Но качество за пять лет нехилое
     

  • 1.22, Уууууъъъ (?), 13:34, 17/02/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Архитектурная диаграмма понравилась, красиво!
     
     
  • 2.26, Аноним (27), 13:46, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Можно подумать там что-то понял.
     

  • 1.24, Аноним (27), 13:43, 17/02/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +5 +/
    > Для работы рекомендуется наличие GPU NVIDIA как минимум серии 3000 с 6 Гб видеопамяти.

    Т.е. недоступно для большинства людей.

    А бесплатно онлайн есть?

     
     
  • 2.38, Аноним (9), 14:22, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    >недоступно для большинства

    Ну самые доступные с 6gb gddr6 это GeForce RTX 3050, также есть Intel Arc A380.

     
  • 2.72, Аноним (72), 21:08, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > А бесплатно онлайн есть?

    А сам-то как думаешь, будет ли кто-то держать кучу серваков с мощными GPU за бесплатно?

    Вам прогу написали, натренировали, под открытой лицензией на блюдечке выложили, а вы "хочу бесплатно!". Совсем уже зажрались...

     
     
  • 3.73, Аноним (9), 21:19, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Как Лян Вэньфэн, который заявил, что создал DeepSeek всего за $6 млн.
    https://3dnews.ru/1117636/
     
  • 2.75, Аноним (72), 22:41, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > А бесплатно онлайн есть?

    Да, 100 бесплатных минут в месяц, дальше за деньги:

    https://playground.zyphra.com/audio

     
  • 2.102, Аноним (102), 19:39, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • –2 +/
    300$ — космическая цена, да.
    RTX 3060 на первом месте в стиме.
     
     
  • 3.103, Аноним (27), 20:42, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Это действительно большие деньги даже для Москвы. Просто кто-то умеет их считать, а кто-то спускает всё в кофе\бары\рестораны\игрушки\железо и живёт 29 дней в месяце на дошираке.
     
     
  • 4.104, Аноним (102), 21:36, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Видеокарту не каждый день покупают. И «спустить» раз в пару-тройку лет 300$ на видеокарту — не значит жить на дошираке, даже для РФ, даже для провинции (кстати, на дошираке жить крайне невыгодно).
     
     
  • 5.114, Аноним (27), 05:22, 19/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > на дошираке жить крайне невыгодно

    На фриганство перешел? По контейнерам лазишь? Хмм... а стоит ли оно того, чтобы ради видеокарты так опускаться по социальной лестнице)

     
     
  • 6.117, Аноним (102), 12:15, 19/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Если вам из-за покупки видеокарты за триста баксов приходится лазить по контейнерам — с социальной лестницы падать уже некуда.
     

  • 1.31, mustai (ok), 13:53, 17/02/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    > монотонной (как в аудиокнигах)

    Такие аудиокниги невозможно долго слушать.

     
  • 1.44, Аноним (44), 15:19, 17/02/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Блин, а можно было хотя бы не такую тупую фразу составлять на семпле?
     
  • 1.47, Аноним (47), 16:16, 17/02/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    всё это кончиться : "Мама, ты позвонила и сказала если придёт дядя Петя - передать ему деньги..  дядя Петя   приходил  , я деньги передала . дядя просил передать тебе спасибо!"
     
  • 1.48, Ivan7 (ok), 16:20, 17/02/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Т.е. нам нужно минимум GPU RTX 4080 для работы в реальном времени, и при этом комп будет греться и шуметь как не в себя)) Т.е. надо ставить мини электростанцию рядом! Спасите планету!!!
     
     
  • 2.88, Андрей (??), 11:42, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    И что ? Аудиокниги начитывать и с задержкой можно
     
     
  • 3.99, Аноним (68), 14:48, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > Аудиокниги начитывать

    У вас для аудиокниг, а у кого-то для обмана доверчивых пожилых людей.

     
     
  • 4.115, Андрей (??), 08:26, 19/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    >> Аудиокниги начитывать
    > У вас для аудиокниг, а у кого-то для обмана доверчивых пожилых людей.

    Так и что - не будет этой штуки останутся другие тысяча и один способ "обмана пожилых людей". Тут уж извините, но тут ничем не помочь, кроме как разъяснительными беседами с пожилыми людьми и доведения до них информации о том, что нужно быть осторожными или вовсе убеждать в том, что нельзя поднимать звонки с незнакомых номеров и пр. Поэтому конечно крутые нейронки увеличивают риски, но с другой стороны я бы рекомендовал больше за LLMки беспокоится, ибо голос ещё нужно скопировать, а вот в ролевую LLMку уже сейчас можно вгрузить фотки и инфу из соц сетей, так, что она в "вайбере", "ватцапе" может дурить родственников, так, что с трудом получится отличить от оригинала, не переходя на совсем уж личные темы. Ну и в целом, опять же - чтобы не дурили по телефону, нужно просто на белые списки переходить, дабы у и без того "непонятно кого", даже возможности не было предложить каверзные услуги или обмануть как-то иначе.

     

  • 1.53, Аноним (53), 16:58, 17/02/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    > "Для работы рекомендуется наличие GPU NVIDIA как минимум серии 3000 с 6 Гб видеопамяти!"

    А как же владельцы карт от AMD?

     
     
  • 2.54, Аноним (54), 17:03, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • –3 +/
    Им для начала надо стать владельцами ВИДЕОКАРТЫ, а не Радеона.
     
     
  • 3.61, ЛщЛ (?), 18:03, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +4 +/
    > Им для начала надо стать владельцами ВИДЕОКАРТЫ, а не Радеона.

    А они и так самые настоящие владельцы видеокарт, а не комбаина для майнинга крипты и нейронок.

     
     
  • 4.109, огнемётные казни (?), 22:11, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Но ведь радеоны не игровые! Они для запуска этих ваших вейляндов. И то под вопросом.
     
  • 2.89, Андрей (??), 11:44, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Ну готовый докер образ разворачивает докеровский pytorch под cuda - под ocl/vulkan pytorch придётся разворачивать самому
     
  • 2.111, Аноним (111), 01:09, 19/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Переписывать под себя, естественно.
    cuda на амд будет никогда, так что ручками всё, ручками
     

  • 1.60, Аноним (62), 18:00, 17/02/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    "Для работы рекомендуется наличие GPU NVIDIA как минимум серии 3000 с 6 Гб видеопамяти."

    А чо, рыксы от AMD совсем в пролёте? А как жи рыксы опенсорснее и лучше под линуксами?

    Или опенсорс такой дружный, что не может договориться друг с другом?

     
     
  • 2.63, Аноним (63), 18:27, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Ну так ты попробуй разобраться. Потыкать по ссылочкам, увидеть torch, нагуглить, работает ли он с AMD ROCm
     

  • 1.70, Аноним (68), 19:57, 17/02/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Главное чтоб не вышло, когда что-то делают во благо или ради интереса, а потом это попадает в злые руки. В общем, опасная тенденция.
     
     
  • 2.79, Аноним (79), 01:37, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Уже попало, а почему это плохо?
     
  • 2.80, Аноним (80), 03:06, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • –4 +/
    Мне почему-то печально немного видеть такие комменты на wannabe-технарском сайте. Если тут такое происходит, то что ждать от простого населения, не жаждущего tech-stuff.

    Или это такая интервенция политиков в it. Со страхов сноса правительств, и старых схем управления они пошли строчить комменты нейросетками по всему интернету.

     
     
  • 3.96, Аноним (68), 14:41, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Если бы ты не был таким приземлённым и думал не только о ближайших месяцах, то понял бы, почему умные люди беспокоятся о будущем — о годах и даже десятилетиях.
     
  • 2.90, Андрей (??), 11:55, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Почти любую вещь можно использовать как во зло так и во благо - вопрос только меры и воспитания.
     
  • 2.110, огнемётные казни (?), 22:14, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Why so serious?
     

  • 1.74, Аноним (74), 22:24, 17/02/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Давайте угадаем с одного раза завезли ли русский язык
     
     
  • 2.76, Аноним (72), 22:56, 17/02/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Давайте угадаем с одного раза завезли ли русский язык

    Давайте будем читать дальше заголовка.

     
  • 2.77, Аноним (77), 01:26, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Кому он нужен?
     
  • 2.81, Аноним (80), 03:07, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Кто заказал, тому завезли.
     

  • 1.78, Аноним (79), 01:34, 18/02/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +4 +/
    Хорошо что таки "опасные" вещи выкладываются в паблик, ибо они разрушают штуки куда более опасные, например аутентификацию голосом.
     
     
  • 2.82, Аноним (80), 03:17, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • –3 +/
    Представляете, как можно сегодня влиять на общественное мнение подобными разработками. Раньше-то было это не так сложно всё устроить. Тем, у кого есть ресурсы, конечно.

    Идет всё ко "входу в интернет по паспорту", и "ограничению иностранного влияния в нашем сегменте"

     
     
  • 3.91, Дарт Линус (?), 12:00, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Какая-то у вас рекурсия.
     
  • 3.97, Аноним (68), 14:44, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > входу в интернет по паспорту

    И это правильно, так и должно быть. Это для твоего же блага, потому что слишком много свободы — это плохо, и если бы ты немного подумал, то сам бы всё понял.

     
  • 2.94, Аноним (94), 13:44, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Аутенртификация голосом вообще ужасная идея с точки зрения опсека, как и все биометрические формы в прочем, из которых голосом - худшая.
     
     
  • 3.112, prokoudine (ok), 02:33, 19/02/2025 [^] [^^] [^^^] [ответить]  
  • –2 +/
    Иные биометрические формы "взломать" можно только методом ректального криптоанализа. Что прекрасно работает и с другими формами аутентификации.
     

  • 1.85, Аноним (84), 04:44, 18/02/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Ну 30 секунд не показатель. 5+ лет назад уже представили сетку клонирующую голос за 5 секунд

    https://www.youtube.com/watch?v=0sR1rU3gLzQ

     
     
  • 2.92, Андрей (??), 12:01, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Там была более примитивная модель, которая выдавала качественный результат по сути только на черрипиках, а по сути только на удачном тексте и достаточно похожем на голоса из выборки, в противном случае получалось очень плохо. Собственно говоря это как был так и пока остаётся только хороший маркетинг, но на деле обобщающие способности моделей довольно так себе. Собственно в данном случае ведь не случайно подсовывают голос трампа в примерах, ровно как пару лет назад на конференции Путина тоже показывали перетюненый фейк, но что пять лет назад, что сейчас пока модели довольно средние. Единственное, что удивляет - это поющая suno, в ней реально генерятся довольно крутые вещи, в том числе с голосом.
     
  • 2.98, Аноним (68), 14:46, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Оно работало чуть более, чем никак. Так, просто пруф оф концепт.
     
  • 2.101, Аноним (101), 17:41, 18/02/2025 [^] [^^] [^^^] [ответить]  
  • +/
    В этих 5 секундах, ложечка дегтя. И там же в видео говорится, что они достигли этого за счёт "тонны" аудио образцов с речью людей.

    Если данная технология Zonos использует меньший объём тренировочных данных, но за счёт более умного алгоритма выруливает отсутствие такого же количества образцов, но она более передовая.

     

  • 1.116, Аноним (116), 09:39, 19/02/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Kokoro TTS звучит приятней, и работает практически на всём, ресурсов жрет минимум
     
  • 1.118, Аноним (118), 17:19, 19/02/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Ну все теперь не определишь бот тебе звонит или спамер. Спамер человек плохо, но это хотя бы человек. Бот может 24/7 этим заниматься.
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2025 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру