Опубликована AI-модель ChatTTS для синтеза речи

29.05.2024 14:48 (MSK)

Проект ChatTTS опубликовал модель и связанный с ней инструментарий машинного обучения для синтеза эмоциональной речи. Проект ChatTTS специально оптимизирован для использования в диалоговых системах, таких как интерактивные помощники, и нацелен на воспроизведение свойств естественного эмоционального общения. Поддерживается взаимодействие с несколькими говорящими и построение интерактивного диалога. Корректно отслеживаются и воспроизводятся при синтезе просодические элементы, такие как смех, паузы и междометия.

При тренировке модели использовано около 40 тысяч часов речевых записей (в не публичном варианте модели - 100 тысяч часов). По заявлению разработчиков по своим возможностям формирования интонаций модель превосходит все ранее доступные открытые модели синтеза речи. Для управления эмоциями при синтезе пока поддерживается только подстановка токенов, например, "[laugh]" для смеха. Для генерации 30-секундной записи требуется GPU с 4 ГБ памяти. На GPU NVIDIA GeForce RTX 4090D скорость генерации составляет приблизительно 7 семантических токенов в секунду. Поддерживается синтез женским и мужским голосом на английском и китайском языках (для русского языка можно рекомендовать фреймворк TTS и модель XTTS-v2, которые кроме синтеза поддерживают клонирование голоса по короткой записи речи, в том числе для синтеза на другом языке).

Модель ChatTTS опубликована под лицензией CC BY-NC-ND 4.0 (Creative Commons Attribution-NonCommercial-NoDerivatives 4.0), допускающей свободное распространение при указании автора, но запрещающей создание производных работ и использование в коммерческих проектах. Кроме того, для защиты от использования модели для совершения мошеннических и криминальных действий при обучении модели использована подстановка высокочастотного шума и задействован максимальный уровень сжатия звука, используя формат MP3.

исправить +15 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/61265-chattts

Ключевые слова: chattts, tts, voice

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (47)

1.2, Аноним (2), 15:18, 29/05/2024 [ответить] [﹢﹢﹢] [ · · · ]	+2 +/–
А можно синтезировать синтезатор Стивена Хокинга с его помощью?

1.3, Tron is Whistling (?), 15:24, 29/05/2024 [ответить] [﹢﹢﹢] [ · · · ]	+11 +/–
> для защиты от использования модели для совершения мошеннических и криминальных действий при обучении модели использована подстановка высокочастотного шума и задействован максимальный уровень сжатия звука Короче сама модель даёт на выходе Г, но вы это, слушайте свист с бульканьем, и наслаждайтесь "возможностями" "AI".

2.5, Аноним (-), 15:31, 29/05/2024 [^] [^^] [^^^] [ответить]	+/–
Держу пари, что только в бесплатной версии.

2.12, Женя Вертолёт (?), 17:54, 29/05/2024 [^] [^^] [^^^] [ответить]	+4 +/–
Вообще нездоровая тенденция. Почему кто-то ограничивает одних, ради того, чтобы огородить других? Это примерно из той же оперы, когда государство лезет к тебе на кухню и отнимает ножи, веди ими зарэзать можно.

3.17, Аноним (-), 18:35, 29/05/2024 [^] [^^] [^^^] [ответить]

–1 +/–

> Вообще нездоровая тенденция. Почему кто-то ограничивает одних, ради того, чтобы огородить других?

О, ты не представляешь как я благодарен государству, за то что оно огораживает отбойниками меня от всяких нехороших людей, которые по встречке прутся.
И вокруг остановок столбики от пакрующихся чудаков.
Еще бы что-то с бухими самокатчиками сделать и вообще будет ништяк!

4.25, Аноним (25), 21:06, 29/05/2024 [^] [^^] [^^^] [ответить]	+4 +/–
Вот когда их огородят на столько что ограда вокруг тебя сомкнется - вот тогда-то ты запоешь по другому..

5.42, Аноним (42), 23:57, 29/05/2024 [^] [^^] [^^^] [ответить]

+/–

тех кого государство не отгородило от придурков на встречной уже не запоют вааще никак...
а у него есть шанс проверить твое нелепое предположение...

6.45, нейм (?), 07:57, 30/05/2024 [^] [^^] [^^^] [ответить]	+/–
нет, ну технически, у них сейчас тоже оградка есть и практическм сомкнутая

4.43, Аноним (43), 02:10, 30/05/2024 [^] [^^] [^^^] [ответить]	+1 +/–
Если бы государство не ограничивала тебя от решения своих проблем, то нехороших людей на встречке, паркующихся чудаков, бухих самокатчиков было бы сильно меньше и жили бы они не долго. Но т.к. максимум что ты можешь с ними сделать это смириться, то страдай и плати налоги, может часть из них пойдёт на отбойники и столбики.

4.56, Аноним (-), 17:08, 31/05/2024 [^] [^^] [^^^] [ответить]	+/–
> Еще бы что-то с бухими самокатчиками сделать и вообще будет ништяк! Можно просто тебя в тюрьму посадить. Заранее. Сразу столько проблем одним махом! И с отбойниками, и с столбиками, и самокаты там не ездят. Красота.

1.4, Tron is Whistling (?), 15:31, 29/05/2024 [ответить] [﹢﹢﹢] [ · · · ]	+/–
И да, сторонники альтернативной теории информации - ну что, отделите шум от плевел в данном вопросе? Если бы было так легко - всё бы было легко и просто.

2.6, Аноним (6), 15:50, 29/05/2024 [^] [^^] [^^^] [ответить]	+1 +/–
А что это ещё за альтернативная теория информации?

3.10, n00by (ok), 17:50, 29/05/2024 [^] [^^] [^^^] [ответить]	–2 +/–
Это где T9 называют "ИИ".

4.15, Аноним (15), 18:29, 29/05/2024 [^] [^^] [^^^] [ответить]	+/–
вот только это уже давно и близко не t9, внутри там все очень сложно

5.24, Аноним (24), 20:36, 29/05/2024 [^] [^^] [^^^] [ответить]	+/–
Ничего сложного там и в помине нету...

3.22, Tron is Whistling (?), 18:59, 29/05/2024 [^] [^^] [^^^] [ответить]	+/–
> А что это ещё за альтернативная теория информации? Это где чтобы шум, превышающий уровень полезного сигнала, отделить, надо набрать чуть-чуть рандомной статистики. Обычно эксперды в безопастности.

4.33, Аноним (33), 22:00, 29/05/2024 [^] [^^] [^^^] [ответить]	+/–
Эксперды в __теории__ безопасности, важно учесть.

5.35, Tron is Whistling (?), 22:06, 29/05/2024 [^] [^^] [^^^] [ответить]	+/–
В практике, думаю, выйдут не хуже ;)

2.11, Женя Вертолёт (?), 17:52, 29/05/2024 [^] [^^] [^^^] [ответить]	+/–
Ты сам то понял что написал?!

1.7, Аноним (7), 16:12, 29/05/2024 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
> для русского языка можно рекомендовать фреймворк TTS и модель XTTS-v2, которые кроме синтеза поддерживают клонирование голоса по короткой записи речи, в том числе для синтеза на другом языке Нет, лучше уж модель TTS от OpenAI. Она хоть и проприетарная, и с американским акцентом говорит, но результат больше похож на русскую речь, чем этот синтезатор, который даже числительные не может нормально озвучить.

2.19, Аноним (-), 18:46, 29/05/2024 [^] [^^] [^^^] [ответить]	+3 +/–
> Нет, лучше уж модель TTS от OpenAI. Она хоть и проприетарная, и с американским > акцентом говорит, но результат больше похож на русскую речь, чем этот синтезатор, > который даже числительные не может нормально озвучить. Если что, "CC BY-NC-ND 4.0 (Creative Commons Attribution-NonCommercial-NoDerivatives 4.0)" не сильно далеко от проприетарных лицензий ушел.

1.8, Аноним (8), 17:01, 29/05/2024 [ответить] [﹢﹢﹢] [ · · · ]	+2 +/–
Microsoft Agent и Ivona как-то же работают без RTX4090.

1.9, Женя Вертолёт (?), 17:46, 29/05/2024 [ответить] [﹢﹢﹢] [ · · · ]	+2 +/–
Где это можно попробовать онлайн?

1.13, Женя Вертолёт (?), 17:57, 29/05/2024 [ответить] [﹢﹢﹢] [ · · · ]	+3 +/–
> Кроме того, для защиты от использования модели для совершения мошеннических и криминальных действий при обучении модели использована подстановка высокочастотного шума и задействован максимальный уровень сжатия звука, используя формат MP3. А если я хочу использовать это для озвучки видосиков на ютуб? Нафига вообще эта модель тогда нужна, если из неё нельзя извлечь никакого практического толка?

2.39, Аноним (25), 22:58, 29/05/2024 [^] [^^] [^^^] [ответить]	–2 +/–
переводи в wav. выводи синтез на колонки и снимай с них микрофоном

1.14, InuYasha (??), 18:13, 29/05/2024 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
> Для генерации 30-секундной записи требуется GPU с 4 ГБ памяти. На GPU NVIDIA GeForce RTX 4090D скорость генерации составляет приблизительно 7 семантических токенов в секунду. Вот же ж блин! И как я только живу со своим espeak, который кушает КИЛОбайты и о GPU никогда и не слыхал?..

2.23, Аноним (23), 20:18, 29/05/2024 [^] [^^] [^^^] [ответить]

+/–

> Вот же ж блин! И как я только живу со своим espeak,
> который кушает КИЛОбайты и о GPU никогда и не слыхал?..

Еще и не булькает поди как вон то. Экий ты читер!

2.28, Аноним (28), 21:26, 29/05/2024 [^] [^^] [^^^] [ответить]	+/–
Послушал. Поржал. По-моему, даже SAM естественнее звучит.

2.41, nshmyrev (ok), 23:41, 29/05/2024 [^] [^^] [^^^] [ответить]	+/–
Попробуйте https://github.com/alphacep/vosk-tts. Качество выше, скорость высокая. На CPU 0.06xRT

3.46, InuYasha (??), 11:26, 30/05/2024 [^] [^^] [^^^] [ответить]	+/–
> Languages Python 99.9% Нет, спасибо, не надо. Минимизирую зависимости.

1.26, Аноним (26), 21:16, 29/05/2024 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Когда они наконец сделают рилтайм замену голоса. Я давно хочу попробовать под гитару попеть голосом челентано, или бейонсе, или... ну короче не своим отстойным голосом, а заипадым вокалом.

2.38, Аноним (25), 22:34, 29/05/2024 [^] [^^] [^^^] [ответить]	+/–
RVC

2.40, nshmyrev (ok), 23:39, 29/05/2024 [^] [^^] [^^^] [ответить]	+/–
Скорее на основе RVC https://github.com/w-okada/voice-changer

2.53, Аноним (53), 16:40, 30/05/2024 [^] [^^] [^^^] [ответить]	+1 +/–
Так голос поменять не проблема, проблема в вокале. Если петь ты не умеешь то меняй хоть на голос шакиры - будешь голосом шакиры, но так же как и раньше хреново петь.

1.27, Геймер (?), 21:23, 29/05/2024 [ответить] [﹢﹢﹢] [ · · · ]	–2 +/–
Юниксвей для нейросеток. Нейросетка должна делать что-то одно и делать это хорошо, и весить не более 50 мегабайт. ChatTTS всё таки ещё не юниксвей. Но может им быть.

2.29, Аноним (28), 21:29, 29/05/2024 [^] [^^] [^^^] [ответить]	–1 +/–
> и весить не более 50 мегабайт. А лучше 50 килобайт, чтобы прямо в PDP-7 влазила. Вот тогда точно юниксвей будет.

3.30, Геймер (?), 21:38, 29/05/2024 [^] [^^] [^^^] [ответить]	–1 +/–
"640 КБ должно хватить для любых задач"

3.31, Геймер (?), 21:42, 29/05/2024 [^] [^^] [^^^] [ответить]	–3 +/–
Если нейросеть заточена под только одну функцию и при этом может работать вместе с другими нейрсетями, используя универсальный текстовой интерфейс, то её объём не будет стремиться к бесконечности.

3.48, _kp (ok), 12:57, 30/05/2024 [^] [^^] [^^^] [ответить]	+/–
Минимальный TTS на Spectrum влазил в 0.7 кБ! Качество соответсвующее, но размер, точнее его отсутствие, все равно впечатляет.

4.49, Аноним (28), 13:11, 30/05/2024 [^] [^^] [^^^] [ответить]	+/–
Предпочитаю впечатляться качеством, а не размером, всё-таки не времена спектрумов.

5.50, _kp (ok), 13:44, 30/05/2024 [^] [^^] [^^^] [ответить]	+/–
Про качество логично. Но, если у ПО совсем непомерные требования к железу, то пахнет плохим проектированием, а то и JS/Pytnon. Подобное ПО с качеством можно использовать для наговаривания книг, генерации озвучки, но между делом в фоне работать подобному ПО тяжеловато.

6.51, Аноним (28), 14:45, 30/05/2024 [^] [^^] [^^^] [ответить]	+/–
Требования-то, конечно, да, но размер модели меня не напрягает. ≈Гигабайт локально, если будет _нормальный_ голос — это ни о чём.

7.52, _kp (ok), 15:17, 30/05/2024 [^] [^^] [^^^] [ответить]

+/–

Проблема не в ги6абайтах, что дешево, в том что для генерации на лету надо ещё и толстую видеокарту, которая не будет выводить видео, а займется синтезом речи.

А в сотни мегабайт уже влазит база с полностью нароворененными фразами, с интонацией и правильным произношением, и далее работает не требуя ресурсов, хоть на игрушечном esp32.
А вот как такая база готовится, то секрет, ибо делать "в лоб" долго. А для её генерации подобный движок уже более чем уместен, с любыми его требованиями.

8.54, Аноним (28), 10:10, 31/05/2024 [^] [^^] [^^^] [ответить]	+1 +/–
Ветка началась с мерянья пиписьками, у кого меньше А так-то проблема всех нейро... текст свёрнут, показать

1.47, InuYasha (??), 11:30, 30/05/2024 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Кстати, а никто не знает, какой MLG voice использовали Pendulum в своём эпичном Blood Sugar? :) It's drum and bass - what you gonna do?

1.55, rvs2016 (ok), 10:23, 31/05/2024 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Из описания не понял - можно ли эту "модель" использовать где-то у себя и какой пакадж для этого установить надо?

1.57, Аноним (57), 19:40, 31/05/2024 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Если почитать сабж в Гите то оно обучалось на китайском и английском языках. Поэтому основное применение его именно там. Хотеть от нее хорошего русского... Ну такое...

игнорирование участников | лог модерирования

Добавить комментарий

Текст: