The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Опубликована открытая AI-модель hertz-dev для полнодуплексного голосового общения

04.11.2024 13:01

Компания Standard Intelligence объявила о публикации hertz-dev, первой открытой AI-модели для синтеза речи в полнодуплексном режиме, которая может использоваться в качестве основы для создания систем голосового общения в реальном времени или генерации разговорной речи. Модель позволяет генерировать речь, близкую к голосовым данным, на которых она обучена, и обеспечивая взаимодействие в стиле живого человеческого общения без задержек, напоминающих прерывистый телефонный разговор. Наработки проекта распространяются под лицензией Apache 2.0.

На системе с GPU NVIDIA GeForce RTX 4090 средняя задержка перед генерацией составляет 120 мс (теоретически до 65 мс), что примерно в два раза быстрее, чем у имеющихся в открытом доступе существующих моделей. Опубликованный вариант построен с использованием архитектуры "трансформер", охватывает 8.5 миллиардов параметров и обучен c использованием 500 миллиардов токенов. Размер учитываемого моделью контекста (число токенов, которые модель может обработать и запомнить при генерации речи) составляет 2048 токенов или примерно 4 минуты речи.

  1. Главная ссылка к новости (https://si.inc/hertz-dev/...)
  2. OpenNews: Опубликована AI-модель ChatTTS для синтеза речи
  3. OpenNews: Новый выпуск системы синтеза речи Silero
  4. OpenNews: Открыт код Spleeter, системы для разделения музыки и голоса
  5. OpenNews: Выпуск синтезатора речи RHVoice 1.8.0
  6. OpenNews: Система машинного обучения Stable Diffusion адаптирована для синтеза музыки
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/62170-hertz-dev
Ключевые слова: hertz-dev, ai, tts
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (37) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (1), 13:16, 04/11/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Странно, что в примере такое мощное оборудование. Кто-то будет покупать RTX 4090 только для того, чтобы с нейросетью общаться голосом? (А ещё нужно оборудование под нейросеть с которой происходит общение).
    Мне кажется, основное целевое оборудование подобных нейросетей это смартфоны
     
     
  • 2.2, Аноним (2), 13:21, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Теперь хоть не стыдно покупать RTX 4090 - "Это для... общения с нейросетями! Какие там игори..."
     
     
  • 3.8, Аноним (8), 13:51, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Какое у него КПД денег? Вот, поэтому и стыдно.
     
     
  • 4.15, Аноним (15), 14:20, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Среди не специализированных ускорителей лучшее. Та же 4070 для им уже не подходит от слова ваше совсем.
     
  • 2.10, Аноним (10), 14:05, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +8 +/
    > такое мощное оборудование

    RTX 4090 -- далеко не мощное оборудование, когда речь про нейросети. Для игор -- мощное. Для нейронок -- это игрушечный набор доктора для ребенка дошкольного возраста. Посуди сам: 24 гига видеопамяти. Это совершенно ни о чем. Например, в 24 гига влезут лишь некоторые из общедоступных локально-запускаемых LLM.

     
     
  • 3.11, Аноним (11), 14:15, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +/
    https://www.youtube.com/watch?v=RjRQ1DYnuJA
     
  • 3.12, Аноним (15), 14:16, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Ещё Биль Гейтс говорил две 4090 хвататит всем.
     
     
  • 4.18, Аноним (18), 15:11, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +/
    ага,
    а Муртазин говорил что самсунг не откажется от комплектной зарядки.
    ты действительно веришь всему, что пишется в интернете?
     
     
  • 5.19, Аноним (15), 15:14, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Муртазин и айпад называл разъевшейся фоторамкой. Которая никому не нужна. Муртазин это вообще аналитика уровня Первый канал.  
     
  • 3.17, Аноним (17), 14:54, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +/
    В Ryzen APU до 96 гб оперативы можно выделить под GPU. Хватит?
     
     
  • 4.32, Аноним (32), 16:58, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Хватит?

    Нет конечно.

     
  • 3.47, crandel (ok), 23:11, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Свободно запускаю на интеле 11 поколения и 16 гиг рамы llama3.2 и gemma2 модели. Вполне подходит для всего, что нужно
     
  • 2.21, Жорик (??), 15:26, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Она сможет вместо меня в конфе разговаривать?
     
     
  • 3.46, YetAnotherOnanym (ok), 22:49, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Ну я же здесь могу.
     
  • 2.36, Сижу на дебиан с крысой (?), 17:03, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Так это же оупенсорс. Просто нужно подождать пока какой-нибудь гугель сделает форк и загонит всё это дело в облако по подписке. Вот тогда хоть со смартфона, хоть с 4 пня.
     
  • 2.39, погроммист (?), 17:41, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Кто-то будет покупать RTX 4090 только для того, чтобы с нейросетью общаться голосом?

    Ещё как будут! Рабочий час человека выйдет дороже, а рабочих мест всяких продажников-обзвонщиков миллион.

     
  • 2.52, Я (??), 04:37, 05/11/2024 [^] [^^] [^^^] [ответить]  
  • +/
    для таких систем это ещё весьма слабое и дешёвое оборудование.. обычно там всё на кластерах побольше крутится
     

  • 1.3, Аноним (3), 13:25, 04/11/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +7 +/
    скоро (или уже) в ТП всех крупных компаний...
     
  • 1.4, Аноним (4), 13:34, 04/11/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Ну все телефонные мошенники, держитесь.
     
     
  • 2.20, Аноним (15), 15:16, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Мощенники с помощью ИИ звонит жертве, а там тоже ИИ. Причём та же самая.
     

  • 1.5, бух. (?), 13:44, 04/11/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Почему корпы так любят апач 2?
     
     
  • 2.37, Сижу на дебиан с крысой (?), 17:06, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Потому что just works.
     

  • 1.6, Аноним (8), 13:49, 04/11/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • –3 +/
    Очередная попытка запланированного устаревания.
     
  • 1.7, Аноним (11), 13:50, 04/11/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    >в стиле живого человеческого общения

    Почему то сразу думаешь, про то, кто будет это использовать...
    Риски описаны:
    https://en.wikipedia.org/wiki/Artificial_Intelligence_Act

     
  • 1.9, Аноним (9), 13:58, 04/11/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Человек редко отвечает на вопрос за 65мс, так что допустимо и секунда и две
     
  • 1.22, 12yoexpert (ok), 15:48, 04/11/2024 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ]     [к модератору]
  • –6 +/
     

  • 1.25, Ося Бендер (?), 16:11, 04/11/2024 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ]     [к модератору]
  • +/
     
  • 1.43, ano (??), 21:12, 04/11/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    ужос. в приведённом в пример аудио файле - 20% воды, 40% пауз и эканий-мэканий, 20% поддакиваний, 20% ошибок, и никакой сути.
     
     
  • 2.44, чатжпт (?), 22:09, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    прямо как разговор со среднестатистическим человеком
     
  • 2.45, Full Master (?), 22:19, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Значит на 99% соответствует речи среднестатистического нормиса.
     
     
  • 3.48, 12yoexpert (ok), 23:19, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • –1 +/
    ^^^ живое подтверждение
     

  • 1.49, Аноним (49), 03:18, 05/11/2024 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ]     [к модератору]
  • +/
     
  • 1.50, Ананоним (?), 03:51, 05/11/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Люди часто между собой не делают разговаривать, кому нужны будут эти говорящие роботы-болваны?
     
  • 1.51, Аноним (51), 04:26, 05/11/2024 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ]     [к модератору]
  • +/
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру