The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Новые модели для распознавания русской речи в библиотеке Vosk"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Новые модели для распознавания русской речи в библиотеке Vosk"  +/
Сообщение от opennews (?), 17-Ноя-21, 09:01 
Разработчики библиотеки Vosk опубликовали новые модели для распознавания русской речи: серверная vosk-model-ru-0.22 и мобильная Vosk-model-small-ru-0.22. В моделях используются новые речевые данные, а также новая нейро-сетевая архитектура, что позволило повысить точность распознавания на 10-20%. Код и данные распространяются под лицензией Apache 2.0...

Подробнее: https://www.opennet.dev/opennews/art.shtml?num=56171

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по времени | RSS]


1. "Новые модели для распознавания русской речи в библиотеке Vos..."  +7 +/
Сообщение от 73 (?), 17-Ноя-21, 09:01 
есть неплохой вариант для теста: CHIKI-BRIKI I V DAMKI
Ответить | Правка | Наверх | Cообщить модератору

16. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от _hide_ (ok), 17-Ноя-21, 11:36 
Да, простые команды на en-us разбирает (к примеру, Python тест, смутили только охи во второй фразе "nine oh two one oh"), русские... Ну очень тяжко и выборочно, даже очень простые.

Может у меня руки такие, пробовал на "примерах API".

Ответить | Правка | Наверх | Cообщить модератору

25. "Новые модели для распознавания русской речи в библиотеке Vos..."  +2 +/
Сообщение от _hide_ (ok), 17-Ноя-21, 12:09 
В общем, слово "минуту" в старой версии он распознавал как "да", а новой версии как "нет". Очень интересный результат.
Ответить | Правка | Наверх | Cообщить модератору

27. "Новые модели для распознавания русской речи в библиотеке Vos..."  +1 +/
Сообщение от 73 (?), 17-Ноя-21, 12:15 
бинарный я бы сказал)
Ответить | Правка | Наверх | Cообщить модератору

30. "Новые модели для распознавания русской речи в библиотеке Vos..."  +3 +/
Сообщение от _hide_ (ok), 17-Ноя-21, 12:49 
> бинарный я бы сказал)

Не, проблема была в неправильно указанном рейте потока (в примере 16кГц, а у них в русском тесте 8кГц). После исправления этой информации всё в идеальном порядке.

Ответить | Правка | Наверх | Cообщить модератору

41. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от nshmyrev (ok), 17-Ноя-21, 20:25 
> Да, простые команды на en-us разбирает (к примеру, Python тест, смутили только
> охи во второй фразе "nine oh two one oh"), русские... Ну
> очень тяжко и выборочно, даже очень простые.
> Может у меня руки такие, пробовал на "примерах API".

oh это слово для нуля по-английски

Ответить | Правка | К родителю #16 | Наверх | Cообщить модератору

2. "Новые модели для распознавания русской речи в библиотеке Vos..."  +3 +/
Сообщение от ryoken (ok), 17-Ноя-21, 09:09 
>>современный процессор

"Огласите весь список, пжалста..!"

Ответить | Правка | Наверх | Cообщить модератору

11. Скрыто модератором  –4 +/
Сообщение от QwertyReg (ok), 17-Ноя-21, 10:38 
Ответить | Правка | Наверх | Cообщить модератору

15. Скрыто модератором  +3 +/
Сообщение от 73 (?), 17-Ноя-21, 11:05 
Ответить | Правка | Наверх | Cообщить модератору

19. Скрыто модератором  +/
Сообщение от Аноним (19), 17-Ноя-21, 11:38 
Ответить | Правка | Наверх | Cообщить модератору

4. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от Аноним (4), 17-Ноя-21, 09:15 
От AMD Sempron 2650.
Ответить | Правка | Наверх | Cообщить модератору

5. "Новые модели для распознавания русской речи в библиотеке Vos..."  –1 +/
Сообщение от Пыхтачок (?), 17-Ноя-21, 09:28 
В портах FreeBSD имеется?
Ответить | Правка | Наверх | Cообщить модератору

8. "Новые модели для распознавания русской речи в библиотеке Vos..."  +1 +/
Сообщение от Аноним (8), 17-Ноя-21, 10:04 
> Мобильная модель может использоваться в телефонах

Пакет в F-Droid разработчики сделать поленились, конечно.

Ответить | Правка | Наверх | Cообщить модератору

10. "Новые модели для распознавания русской речи в библиотеке Vos..."  +3 +/
Сообщение от Аноним (10), 17-Ноя-21, 10:28 
Возьми и сделай.
Или лень, конечно?
Ответить | Правка | Наверх | Cообщить модератору

12. "Новые модели для распознавания русской речи в библиотеке Vos..."  +10 +/
Сообщение от nshmyrev (ok), 17-Ноя-21, 10:39 
В F-droid скоро будет. У них было требование, чтобы пакеты лежали в MavenCentral, две неделе назад переехали для этого на MavenCentral. Заявка есть уже:

https://gitlab.com/fdroid/fdroiddata/-/merge_requests/9657

https://github.com/Stypox/dicio-android

Ответить | Правка | К родителю #8 | Наверх | Cообщить модератору

32. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от gegggregg (?), 17-Ноя-21, 14:29 
День добрый, а можно ли этому Dicio подсунуть русские модели vosk? В readme не нашёл ((
Ответить | Правка | Наверх | Cообщить модератору

37. "Новые модели для распознавания русской речи в библиотеке Vos..."  +1 +/
Сообщение от nshmyrev (ok), 17-Ноя-21, 18:06 
Можно, но пока надо из исходников пересобирать. Скоро сделаем загрузку из приложения.
Ответить | Правка | Наверх | Cообщить модератору

17. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от Аноним (17), 17-Ноя-21, 11:36 
>Серверной модели для работы нужен современный процессор и 8Гб памяти.

Мда. А какова просадка качества по сравнению с "мобильной" моделью?

Ответить | Правка | Наверх | Cообщить модератору

20. "Новые модели для распознавания русской речи в библиотеке Vos..."  –1 +/
Сообщение от nshmyrev1 (?), 17-Ноя-21, 11:45 
>>Серверной модели для работы нужен современный процессор и 8Гб памяти.
> Мда. А какова просадка качества по сравнению с "мобильной" моделью?

В таблице с моделями есть цифры ошибок. Для колонок 11.89 процентов вместо 8.65.

Ответить | Правка | Наверх | Cообщить модератору

22. "Новые модели для распознавания русской речи в библиотеке Vos..."  +1 +/
Сообщение от Аноним (17), 17-Ноя-21, 12:02 
А что это за "проценты"? Проценты от чего? На сайте вообще написано, что это соотношение уровень ошибок/скорость. Опять же, всё зависит от единиц измерения. Пока что мне эти числа вообще ничего не говорят, кроме того, что "мобильная" модель чуть хуже на "колонках" чем "серверная", причём на "аудиокнигах" всё выглядит куда менне радужно, там вообще какие-то 30. 30 это что? Если модель делает 30 % ошибок, то её вообще нельзя использовать, проще руками транскрибировать, чем каждое третье слово переправлять. Ежели это ошибки/скорость, то всё вообще не понятно. Если это 30% от соотношения, делаемого худшей моделью, то возникает вопрос, сколько ошибок делает худшая модель на обычном тексте. Вообще мне срать на метрики, если я не могу использовать эти метрики чтобы понять, годится мне модель, или нет.
Ответить | Правка | Наверх | Cообщить модератору

42. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от nshmyrev (ok), 17-Ноя-21, 20:27 
> А что это за "проценты"? Проценты от чего?

Ошибки распознавания обычно считаются в процентах от числа слов в тестах.

На сайте вообще написано,
> что это соотношение уровень ошибок/скорость. Опять же, всё зависит от единиц
> измерения. Пока что мне эти числа вообще ничего не говорят, кроме
> того, что "мобильная" модель чуть хуже на "колонках" чем "серверная", причём
> на "аудиокнигах" всё выглядит куда менне радужно, там вообще какие-то 30.
> 30 это что? Если модель делает 30 % ошибок, то её
> вообще нельзя использовать, проще руками транскрибировать, чем каждое третье слово переправлять.

На чистых записях процент ближе к 10-15, что приемлемо. 30% обычно на очень шумных записях.

> Вообще мне срать на метрики, если
> я не могу использовать эти метрики чтобы понять, годится мне модель,
> или нет.

Тут только один вариант - попробовать самому.


Ответить | Правка | Наверх | Cообщить модератору

21. "Новые модели для распознавания русской речи в библиотеке Vos..."  +1 +/
Сообщение от _hide_ (ok), 17-Ноя-21, 11:48 
Я больше скажу, "серверной" модели нужно 8ГБ для работы, а для загрузки 12ГБ. Так что ООМ киллер у меня повеселился, пока не догадался лишнее позакрывать.
Ответить | Правка | К родителю #17 | Наверх | Cообщить модератору

18. "Новые модели для распознавания русской речи в библиотеке Vos..."  +3 +/
Сообщение от zzz (??), 17-Ноя-21, 11:38 
Мне нравится вот это :-)
> Новые данные, собранные в голосовых колонках, значительно улучшают распознавание речевых команд, произнесённых с расстояния.
Ответить | Правка | Наверх | Cообщить модератору

29. "Новые модели для распознавания русской речи в библиотеке Vos..."  +3 +/
Сообщение от john_erohin (?), 17-Ноя-21, 12:43 
> Мне нравится вот это :-)
>> Новые данные, собранные в голосовых колонках, значительно улучшают распознавание речевых команд, произнесённых с расстояния.

1) каких моделей колонок следует избегать, чтобы не работать
поставщиком голосовых данных забесплатно ?

2) как вдуть на голосовые колонки мусор (и какой именно мусор),
чтобы у них всю модель перекосило к чертям ?

Ответить | Правка | Наверх | Cообщить модератору

39. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от nshmyrev (ok), 17-Ноя-21, 20:22 
> каких моделей колонок следует избегать, чтобы не работать поставщиком голосовых данных забесплатно ?

Всех проприетарных. Можно открытые устройства использовать, вроде RPi4 с Воском и микрофонами Respeaker.

> вдуть на голосовые колонки мусор (и какой именно мусор), чтобы у них всю модель перекосило к чертям ?

Мусор фильтруется, особого смысла в нём нет. Можно скрытые данные какие-то посылать, правда, их использовать потом не просто.

Ответить | Правка | Наверх | Cообщить модератору

23. "Новые модели для распознавания русской речи в библиотеке Vos..."  +1 +/
Сообщение от john_erohin (?), 17-Ноя-21, 12:03 
1) интеграция с СОРМ-1 (не путать с СОРМ-2) есть ?

2) хорошо ли распознаются спецтермины: взрывчатка, оружие, убийство, ликвидация, конспирация, детонатор, инициатор, заряд, засада, снайпер ... и далее по списку: https://rense.com/general66/scgh.htm с поправкой на РФ специфику.

Ответить | Правка | Наверх | Cообщить модератору

24. "Новые модели для распознавания русской речи в библиотеке Vos..."  +1 +/
Сообщение от Аноним (17), 17-Ноя-21, 12:09 
У вас неактуальные ключевые слова. Актуальные - это "доллар", "евро", "биткоин", "эфир", "мессенджер", "пенсионный возраст", "Верзилов", "Быков", "Навальный", "Новичок".
Ответить | Правка | Наверх | Cообщить модератору

26. "Новые модели для распознавания русской речи в библиотеке Vos..."  +1 +/
Сообщение от john_erohin (?), 17-Ноя-21, 12:13 
1) или так.
2) классика вечна. и не "тералист", а "борец за свободу" !
Ответить | Правка | Наверх | Cообщить модератору

33. "Новые модели для распознавания русской речи в библиотеке Vos..."  +2 +/
Сообщение от rshadow (ok), 17-Ноя-21, 16:08 
1. Заходишь на сайт
2. Выполняешь инструкции Usage examples Python
3. Traceback ... ModuleNotFoundError: No module named 'vosk.vosk_cffi'


Типичная программа на питон

Ответить | Правка | Наверх | Cообщить модератору

34. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от Аноним (34), 17-Ноя-21, 16:36 
Вряд ли, скорее всего это твои типичные руки. Но cffi намекает на то, что там обёртка на питоне вместо питона, это довольно нестандартно.
Ответить | Правка | Наверх | Cообщить модератору

35. "Новые модели для распознавания русской речи в библиотеке Vos..."  +1 +/
Сообщение от rshadow (ok), 17-Ноя-21, 16:48 
ничуть не сомневался что прибежит какой-нибудь фанатик и будет рассказывать как я по инструкции все неправильно сделал, и что у меня все криво и вообще я сам должен все отладить и допилить напильником
Ответить | Правка | Наверх | Cообщить модератору

36. "Новые модели для распознавания русской речи в библиотеке Vos..."  –1 +/
Сообщение от Аноним (34), 17-Ноя-21, 17:09 
Не знаю как насчёт фанатиков, а то что ты 1 вызов cffi назвал типичной программой на питоне уже многое сообщает окружающим о твоей квалификации.
Ответить | Правка | Наверх | Cообщить модератору

38. "Новые модели для распознавания русской речи в библиотеке Vos..."  +1 +/
Сообщение от Аноним (38), 17-Ноя-21, 19:52 
Или он в курсе и квалифицирован, а инструкция гавно?
Ответить | Правка | Наверх | Cообщить модератору

43. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от Аноним (34), 17-Ноя-21, 21:04 
Вряд ли, ведь он приплёл питон и сморозил глупость, а не просто поныл на тему низкого качества опенсорса.
Ответить | Правка | Наверх | Cообщить модератору

45. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от _hide_ (ok), 18-Ноя-21, 11:51 
О чем Вы? Я никаких инструкций не читал, получил ответ "нет модуля такого-то", поставил (через pip3) и дальше проверил.
В чем вопрос? Если Вам ссылку на github дают Вы удивляетесь, что Вам нужен браузер/git client? Или опять ничего не понял?
Ответить | Правка | Наверх | Cообщить модератору

47. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от Аноним (34), 18-Ноя-21, 13:20 
А если сабж просто из pypi накатить? В ридми нет ничего про это, но на сайте есть инструкция. Это называется низкое качество документации. По сайтам никто ходить не будет, и при этом им нужно всех прозондировать телеметрией, посчитать и записать. Ради этого они требуют посещения своего левого сайта.
Ответить | Правка | Наверх | Cообщить модератору

48. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от _hide_ (ok), 18-Ноя-21, 20:47 
Если бы у бабушки было бы pypi, то она бы была бы дедушкой. Если Вы хотите того, чего Вы не понимаете -- это лично Ваши проблемы. Я не защищаю авторов, просто не понимаю позицию хейтера.
Ответить | Правка | Наверх | Cообщить модератору

49. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от nshmyrev (ok), 18-Ноя-21, 20:49 
> А если сабж просто из pypi накатить? В ридми нет ничего про
> это, но на сайте есть инструкция. Это называется низкое качество документации.
> По сайтам никто ходить не будет, и при этом им нужно
> всех прозондировать телеметрией, посчитать и записать. Ради этого они требуют посещения
> своего левого сайта.

В ридми на гитхабе бесполезно что-то писать, гитхаб гуглом не индексируется (специально это или нет, не знаю). Поэтому процветают всякие мусорные клоны гитхаба вроде fastgit.

Ответить | Правка | К родителю #47 | Наверх | Cообщить модератору

50. "Новые модели для распознавания русской речи в библиотеке Vos..."  +1 +/
Сообщение от Аноним (34), 18-Ноя-21, 20:55 
Т.е, вы полагаете, что разработчик, скопировавший себе репу (или читающий код на гитхабе), пойдёт гуглить how to install project name, вместо того, чтобы открыть текстовый файл INSTALL (в котором перечислены зависимости и процесс сборки/установки)?
Ответить | Правка | Наверх | Cообщить модератору

51. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от nshmyrev (ok), 18-Ноя-21, 21:49 
> Т.е, вы полагаете, что разработчик, скопировавший себе репу (или читающий код на
> гитхабе), пойдёт гуглить how to install project name, вместо того, чтобы
> открыть текстовый файл INSTALL (в котором перечислены зависимости и процесс сборки/установки)?

Да, так большинство "разработчиков" и делают.

Ответить | Правка | Наверх | Cообщить модератору

40. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от nshmyrev (ok), 17-Ноя-21, 20:23 
Для анализа проблемы хорошо было бы увидеть:

1. Версию OS (не Alpine какой-нибудь?)
2. Версию Python
3. Полный вывод из терминала со списком файлов в текущем каталоге.

Ответить | Правка | К родителю #33 | Наверх | Cообщить модератору

44. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от Аноним (44), 18-Ноя-21, 09:11 
А агрессивно прунить серверную модель пытались? Если lucky ticket hypothesis верна (а всё указывает, что верна), и если не пытались, есть шанс, что она сильно уменьшится.
Ответить | Правка | Наверх | Cообщить модератору

46. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от nshmyrev (ok), 18-Ноя-21, 11:54 
> А агрессивно прунить серверную модель пытались? Если lucky ticket hypothesis верна (а
> всё указывает, что верна), и если не пытались, есть шанс, что
> она сильно уменьшится.

Это в процессе. Рабочих рук не хватает на все идеи, как всегда.

Ответить | Правка | Наверх | Cообщить модератору

52. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от lockywolf (ok), 19-Ноя-21, 04:17 
Совместимость со speech-dispatcher, espeak, и всем таким, имеется? В качестве бэкенда к CMU Sphinx его можно подключить?
Ответить | Правка | Наверх | Cообщить модератору

53. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от nshmyrev (ok), 19-Ноя-21, 11:56 
> Совместимость со speech-dispatcher, espeak, и всем таким, имеется?

нет, они же для синтеза, а не для распознавания.

> В качестве бэкенда к CMU Sphinx его можно подключить?

нет, тоже особой необходимости в этом нет.

Ответить | Правка | Наверх | Cообщить модератору

58. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от lockywolf (ok), 21-Ноя-21, 06:24 
> нет, они же для синтеза, а не для распознавания.

Да, это я проспал, конечно,

>> В качестве бэкенда к CMU Sphinx его можно подключить?
> нет, тоже особой необходимости в этом нет.

А это вот странно. Многие годы Сфинкс был стандартным движком распознавания голоса для Linux.

Ответить | Правка | Наверх | Cообщить модератору

54. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от Shuraemail (??), 20-Ноя-21, 14:23 
Попробовал на английском. Какое же убожество, приходится по 10 раз повторять, чтобы он хоть что-то понял.
Не пойму, почему не сделать распознавание по словарю, ведь точность была бы выше.
Ответить | Правка | Наверх | Cообщить модератору

55. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от nshmyrev (ok), 20-Ноя-21, 14:32 
> Попробовал на английском. Какое же убожество, приходится по 10 раз повторять, чтобы
> он хоть что-то понял.
> Не пойму, почему не сделать распознавание по словарю, ведь точность была бы
> выше.

Распознавание ведётся по словарю. По поводу точности распознавания, мы собираем записи для анализа, можете прислать образец, посмотрим, что там.

Ответить | Правка | Наверх | Cообщить модератору

56. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от Shuraemail (??), 20-Ноя-21, 19:45 
Может словарь слишком велик. Там при установке стоят 4 скилла. Каждый скилл активируется своим набором команд, но распознавание распознаёт вообще любые слова, хотя по логике как стартовое слово должен распознавать только те, которые заданы в скиллах. Вот это странно.
Ну может конечно у меня произношение на английском не очень.

P.S. Нашёл какой-то родственный что ли проект https://github.com/alphacep/kaldi-android-demo/releases/down... так вот там на русском всё отлично. Как бы его вот сюда прикрутить?

Ответить | Правка | Наверх | Cообщить модератору

57. "Новые модели для распознавания русской речи в библиотеке Vos..."  +/
Сообщение от Shuraemail (??), 20-Ноя-21, 19:56 
А, блин, я коммент не сюда добавил. Пробовал-то я приложение dicio
Ответить | Правка | К родителю #55 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру