The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Facebook открыл систему распознавания речи Wav2Letter

01.01.2018 10:31

Facebook опубликовал проект Wav2Letter, в котором открыл наработки, связанные с распознаванием речи, созданные в лаборатории искусственного интеллекта Facebook AI Research. Wav2Letter сочетает простоту и высокую эффективность преобразования речи в текст. Код оформлен в виде модулей к библиотеке глубинного машинного обучения Torch, написанных на языке Lua и распространяемых под лицензией BSD. Для обработки звука применяется библиотека Libsndfile, а для цифровой обработки сигналов при помощи дискретного преобразования Фурье - FFTW. Поставляются готовые натренированные модели для английского языка.

Опубликованный код содержит реализацию архитектуры, основанной на использовании акустической модели и графа декодирования, созданных при помощи системы машинного обучения на базе свёрточной нейронной сети. Система использует посимвольный метод разбора, не требующий предварительного разделения фонем при проведении машинного обучения. В Wav2Letter применяется техника автоматического сегментирования, которая позволяет обучить систему на основе записи звука и текстовой транскрипции, без дополнительных аннотаций.

Для работы декодировщика требуется только список слов и языковая модель - весовые характеристики букв выделяются из акустической модели, без необходимости подключения словарей фонетической лексики. Для ускорения проведения обучения поддерживается задействование GPU NVIDIA (CUDA) или кластерных систем (OpenMPI и TorchMPI).

При проверке на тестовом наборе LibriSpeech система показала одни из лучших результатов по уровню ошибок при разборе как чистой (уровень ошибок 4.8%), так и запутанной (уровень ошибок 14.5%) речи. Для сравнения, уровень ошибок при распознавании человеком оценивается в 5.83%, а уровень ошибок при работе Mozilla Voice составляет 6.5%, Google Speech - 6.64%, wit.ai - 7.94%, Bing Speech - 11.73%, Apple Dictation - 14.24%.

  1. Главная ссылка к новости (https://github.com/facebookres...)
  2. OpenNews: Проект Mozilla выпустил открытую систему распознавания речи
  3. OpenNews: Тестовый выпуск свободной системы распознавания речи Simon 0.4.80
  4. OpenNews: Инициатива по созданию полнофункциональной свободной системы распознавания речи
  5. OpenNews: Представлен первый релиз свободного синтезатора речи Gnuspeech
  6. OpenNews: Представлена техника воссоздания речи по вибрации предметов на видеозаписи
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/47842-voice
Ключевые слова: voice, speach, facebook
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (40) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (-), 10:40, 01/01/2018 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Прикольно. Как раз искал нечто подобное для умного дома. Попробую.
     
     
  • 2.3, Аноним (-), 11:03, 01/01/2018 [^] [^^] [^^^] [ответить]  
  • +2 +/
    "в виде модулей к библиотеке глубинного машинного обучения Torch"
    Мне кажется, что Torch будет тяжеловат для запуска на какой-то-фрукт-Pi, а ставить для умного дома отдельный сервер с GPU - как то не очень.
     
     
  • 3.31, Crazy Alex (ok), 16:39, 01/01/2018 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Ну, между фруктой и большим сервером ного чего в промежутке есть... А что, для самого распознавания там тоже куча ресурсов нужна? Или только для обучения нейросетки? Если второе, то на это десктоп может сгодиться или арендованное железо
     
  • 3.52, rshadow (ok), 02:47, 02/01/2018 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > ставить для умного дома отдельный сервер с GPU - как то не очень.

    Да норм. Можно будет играть на нем с любого тапка. В том же стиме есть трансляция. А пока не играешь, будет майнить =)

     
     
  • 4.65, Аноним (-), 19:03, 02/01/2018 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Ага и вопрос с отоплением сразу пропадает)
     

  • 1.2, A.Stahl (ok), 10:42, 01/01/2018 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    Ну казалось бы -- всё хорошо. Лучше, чище, быстрее... Но нет, Шталь всегда найдёт о чём побурчать -- готов поспорить, что скоро какой-то маргинальный дизайнер интерфейсов (из Эппл например, их пользователи что угодно готовы жрать лишь бы нужный логотип был на месте) скажет -- дисплеи/клавиатуры на мелких устройствах -- не модно, не стильно и совсем не молодёжно.
    И всё. Случится... Нет, я не возьмусь описывать эпичность перспектив. И не потому что не осилю. Просто противно.
     
     
  • 2.46, ф (?), 20:57, 01/01/2018 [^] [^^] [^^^] [ответить]  
  • –3 +/
    не шталь, а стахл
     
  • 2.47, Аноним (-), 21:12, 01/01/2018 [^] [^^] [^^^] [ответить]  
  • –5 +/
    А Шталь-то не настоящий!!
     

  • 1.4, Ю.Т. (?), 11:49, 01/01/2018 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Уважаемая редакция,
    вот это: "Для ускорения проведения обучения..." (и далее по тексту)
    правильнее формулировать так:
    "...использование параллельных систем с общей памятью (...называются тулкиты NVIDIA...) и с передачей сообщений (...называются среды MPI...)"
     
     
  • 2.23, Аноним (-), 14:39, 01/01/2018 [^] [^^] [^^^] [ответить]  
  • –6 +/
    К сожалению, уважаемой редакции наплевать на мнение людей. А иногда и на здравый смысл - см. трагедию с именованием "GNU/Linux" в новости про "Top 500".
     
     
  • 3.25, Аноним84701 (ok), 16:02, 01/01/2018 [^] [^^] [^^^] [ответить]  
  • +3 +/
    > К сожалению, уважаемой редакции наплевать на мнение людей. А иногда и на
    > здравый смысл - см. трагедию с именованием "GNU/Linux" в новости про "Top 500".

    Делать запостившему новость больше нечего, кроме как поправки в комментариях  высматривать.
    Есть что-то добавить или поправить – "правка" под новостью к вашим услугам. Можно даже из под анонима.

     
     
  • 4.30, Аноним (-), 16:35, 01/01/2018 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Правки к новости о "Top 500" были предложены в т.ч. и этом способом. Это бесполезно.
     
     
  • 5.36, Аноним (-), 18:30, 01/01/2018 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Этот товарищ везде предлагает заменять Linux на GNU/Linux, на что его резонно посылают :-) В ветке про Top500 ему даже разжевали почему. Насколько я понимаю, политика opennet в том, что если сам проект называет себя GNU/Linux то пишут GNU/Linux (см. новости про ROSA), а если нет - то просто Linux.
     
  • 3.37, Аноним (-), 18:35, 01/01/2018 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > К сожалению, уважаемой редакции наплевать на мнение людей. А иногда и на
    > здравый смысл - см. трагедию с именованием "GNU/Linux" в новости про
    > "Top 500".

    Хорошо, что редакции не наплевать на здравый смысл. А мнение фанатиков, принимающих только своё однобокое суждение, далеко не истина в последней инстанции.

     
     
  • 4.40, Аноним (-), 18:58, 01/01/2018 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Небось, пишите из-под Blink'a, на Linux'е, который установлен на процессор.
     
     
  • 5.45, Аноним (-), 20:55, 01/01/2018 [^] [^^] [^^^] [ответить]  
  • +/
    https://en.wikipedia.org/wiki/GNU/Linux_naming_controversy
     
  • 5.48, Аноним (-), 21:13, 01/01/2018 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Давайте тогда называть Linux/GNU/BSD/MIT/systemd/X.Org/KDE/LibreOffice/Firefox
    Почему пакеты GNU важнее других частей дистрибутива? Единственная не заменяемая вещь в дистрибутиве ядро, если его заменить будет уже не Linux. Давайте доведёт до абсурда: Apache/NCSA сильно повлиял на Web, давайте теперь называть  не Web, а Web/Apache.
     
     
  • 6.53, Аноним (-), 05:15, 02/01/2018 [^] [^^] [^^^] [ответить]  
  • +/
    https www gnu org gnu gnu-linux-faq html many Мы говорим только, что вы до... большой текст свёрнут, показать
     
     
  • 7.55, Ю.Т. (?), 06:45, 02/01/2018 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > название — “Linux”. Не может быть справедливым, когда выражают благодарность
    > только за один из второстепенных вкладов (Linux), в то время, как
    > главный вклад (GNU) игнорируется.

    Это уже социально-философская проблема. Не стОит из-за неё так убиваться на техническом форуме, который лишь выражает общие тенденции в проблемах такого рода.

     
  • 7.57, Ordu (ok), 10:07, 02/01/2018 [^] [^^] [^^^] [ответить]  
  • +/
    Забудь. Мир вообще несправедлив.

    Но вообще, твоя борьба за социальную справедливость напомнила мне воинов социальной справедливости[1].
    Мне вообще кажется, что война за социальную справедливость со временем повреждает психику воина. Я в точности не понимаю процессов, которые к этому приводят, но у меня тут после прочтения статьи[2], возникло ощущение, что это связано с "культурой жертвы" (victimhood culture) и внешним локусом контроля.
    Так что ты осторожнее, береги себя.

    [1] https://en.wikipedia.org/wiki/Social_justice_warrior
    [2] http://quillette.com/2017/12/27/collision-reality-depth-psychology-can-tell-u

     
  • 7.63, Аноним (-), 15:53, 02/01/2018 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Главный вклад во что? У GNU есть аналог X11? а без x11 не будет десктопа.
    Давайте MIT обязательно туда добавим.

    Нет, найдется чучело которое цитирует упертых фанатиков которые ценят только свое Я. не считаясь с другими
    (см. историю с libdwg, sed и тп..)

     

  • 1.5, Аноним (-), 11:52, 01/01/2018 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Вот только не понятно, различие с deepspeech обусловлено ли архитектурой, или на порядки большем дейтасетом Фейсбука?

    По-моему, сравнивать модели надо на одном и том же дейтасете. И желательно на том же количестве синапсов

     
  • 1.6, Ю.Т. (?), 12:02, 01/01/2018 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    У ГНУ разве не было аналогичного проекта? Вообще вещь нужная, особенно если большие объёмы работы с текстом. Устр-ва ручного ввода, естественно, это не отменяет, но для ряда задач - незаменимо.
     
     
  • 2.41, Аноним (-), 19:17, 01/01/2018 [^] [^^] [^^^] [ответить]  
  • +/
    гнушники себе тюрьму выкладывать не будут
     
     
  • 3.43, Ю.Т. (?), 19:37, 01/01/2018 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > гнушники себе тюрьму выкладывать не будут

    спасибо за ответ, но мысль непонятна

     
     
  • 4.50, Аноним (-), 23:24, 01/01/2018 [^] [^^] [^^^] [ответить]  
  • +/
    перевод речи в машинные операнды и связанное, это, по-скромному, технологии для "ряда задач" контроля, и в будущем доставит простому человеку множество проблем. управлять же голосом тем же умным домом можно и без глубинного анализа, артикуляции, фурье и прочей чертовщины.
     
     
  • 5.54, Ю.Т. (?), 06:43, 02/01/2018 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Насчёт "проблем простому человеку" догадывался, но "тюрьма гнушникам" причём?
    А "простому человеку" любая технология доставляет множество проблем.

    > управлять же голосом тем же умным домом можно и без глубинного анализа,
    > артикуляции, фурье и прочей чертовщины.

    Ладно, и вовсе все эти "умные дома" это блажь, настоящую пользу от которой получат (получают!) отнюдь не те, кого называет реклама. Ну, поняли мы это, и что? Всё равно эту хрень будут развивать.

     
     
  • 6.58, Аноним (-), 10:17, 02/01/2018 [^] [^^] [^^^] [ответить]  
  • +/
    так, по заветам, "всё равно" большинство этот мир прикончит, и что? просто "user rights" и исходный код не помогут применить эту технологию даже для самообороны
     
     
  • 7.59, Ю.Т. (?), 10:28, 02/01/2018 [^] [^^] [^^^] [ответить]  
  • +/
    > так, по заветам, "всё равно" большинство этот мир прикончит, и что? просто
    > "user rights" и исходный код не помогут применить эту технологию даже
    > для самообороны

    ну я тоже отвечу вроде в тему, но издалека: открытые исходники не аксиома; в социуме аксиом нет, а лишь более или менее устоявшийся договоры; вот "завтра" лоббисты проведут закон о незаконности открытого исходника - и что?

     
     
  • 8.60, AlexYeCu_not_logged (?), 12:21, 02/01/2018 [^] [^^] [^^^] [ответить]  
  • +1 +/
    И будут посланы далеко 171 В лоб 187 такое только в фантастике возможно, ка... текст свёрнут, показать
     
     
  • 9.61, Аноним (-), 12:52, 02/01/2018 [^] [^^] [^^^] [ответить]  
  • –2 +/
    Ахаха, вот жжёшь А ты вкурсе, что в России любое твоё да, твоё произведение и... текст свёрнут, показать
     
     
  • 10.64, AlexYeCu_not_logged (?), 16:41, 02/01/2018 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Последний абзац моего предыдущего поста как раз про тебя ... текст свёрнут, показать
     
  • 8.62, Аноним (-), 13:30, 02/01/2018 [^] [^^] [^^^] [ответить]  
  • +/
    от этого декодер речи не станет выполняться независимо на конечном гражданском ц... текст свёрнут, показать
     

  • 1.20, Аноним (-), 13:07, 01/01/2018 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Паранойя mode on
    Систему то они открыли, но сама система занимется проприетаризацией информации, т.к. не все умеют читать.
    Паранойя mode off
     
  • 1.28, Аноним (-), 16:13, 01/01/2018 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А можно распознавание речи с помощью пакета GNURadio?
     
  • 1.29, Аноним (-), 16:25, 01/01/2018 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    А есть ли открытые системы с уже готовыми русскими моделями?
     
     
  • 2.32, Crazy Alex (ok), 16:43, 01/01/2018 [^] [^^] [^^^] [ответить]  
  • +/
    для сфинкса были. Вообще - смотря какое распознаванип нужно, то ли команды то ли свободный текст
     
  • 2.33, Аноним (-), 17:50, 01/01/2018 [^] [^^] [^^^] [ответить]  
  • +2 +/
    KALDI

    натренированная русская модель http://alphacephei.com/kaldi/kaldi-ru-0.4.tar.gz

     
     
  • 3.66, fat2002bk.ru (?), 21:46, 04/01/2018 [^] [^^] [^^^] [ответить]  
  • +/
    Спасибо!
     
  • 3.68, Овощь (?), 18:57, 26/02/2019 [^] [^^] [^^^] [ответить]  
  • +/
    А оно вообще совместимо с wav2letter? Заранее сорян за тупой вопрос
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру