URL: https://www.opennet.dev/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 113187
[ Назад ]

Исходное сообщение
"Facebook открыл систему распознавания речи Wav2Letter"

Отправлено opennews , 01-Янв-18 10:40 
Facebook опубликовал проект Wav2Letter (https://github.com/facebookresearch/wav2letter), в котором открыл наработки, связанные с распознаванием речи, созданные в лаборатории искусственного интеллекта Facebook AI Research. Wav2Letter сочетает простоту и высокую эффективность преобразования речи в текст. Код оформлен в виде модулей к библиотеке глубинного машинного обучения Torch (http://torch.ch/), написанных на языке Lua и распространяемых (https://github.com/facebookresearch/deepmask) под лицензией BSD. Для обработки звука применяется библиотека  Libsndfile (http://www.mega-nerd.com/libsndfile), а для цифровой обработки сигналов при помощи дискретного преобразования Фурье - FFTW (http://www.fftw.org/). Дополнительно поставляются (https://github.com/facebookresearch/wav2letter#pre-trained-m...) натренированные модели для английского языка.


Опубликованный код содержит реализацию архитектуры (https://arxiv.org/abs/1712.09444), основанной (https://arxiv.org/abs/1609.03193) на использовании акустической модели и графа декодирования, созданных при помощи системы машинного обучения на базе свёрточной нейронной сети. Система использует посимвольный метод разбора, не требующий предварительного разделения фонем при проведении машинного обучения. В Wav2Letter применяется техника автоматического сегментирования, которая позволяет обучить систему на основе записи звука и текстовой транскрипции, без дополнительных аннотаций.


Для работы декодировщика требуется только список слов и языковая модель - весовые характеристики букв выделяются из акустической модели, без необходимости подключения словарей фонетической лексики. Поддерживается задействование GPU NVIDIA (CUDA) или кластерных систем (OpenMPI и TorchMPI) для ускорения проведения обучения. При проверке на тестовом наборе LibriSpeech (http://www.openslr.org/12) система показала одни из лучших результатов по уровню ошибок  при разборе как чистой (уровень ошибок 4.8%), так и запутанной (уровень ошибок 14.5%) речи.


URL: https://github.com/facebookresearch/wav2letter
Новость: http://www.opennet.dev/opennews/art.shtml?num=47842


Содержание

Сообщения в этом обсуждении
"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 01-Янв-18 10:40 
Прикольно. Как раз искал нечто подобное для умного дома. Попробую.

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 01-Янв-18 11:03 
"в виде модулей к библиотеке глубинного машинного обучения Torch"
Мне кажется, что Torch будет тяжеловат для запуска на какой-то-фрукт-Pi, а ставить для умного дома отдельный сервер с GPU - как то не очень.

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Crazy Alex , 01-Янв-18 16:39 
Ну, между фруктой и большим сервером ного чего в промежутке есть... А что, для самого распознавания там тоже куча ресурсов нужна? Или только для обучения нейросетки? Если второе, то на это десктоп может сгодиться или арендованное железо

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено rshadow , 02-Янв-18 02:47 
> ставить для умного дома отдельный сервер с GPU - как то не очень.

Да норм. Можно будет играть на нем с любого тапка. В том же стиме есть трансляция. А пока не играешь, будет майнить =)


"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 02-Янв-18 19:03 
Ага и вопрос с отоплением сразу пропадает)

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено A.Stahl , 01-Янв-18 10:42 
Ну казалось бы -- всё хорошо. Лучше, чище, быстрее... Но нет, Шталь всегда найдёт о чём побурчать -- готов поспорить, что скоро какой-то маргинальный дизайнер интерфейсов (из Эппл например, их пользователи что угодно готовы жрать лишь бы нужный логотип был на месте) скажет -- дисплеи/клавиатуры на мелких устройствах -- не модно, не стильно и совсем не молодёжно.
И всё. Случится... Нет, я не возьмусь описывать эпичность перспектив. И не потому что не осилю. Просто противно.

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено ф , 01-Янв-18 20:57 
не шталь, а стахл

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 01-Янв-18 21:12 
А Шталь-то не настоящий!!

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Ю.Т. , 01-Янв-18 11:49 
Уважаемая редакция,
вот это: "Для ускорения проведения обучения..." (и далее по тексту)
правильнее формулировать так:
"...использование параллельных систем с общей памятью (...называются тулкиты NVIDIA...) и с передачей сообщений (...называются среды MPI...)"

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 01-Янв-18 14:39 
К сожалению, уважаемой редакции наплевать на мнение людей. А иногда и на здравый смысл - см. трагедию с именованием "GNU/Linux" в новости про "Top 500".

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним84701 , 01-Янв-18 16:02 
> К сожалению, уважаемой редакции наплевать на мнение людей. А иногда и на
> здравый смысл - см. трагедию с именованием "GNU/Linux" в новости про "Top 500".

Делать запостившему новость больше нечего, кроме как поправки в комментариях  высматривать.
Есть что-то добавить или поправить – "правка" под новостью к вашим услугам. Можно даже из под анонима.


"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 01-Янв-18 16:35 
Правки к новости о "Top 500" были предложены в т.ч. и этом способом. Это бесполезно.

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 01-Янв-18 18:30 
Этот товарищ везде предлагает заменять Linux на GNU/Linux, на что его резонно посылают :-) В ветке про Top500 ему даже разжевали почему. Насколько я понимаю, политика opennet в том, что если сам проект называет себя GNU/Linux то пишут GNU/Linux (см. новости про ROSA), а если нет - то просто Linux.

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 01-Янв-18 18:35 
> К сожалению, уважаемой редакции наплевать на мнение людей. А иногда и на
> здравый смысл - см. трагедию с именованием "GNU/Linux" в новости про
> "Top 500".

Хорошо, что редакции не наплевать на здравый смысл. А мнение фанатиков, принимающих только своё однобокое суждение, далеко не истина в последней инстанции.


"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 01-Янв-18 18:58 
Небось, пишите из-под Blink'a, на Linux'е, который установлен на процессор.

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 01-Янв-18 20:55 
https://en.wikipedia.org/wiki/GNU/Linux_naming_controversy

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 01-Янв-18 21:13 
Давайте тогда называть Linux/GNU/BSD/MIT/systemd/X.Org/KDE/LibreOffice/Firefox
Почему пакеты GNU важнее других частей дистрибутива? Единственная не заменяемая вещь в дистрибутиве ядро, если его заменить будет уже не Linux. Давайте доведёт до абсурда: Apache/NCSA сильно повлиял на Web, давайте теперь называть  не Web, а Web/Apache.

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 02-Янв-18 05:15 
https://www.gnu.org/gnu/gnu-linux-faq.html#many
> К настоящему времени систему дополнили многие другие проекты; среди них — TeX, X11, Apache, Perl и много других программ. Разве ваши аргументы не подразумевают, что мы должны отдать должное и им? (Но это привело бы к такому длинному названию, что это был бы абсурд.)

    Мы говорим только, что вы должны отдать должное ведущему разработчику системы. Ведущий разработчик в данном случае — это проект GNU, а система, в основном, GNU.

    Если вы чувствуете еще большее желание отдать должное тем, кто этого заслуживает, вы, возможно, сочтете, что некоторые второстепенные участники также заслуживают признания в виде своей части в названии системы. Если это так, то мы далеки от того, чтобы спорить с этим. Если вы считаете, что X11 заслуживает своей части в названии системы, и вы хотите называть систему “GNU/X11/Linux” — пожалуйста. Если же вы считаете, что Perl просто взывает об упоминании, и хотите писать “GNU/Linux/Perl” — так и поступайте.

    Поскольку такое длинное название, как “GNU/X11/Apache/Linux/TeX/Perl/Python/FreeCiv”, становится абсурдным, на каком-то этапе вам придется провести черту и опустить названия многих других второстепенных составляющих. Бесспорно верного места, где провести эту черту, нет, поэтому где бы вы ее ни провели, мы не станем с этим спорить.

    Разные места для проведения черты приводят к разным вариантам названия системы. Но одно название не может возникнуть из соображений справедливости и выражения благодарности, каким бы ни было положение черты. Это название — “Linux”. Не может быть справедливым, когда выражают благодарность только за один из второстепенных вкладов (Linux), в то время, как главный вклад (GNU) игнорируется.


"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Ю.Т. , 02-Янв-18 06:45 
> название — “Linux”. Не может быть справедливым, когда выражают благодарность
> только за один из второстепенных вкладов (Linux), в то время, как
> главный вклад (GNU) игнорируется.

Это уже социально-философская проблема. Не стОит из-за неё так убиваться на техническом форуме, который лишь выражает общие тенденции в проблемах такого рода.


"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Ordu , 02-Янв-18 10:07 
Забудь. Мир вообще несправедлив.

Но вообще, твоя борьба за социальную справедливость напомнила мне воинов социальной справедливости[1].
Мне вообще кажется, что война за социальную справедливость со временем повреждает психику воина. Я в точности не понимаю процессов, которые к этому приводят, но у меня тут после прочтения статьи[2], возникло ощущение, что это связано с "культурой жертвы" (victimhood culture) и внешним локусом контроля.
Так что ты осторожнее, береги себя.

[1] https://en.wikipedia.org/wiki/Social_justice_warrior
[2] http://quillette.com/2017/12/27/collision-reality-depth-psyc.../


"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 02-Янв-18 15:53 
Главный вклад во что? У GNU есть аналог X11? а без x11 не будет десктопа.
Давайте MIT обязательно туда добавим.

Нет, найдется чучело которое цитирует упертых фанатиков которые ценят только свое Я. не считаясь с другими
(см. историю с libdwg, sed и тп..)


"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 01-Янв-18 11:52 
Вот только не понятно, различие с deepspeech обусловлено ли архитектурой, или на порядки большем дейтасетом Фейсбука?

По-моему, сравнивать модели надо на одном и том же дейтасете. И желательно на том же количестве синапсов


"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Ю.Т. , 01-Янв-18 12:02 
У ГНУ разве не было аналогичного проекта? Вообще вещь нужная, особенно если большие объёмы работы с текстом. Устр-ва ручного ввода, естественно, это не отменяет, но для ряда задач - незаменимо.

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 01-Янв-18 19:17 
гнушники себе тюрьму выкладывать не будут

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Ю.Т. , 01-Янв-18 19:37 
> гнушники себе тюрьму выкладывать не будут

спасибо за ответ, но мысль непонятна


"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 01-Янв-18 23:24 
перевод речи в машинные операнды и связанное, это, по-скромному, технологии для "ряда задач" контроля, и в будущем доставит простому человеку множество проблем. управлять же голосом тем же умным домом можно и без глубинного анализа, артикуляции, фурье и прочей чертовщины.

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Ю.Т. , 02-Янв-18 06:43 
Насчёт "проблем простому человеку" догадывался, но "тюрьма гнушникам" причём?
А "простому человеку" любая технология доставляет множество проблем.

> управлять же голосом тем же умным домом можно и без глубинного анализа,
> артикуляции, фурье и прочей чертовщины.

Ладно, и вовсе все эти "умные дома" это блажь, настоящую пользу от которой получат (получают!) отнюдь не те, кого называет реклама. Ну, поняли мы это, и что? Всё равно эту хрень будут развивать.


"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 02-Янв-18 10:17 
так, по заветам, "всё равно" большинство этот мир прикончит, и что? просто "user rights" и исходный код не помогут применить эту технологию даже для самообороны

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Ю.Т. , 02-Янв-18 10:28 
> так, по заветам, "всё равно" большинство этот мир прикончит, и что? просто
> "user rights" и исходный код не помогут применить эту технологию даже
> для самообороны

ну я тоже отвечу вроде в тему, но издалека: открытые исходники не аксиома; в социуме аксиом нет, а лишь более или менее устоявшийся договоры; вот "завтра" лоббисты проведут закон о незаконности открытого исходника - и что?


"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено AlexYeCu_not_logged , 02-Янв-18 12:21 
>вот "завтра" лоббисты проведут закон о незаконности открытого исходника - и что?

И будут посланы далеко. «В лоб» такое только в фантастике возможно, как, к примеру, у того же Дивова — у него в одном из романов как раз фигурировал международный запрет нанороботов и опенсорса.

А возможность создавать препятствия есть уже сейчас, без малейшей необходимости в странных и скандальных законах.

И это всё при том, что у большинства людей напрочь отсутствует видение причинно-следственных связей, способности к абстрактному и критическому мышлению, прогнозированию развития событий и планированию своих действий. На них не нужны ограничивающие законы, достаточно языкастого маркетолога.


"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 02-Янв-18 12:52 
>вот "завтра" лоббисты проведут закон о незаконности открытого исходника - и что?
> И будут посланы далеко. «В лоб» такое только в фантастике возможно, как, к примеру, у того же Дивова — у него в одном из романов как раз фигурировал международный запрет нанороботов и опенсорса.  

Ахаха, вот жжёшь. А ты вкурсе, что в России любое твоё (да, твоё) произведение искусства (музыка, стихи, да что угодно, возможно, и программы) принадлежит тебе далеко не полностью? Есть такая контора - РАО, которая благодаря идиoтским законам осуществляет т.н. "коллективное управление правами". Отвертеться от этого можно, но очень трудно. За пруфами милости прошу в поиск по интернету.


"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено AlexYeCu_not_logged , 02-Янв-18 16:41 
>А ты вкурсе, что в России любое твоё (да, твоё) произведение искусства (музыка, стихи, да что угодно, возможно, и программы) принадлежит тебе далеко не полностью? Есть такая контора - РАО

Последний абзац моего предыдущего поста как раз про тебя.


"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 02-Янв-18 13:30 
от этого декодер речи не станет выполняться независимо на конечном гражданском цпу и не получит санкционированный доступ к точке эффективного приложения. со времен НЭП-а ничего не запрещают:)

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 01-Янв-18 13:07 
Паранойя mode on
Систему то они открыли, но сама система занимется проприетаризацией информации, т.к. не все умеют читать.
Паранойя mode off

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 01-Янв-18 16:13 
А можно распознавание речи с помощью пакета GNURadio?

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 01-Янв-18 16:25 
А есть ли открытые системы с уже готовыми русскими моделями?

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Crazy Alex , 01-Янв-18 16:43 
для сфинкса были. Вообще - смотря какое распознаванип нужно, то ли команды то ли свободный текст

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Аноним , 01-Янв-18 17:50 
KALDI

натренированная русская модель http://alphacephei.com/kaldi/kaldi-ru-0.4.tar.gz


"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено fat2002bk.ru , 04-Янв-18 21:46 
Спасибо!

"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено Овощь , 26-Фев-19 18:57 
А оно вообще совместимо с wav2letter? Заранее сорян за тупой вопрос