Facebook опубликовал проект Wav2Letter (https://github.com/facebookresearch/wav2letter), в котором открыл наработки, связанные с распознаванием речи, созданные в лаборатории искусственного интеллекта Facebook AI Research. Wav2Letter сочетает простоту и высокую эффективность преобразования речи в текст. Код оформлен в виде модулей к библиотеке глубинного машинного обучения Torch (http://torch.ch/), написанных на языке Lua и распространяемых (https://github.com/facebookresearch/deepmask) под лицензией BSD. Для обработки звука применяется библиотека Libsndfile (http://www.mega-nerd.com/libsndfile), а для цифровой обработки сигналов при помощи дискретного преобразования Фурье - FFTW (http://www.fftw.org/). Дополнительно поставляются (https://github.com/facebookresearch/wav2letter#pre-trained-m...) натренированные модели для английского языка.
Опубликованный код содержит реализацию архитектуры (https://arxiv.org/abs/1712.09444), основанной (https://arxiv.org/abs/1609.03193) на использовании акустической модели и графа декодирования, созданных при помощи системы машинного обучения на базе свёрточной нейронной сети. Система использует посимвольный метод разбора, не требующий предварительного разделения фонем при проведении машинного обучения. В Wav2Letter применяется техника автоматического сегментирования, которая позволяет обучить систему на основе записи звука и текстовой транскрипции, без дополнительных аннотаций.
Для работы декодировщика требуется только список слов и языковая модель - весовые характеристики букв выделяются из акустической модели, без необходимости подключения словарей фонетической лексики. Поддерживается задействование GPU NVIDIA (CUDA) или кластерных систем (OpenMPI и TorchMPI) для ускорения проведения обучения. При проверке на тестовом наборе LibriSpeech (http://www.openslr.org/12) система показала одни из лучших результатов по уровню ошибок при разборе как чистой (уровень ошибок 4.8%), так и запутанной (уровень ошибок 14.5%) речи.
URL: https://github.com/facebookresearch/wav2letter
Новость: http://www.opennet.dev/opennews/art.shtml?num=47842
Прикольно. Как раз искал нечто подобное для умного дома. Попробую.
"в виде модулей к библиотеке глубинного машинного обучения Torch"
Мне кажется, что Torch будет тяжеловат для запуска на какой-то-фрукт-Pi, а ставить для умного дома отдельный сервер с GPU - как то не очень.
Ну, между фруктой и большим сервером ного чего в промежутке есть... А что, для самого распознавания там тоже куча ресурсов нужна? Или только для обучения нейросетки? Если второе, то на это десктоп может сгодиться или арендованное железо
> ставить для умного дома отдельный сервер с GPU - как то не очень.Да норм. Можно будет играть на нем с любого тапка. В том же стиме есть трансляция. А пока не играешь, будет майнить =)
Ага и вопрос с отоплением сразу пропадает)
Ну казалось бы -- всё хорошо. Лучше, чище, быстрее... Но нет, Шталь всегда найдёт о чём побурчать -- готов поспорить, что скоро какой-то маргинальный дизайнер интерфейсов (из Эппл например, их пользователи что угодно готовы жрать лишь бы нужный логотип был на месте) скажет -- дисплеи/клавиатуры на мелких устройствах -- не модно, не стильно и совсем не молодёжно.
И всё. Случится... Нет, я не возьмусь описывать эпичность перспектив. И не потому что не осилю. Просто противно.
не шталь, а стахл
А Шталь-то не настоящий!!
Уважаемая редакция,
вот это: "Для ускорения проведения обучения..." (и далее по тексту)
правильнее формулировать так:
"...использование параллельных систем с общей памятью (...называются тулкиты NVIDIA...) и с передачей сообщений (...называются среды MPI...)"
К сожалению, уважаемой редакции наплевать на мнение людей. А иногда и на здравый смысл - см. трагедию с именованием "GNU/Linux" в новости про "Top 500".
> К сожалению, уважаемой редакции наплевать на мнение людей. А иногда и на
> здравый смысл - см. трагедию с именованием "GNU/Linux" в новости про "Top 500".Делать запостившему новость больше нечего, кроме как поправки в комментариях высматривать.
Есть что-то добавить или поправить – "правка" под новостью к вашим услугам. Можно даже из под анонима.
Правки к новости о "Top 500" были предложены в т.ч. и этом способом. Это бесполезно.
Этот товарищ везде предлагает заменять Linux на GNU/Linux, на что его резонно посылают :-) В ветке про Top500 ему даже разжевали почему. Насколько я понимаю, политика opennet в том, что если сам проект называет себя GNU/Linux то пишут GNU/Linux (см. новости про ROSA), а если нет - то просто Linux.
> К сожалению, уважаемой редакции наплевать на мнение людей. А иногда и на
> здравый смысл - см. трагедию с именованием "GNU/Linux" в новости про
> "Top 500".Хорошо, что редакции не наплевать на здравый смысл. А мнение фанатиков, принимающих только своё однобокое суждение, далеко не истина в последней инстанции.
Небось, пишите из-под Blink'a, на Linux'е, который установлен на процессор.
https://en.wikipedia.org/wiki/GNU/Linux_naming_controversy
Давайте тогда называть Linux/GNU/BSD/MIT/systemd/X.Org/KDE/LibreOffice/Firefox
Почему пакеты GNU важнее других частей дистрибутива? Единственная не заменяемая вещь в дистрибутиве ядро, если его заменить будет уже не Linux. Давайте доведёт до абсурда: Apache/NCSA сильно повлиял на Web, давайте теперь называть не Web, а Web/Apache.
https://www.gnu.org/gnu/gnu-linux-faq.html#many
> К настоящему времени систему дополнили многие другие проекты; среди них — TeX, X11, Apache, Perl и много других программ. Разве ваши аргументы не подразумевают, что мы должны отдать должное и им? (Но это привело бы к такому длинному названию, что это был бы абсурд.)Мы говорим только, что вы должны отдать должное ведущему разработчику системы. Ведущий разработчик в данном случае — это проект GNU, а система, в основном, GNU.
Если вы чувствуете еще большее желание отдать должное тем, кто этого заслуживает, вы, возможно, сочтете, что некоторые второстепенные участники также заслуживают признания в виде своей части в названии системы. Если это так, то мы далеки от того, чтобы спорить с этим. Если вы считаете, что X11 заслуживает своей части в названии системы, и вы хотите называть систему “GNU/X11/Linux” — пожалуйста. Если же вы считаете, что Perl просто взывает об упоминании, и хотите писать “GNU/Linux/Perl” — так и поступайте.
Поскольку такое длинное название, как “GNU/X11/Apache/Linux/TeX/Perl/Python/FreeCiv”, становится абсурдным, на каком-то этапе вам придется провести черту и опустить названия многих других второстепенных составляющих. Бесспорно верного места, где провести эту черту, нет, поэтому где бы вы ее ни провели, мы не станем с этим спорить.
Разные места для проведения черты приводят к разным вариантам названия системы. Но одно название не может возникнуть из соображений справедливости и выражения благодарности, каким бы ни было положение черты. Это название — “Linux”. Не может быть справедливым, когда выражают благодарность только за один из второстепенных вкладов (Linux), в то время, как главный вклад (GNU) игнорируется.
> название — “Linux”. Не может быть справедливым, когда выражают благодарность
> только за один из второстепенных вкладов (Linux), в то время, как
> главный вклад (GNU) игнорируется.Это уже социально-философская проблема. Не стОит из-за неё так убиваться на техническом форуме, который лишь выражает общие тенденции в проблемах такого рода.
Забудь. Мир вообще несправедлив.Но вообще, твоя борьба за социальную справедливость напомнила мне воинов социальной справедливости[1].
Мне вообще кажется, что война за социальную справедливость со временем повреждает психику воина. Я в точности не понимаю процессов, которые к этому приводят, но у меня тут после прочтения статьи[2], возникло ощущение, что это связано с "культурой жертвы" (victimhood culture) и внешним локусом контроля.
Так что ты осторожнее, береги себя.[1] https://en.wikipedia.org/wiki/Social_justice_warrior
[2] http://quillette.com/2017/12/27/collision-reality-depth-psyc.../
Главный вклад во что? У GNU есть аналог X11? а без x11 не будет десктопа.
Давайте MIT обязательно туда добавим.Нет, найдется чучело которое цитирует упертых фанатиков которые ценят только свое Я. не считаясь с другими
(см. историю с libdwg, sed и тп..)
Вот только не понятно, различие с deepspeech обусловлено ли архитектурой, или на порядки большем дейтасетом Фейсбука?По-моему, сравнивать модели надо на одном и том же дейтасете. И желательно на том же количестве синапсов
У ГНУ разве не было аналогичного проекта? Вообще вещь нужная, особенно если большие объёмы работы с текстом. Устр-ва ручного ввода, естественно, это не отменяет, но для ряда задач - незаменимо.
гнушники себе тюрьму выкладывать не будут
> гнушники себе тюрьму выкладывать не будутспасибо за ответ, но мысль непонятна
перевод речи в машинные операнды и связанное, это, по-скромному, технологии для "ряда задач" контроля, и в будущем доставит простому человеку множество проблем. управлять же голосом тем же умным домом можно и без глубинного анализа, артикуляции, фурье и прочей чертовщины.
Насчёт "проблем простому человеку" догадывался, но "тюрьма гнушникам" причём?
А "простому человеку" любая технология доставляет множество проблем.> управлять же голосом тем же умным домом можно и без глубинного анализа,
> артикуляции, фурье и прочей чертовщины.Ладно, и вовсе все эти "умные дома" это блажь, настоящую пользу от которой получат (получают!) отнюдь не те, кого называет реклама. Ну, поняли мы это, и что? Всё равно эту хрень будут развивать.
так, по заветам, "всё равно" большинство этот мир прикончит, и что? просто "user rights" и исходный код не помогут применить эту технологию даже для самообороны
> так, по заветам, "всё равно" большинство этот мир прикончит, и что? просто
> "user rights" и исходный код не помогут применить эту технологию даже
> для самообороныну я тоже отвечу вроде в тему, но издалека: открытые исходники не аксиома; в социуме аксиом нет, а лишь более или менее устоявшийся договоры; вот "завтра" лоббисты проведут закон о незаконности открытого исходника - и что?
>вот "завтра" лоббисты проведут закон о незаконности открытого исходника - и что?И будут посланы далеко. «В лоб» такое только в фантастике возможно, как, к примеру, у того же Дивова — у него в одном из романов как раз фигурировал международный запрет нанороботов и опенсорса.
А возможность создавать препятствия есть уже сейчас, без малейшей необходимости в странных и скандальных законах.
И это всё при том, что у большинства людей напрочь отсутствует видение причинно-следственных связей, способности к абстрактному и критическому мышлению, прогнозированию развития событий и планированию своих действий. На них не нужны ограничивающие законы, достаточно языкастого маркетолога.
>вот "завтра" лоббисты проведут закон о незаконности открытого исходника - и что?
> И будут посланы далеко. «В лоб» такое только в фантастике возможно, как, к примеру, у того же Дивова — у него в одном из романов как раз фигурировал международный запрет нанороботов и опенсорса.Ахаха, вот жжёшь. А ты вкурсе, что в России любое твоё (да, твоё) произведение искусства (музыка, стихи, да что угодно, возможно, и программы) принадлежит тебе далеко не полностью? Есть такая контора - РАО, которая благодаря идиoтским законам осуществляет т.н. "коллективное управление правами". Отвертеться от этого можно, но очень трудно. За пруфами милости прошу в поиск по интернету.
>А ты вкурсе, что в России любое твоё (да, твоё) произведение искусства (музыка, стихи, да что угодно, возможно, и программы) принадлежит тебе далеко не полностью? Есть такая контора - РАОПоследний абзац моего предыдущего поста как раз про тебя.
от этого декодер речи не станет выполняться независимо на конечном гражданском цпу и не получит санкционированный доступ к точке эффективного приложения. со времен НЭП-а ничего не запрещают:)
Паранойя mode on
Систему то они открыли, но сама система занимется проприетаризацией информации, т.к. не все умеют читать.
Паранойя mode off
А можно распознавание речи с помощью пакета GNURadio?
А есть ли открытые системы с уже готовыми русскими моделями?
для сфинкса были. Вообще - смотря какое распознаванип нужно, то ли команды то ли свободный текст
KALDIнатренированная русская модель http://alphacephei.com/kaldi/kaldi-ru-0.4.tar.gz
Спасибо!
А оно вообще совместимо с wav2letter? Заранее сорян за тупой вопрос