2022-06-09

Распознавание голосовых заметок

Долгое время не давало покоя навязчивое желание реализовать автоматическое распознавание своих голосовых заметок.

На мобильнике у меня стоит диктофон, куда я время от времени наговариваю голосовые заметки. Заметки эти чаще всего так и остаются в виде файлов и остаются лежать мертвым грузом. Лишь изредка я их преобразую в текст и куда нибудь сохраняю. Как было бы здорово если бы распознавание заметок происходило автоматически без моего вмешательства!

Но ведь яж компьютерщик! Сегодня, наконец, удалось завершить начатое и автоматизировать процесс!

Записанные заметки я синхронизирую при помощи Syncthing на свой маленький домашний сервер. На сервере небольшой bash скрипт по crontab каждые десять минут проверяет не появился ли новый wav файл из диктофона и, если появился, скармливает его системе распознавания Kaldi. Полученный текстовый файл сохраняется на диске и пересылается на мою электронную почту.

Решение не требует никаких внешних API типа Google или Яндекса - все происходит в оффлайне. Правда, из-за этого, решение достаточно объемное - языковая модель весит около гигабайта и ещё примерно столько же - сама система распознавания. Работает, однако, решение достаточно надёжно. Пока поддерживается только русский язык, но вполне возможно научить распознавать и другие языки.

Кстати, русская языковая модель больше не доступна на сайте разработчика. У меня сохранился старый архив, если кому-нибудь будет нужна - дайте знать, - поделюсь.

 

 

комментарии:

 

Для того чтобы каждый раз не представляться можно войти как зарегистрированный пользователь.

Имя*

разрешены только теги br, font, span, p, strong, u, p, blockquote, a, div, img - остальные будут безжалостно удаляться