Все про тюнінг авто

Розбираємось із сучасними системами розпізнавання мови в Linux. Два сервіси розпізнавання мови та перекладу в текст онлайн Система розпізнавання голосу

Енциклопедичний YouTube

  • 1 / 5

    Роботи з розпізнавання мови беруть початок із середини минулого століття. Перша система була створена на початку 1950 років: її розробники поставили собі завдання розпізнавання цифр . Розроблена система могла ідентифікувати цифри, але сказані одним голосом, як, наприклад, система Audrey компанії Bell Laboratories. Вона працювала на основі визначення форманти у спектрі потужності кожного мовного уривку. Загалом система складалася з трьох основних елементів: аналізаторів і квантувачів, шаблонів узгоджувачів мережі та, нарешті, датчиків. Створено, відповідно, на елементній базі різних частотних фільтрів, перемикачів, так само у складі датчиків були газонаповнені трубки [ ] .

    До кінця десятиліття з'явилися системи, що розпізнають голосні незалежно від диктора. У 70-х роках почали використовуватися нові методи, що дозволили досягти більш досконалих результатів – метод динамічного програмування та метод лінійного передбачення (Linear Predictive Coding – LPC). У вищезгаданій компанії Bell Laboratories були створені системи, що використовують саме ці методи. У 80-х роках наступним кроком у розвитку систем розпізнавання голосу стало використання прихованих "марківських" моделей (Hidden Markov Models - HMM). У цей час починають з'являтися перші великі програми розпізнавання голосу, як, наприклад, Kurzweil text-to-speech. Наприкінці 80-х також стали застосовуватися методи штучних нейронних мереж (Artificial Neural Network - ANN). У 1987 році на ринку з'явилися ляльки Worlds of Wonder's Julie doll, які були здатні розуміти голос. А ще через 10 років Dragon Systems випустила програму "NaturallySpeaking 1.0".

    Надійність

    Основними джерелами помилок розпізнавання голосу є:

    Розпізнавання статі можна виділити в окремий тип завдань, який досить успішно вирішується - при великих обсягах початкових даних стать визначається практично безпомилково, а на коротких уривках на кшталт ударного голосного звуку ймовірність помилки - 5,3% для чоловіків і 3,1% для жінок.

    Також розглядалася проблема імітації голосу. Дослідження France Telecom показали, що професійна імітація голосу практично не збільшує ймовірність помилки визначення особистості – імітатори підробляють голос лише зовні, підкреслюючи особливості мови, але базову канву голосу підробити не здатні. Навіть голоси близьких родичів, близнюків матиме різницю, як мінімум, у динаміці управління . Але з розвитком комп'ютерних технологій виникла нова проблема, яка потребує використання нових способів аналізу, - трансформація голосу, яка збільшує ймовірність помилки до 50%.

    Для опису надійності системи є два критерії: FRR (False Rejection Rate) - вірогідність помилкової відмови в доступі (помилка, першого і роду) і FAR (False Acceptance Rate) - вірогідність помилкового допуску, коли система помилково впізнає чужого як свого (помилка другого роду) . Іноді системи розпізнавання характеризуються таким параметром, як EER (Equal Error Rates), що представляє точку збігу ймовірностей FRR і FAR. Чим надійніша система, тим нижчий EER має .

    Значення помилок ідентифікації для різних біометричних модальностей

    Застосування

    Розпізнавання можна розділити на два основні напрямки: ідентифікацію та верифікацію. У першому випадку система має самостійно встановити особу користувача за голосом; у другому випадку система повинна підтвердити або спростувати ідентифікатор, який пред'являє користувач. Визначення досліджуваного диктора полягає у попарному порівнянні голосових моделей, які враховують індивідуальні особливості мови кожного диктора. Таким чином, нам необхідно спочатку зібрати досить велику базу даних. А за результатами цього порівняння може бути сформований список фонограм, що є з деякою ймовірністю промовою користувача, що нас цікавить.

    Хоча розпізнавання голосом неспроможна гарантувати стовідсоткову правильність результату, може досить ефективно використовуватися у таких галузях, як криміналістика і судова експертиза; розвідка; антитерористичний моніторинг; безпека; банківська справа і так далі.

    Аналіз

    Весь процес обробки мовного сигналу можна розбити на кілька основних етапів:

    • передобробка сигналу;
    • виділення критеріїв;
    • розпізнавання диктора.

    Кожен етап представляє алгоритм чи деяку сукупність алгоритмів, що у результаті дає необхідний результат.

    Основні риси голосу формуються трьома основними якостями: механікою коливань голосових складок, анатомією мовного тракту та системою управління артикуляцією. Крім цього, іноді є можливість користуватися словником мовця, його мовними зворотами. Основні ознаки, якими приймається рішення про особистість диктора, формуються з урахуванням всіх чинників процесу мовлення: голосового джерела, резонансних частот мовного тракту та його згасань, і навіть динамікою управління артикуляцією. Якщо розглянути джерела докладніше, то властивості голосового джерела входять: середня частота основного тону, контур і флюктуації частоти основного тону і форма імпульсу збудження. Спектральні характеристики мовного тракту описуються огинальним спектром та його середнім нахилом, формантними, частотами, довготривалим спектром або кепстром. Крім того, розглядається також тривалість слів, ритм (розподіл наголосів), рівень сигналу, частота та тривалість пауз. Щоб визначити ці характеристики доводиться використовувати досить складні алгоритми, але оскільки, приміром, похибка формантних частот досить велика, спрощення використовуються коефіцієнти кепстра, обчислювані по огибающей спектра чи передатна–функція мовного тракту, знайдена методом лінійного пророцтва. Крім згаданих коефіцієнтів кепстру також використовуються їх перші та другі різниці за часом. Цей метод був вперше запропонований у роботах Девіса та Мермельштейна.

    Кепстральний аналіз

    У роботах з розпізнавання голосу найпопулярніший метод кепстрального перетворення спектра мовних сигналів. Схема методу така: на інтервалі часу в 10 - 20 мс обчислюється поточний спектр потужності, а потім застосовується зворотне перетворення Фур'є від логарифму цього спектру (кепстр) і знаходяться коефіцієнти: cn = 1 Θ ∫ 0 Θ ∣ S (j , ω , t) ∣ 2 exp − jn ω Ω d d (\displaystyle c_(n)=(\frac(1)(\Theta ))\int _(0 )^(\Theta )(\mid S(j,\omega ,t)\mid )^(2)\exp ^(-jn\omega \Omega )d\omega ), Ω = 2 2 π Θ , Θ (\displaystyle \Omega =2(\frac (2\pi )(\Theta )),\Theta )- Верхня частота в спектрі мовного сигналу, ∣ S (j , ω , t) ∣ 2 (\displaystyle (\mid S(j,\omega ,t)\mid )^(2))- Спектр потужності. Число кепстральних коефіцієнтів n залежить від необхідного згладжування спектра, і знаходиться в межах від 20 до 40. Якщо використовується гребінець смугових фільтрів, то коефіцієнти дискретного кепстрального перетворення обчислюються як cn = ∑ m = 1 N log ⁡ Y (m) 2 cos ⁡ π n M (m − 1 2)) (\displaystyle c_(n)=\sum _(m=1)^(N)\log (Y (m)^(2))\cos ((\frac (\pi n)(M))(m-(\frac (1)(2))))))де Y(m) - вихідний сигнал m-го фільтра, c n (\displaystyle c_(n))- n-й коефіцієнт кепстру.

    Властивості слуху враховуються шляхом нелінійного перетворення шкали частот, зазвичай, у шкалі крейда. Ця шкала формується виходячи з присутності в слуху про критичних смуг, таких, що сигнали будь-якої частоти в межах критичної смуги невиразні. Шкала крейда обчислюється як M (f) = 1125 ln ⁡ (1 + f 700) (\displaystyle M(f)=1125\ln ((1+(\frac (f)(700))))), де f - частота Гц, M - частота в крейдах. Або використовується інша шкала - барк, така, що різниця між двома частотами, що дорівнює критичній смузі, дорівнює 1 барк. Частота B обчислюється як B = 13 arctg (0 , 00076 f) + 3 , 5 arctgf 7500 (displaystyle B=13\operatorname (arctg((0,00076f))) +3,5\operatorname (arctg(\frac (f)(7500) ))) ). Знайдені коефіцієнти у літературі іноді позначаються як MFCC – Mel Frequiency Cepstral Coefficients. Їх число лежить у діапазоні від 10 до 30. Використання перших і других різниць за часом кепстральних коефіцієнтів втричі збільшує розмірність простору прийняття рішень, але покращує ефективність розпізнавання диктора.

    Кепстр визначає форму огибающей спектра сигналу, яку впливають і властивості джерела збудження, і особливості мовного тракту. В експериментах було встановлено, що спектр, що огинає, сильно впливає на впізнаваність голосу. Тому використання різних способів аналізу огинального спектру з метою розпізнавання голосу цілком виправдано.

    Методи

    Метод GMM випливає з теореми про те, що будь-яка функція густини ймовірності може бути представлена ​​як виважена сума нормальних розподілів:

    P (x | λ) = j = 1 k ω j ϕ (χ , j j) (\displaystyle p(x|\lambda)=\sum _(j=1)^(k)(\omega _(j )\phi (\chi ,\Theta _(j)))); λ (\displaystyle \lambda )- модель диктора; k – кількість компонентів моделі; ω j (\displaystyle (\omega _(j)))- ваги компонентів такі, що ∑ j = 1 n ω j = 1. (\displaystyle \sum _(j=1)^(n)(\omega _(j))=1.) ϕ (χ , Θ j) (\displaystyle \phi (\chi ,\Theta _(j)))- функція розподілу багатовимірного аргументу χ , j (\displaystyle \chi ,\Theta _(j)) .ϕ (χ , Θ j) = p (χ ∣ j , R j) = 1 (2 π) n 2 ∣ R j ∣ 1 2 exp ⁡ − 1 (χ − j ) TR j − 1 (χ − μ j) 2 (\displaystyle \phi (\chi ,\Theta _(j))=p(\chi \mid \mu _(j),R_(j))=(\frac (1)((((2\) pi ))^(\frac (n)(2))(\mid R_(j)\mid )^(\frac (1)(2))))\exp (\frac (-1(\chi -\) mu _(j))^(T)R_(j)^(-1)(\chi -\mu _(j)))(2))), ω j (\displaystyle \omega _(j))- її вага, k – кількість компонентів у суміші. Тут n - розмірність простору ознак, μ j ∈ R n (\displaystyle \mu _(j)\in \mathbb(R) ^(n))- Вектор математичного очікування j-ї компоненти суміші, R j ∈ R n × n (\displaystyle R_(j)\in \mathbb(R) ^(n\times n))- Коваріаційна матриця.

    Дуже часто в системах із цією моделлю використовується діагональна коваріаційна матриця. Вона може використовуватися для всіх компонентів моделі або навіть для всіх моделей. Щоб знайти матрицю коваріації, ваги, середні вектори часто використовують EM-алгоритм . На вході маємо навчальну послідовність векторів X = (x 1 , . . . , x T ). Параметри моделі ініціалізуються початковими значеннями і потім кожної ітерації алгоритму відбувається переоцінка параметрів. Для визначення початкових параметрів зазвичай використовують алгоритм кластеризації такий, як алгоритм К-середніх. Після того як сталося розбиття безлічі навчальних векторів на кластерів M, параметри моделі можуть бути визначені так: початкові значення μ j (\displaystyle \mu _(j))збігаються з центрами кластерів, матриці коваріації розраховуються на основі векторів, що потрапили в даний кластер, ваги компонентів визначаються часткою векторів даного кластеру серед загальної кількості навчальних векторів.

    Переоцінка параметрів відбувається за такими формулами:

    GMM можна назвати продовженням методу векторного квантування (метод центроїдів). При його використанні створюється кодова книга для областей, що не перетинаються, в просторі ознак (часто з використанням кластеризації методом K-means). Векторне квантування є найпростішою моделлю у системах розпізнавання, незалежних від контексту.

    Метод опорних векторів (SVM) будує гіперплощину в багатовимірному просторі, що розділяє два класи - параметри цільового диктора і параметри дикторів з референтної бази. Гіперплощина обчислюється за допомогою опорних векторів - вибраних особливим чином. Виконуватиметься нелінійне перетворення простору виміряних параметрів в деякий простір ознак вищої розмірності, так як поверхня, що розділяє, може і не відповідати гіперплощині. Поділяюча поверхня в гіперплощині будується методом опорних векторів, якщо виконується умова лінійної роздільності в новому просторі ознак. Таким чином, успіх застосування SMM залежить від підібраного нелінійного перетворення в кожному конкретному випадку. Метод опорних векторів часто застосовується з методом GMM або HMМ. Зазвичай для коротких фраз тривалістю кілька секунд для контестно-залежного підходу краще застосовуються фонемно-залежні HMM.

    Популярність

    За інформацією консалтингової компанії International Biometric Group з Нью-Йорка, найбільш поширеною технологією є сканування відбитків пальців. Зазначається, що з 127 млн ​​доларів, отриманих від продажу біометричних пристроїв, 44% припадає на дактилоскопічні сканери. Системи розпізнавання-чорт-особи займають друге місце за рівнем попиту, який становить 14%, далі йдуть пристрої розпізнавання за формою долоні (13%), за голосом (10%) та райдужною оболонкою ока (8%). Пристрої верифікації підпису цього списку становлять 2 %. Одні з найвідоміших виробників на ринку голосової біометрії – Nuance Communications, SpeechWorks, VeriVoice.

    У лютому 2016 The Telegraph опублікувала статтю, в якій повідомляється, що клієнти британського банку HSBC зможуть отримувати доступ до рахунків і проводити транзакції за допомогою ідентифікації за голосом. Перехід мав відбутися на початку літа

    Фонограми, записані з використанням цифрових диктофонів «Гном Р» та «Гном 2М» задовольняють вимогам до фонограм, що надходять для проведення фоноскопічних експертиз, і придатні для ідентифікації особи за голосом і мовленням.

    Перший заступник начальника

    Диктофон «Гном 2М» неодноразово застосовувався для запису конференцій та семінарів у складній акустичній обстановці, записані фонограми відрізняються високою якістю. Вбудована функція шумоочищення дозволяє покращити якість відтворення фонограм.

    Провідний інженер ІПК БНТУ

    Інститут підвищення кваліфікації та перепідготовки кадрів БНТУ

    За термін експлуатації "Гном Р" зарекомендував себе з позитивного боку. Висока якість запису при мінімальних габаритах, велика тривалість звукозапису, оперативна передача накопиченої інформації з вбудованої пам'яті диктофона в ПЕОМ.

    Старший офіцер 3-го відділу сьомого управління

    Генерального штабу Збройних Сил РБ

    Фонограми, записані з використанням системи «Незабудка II», задовольняють вимогам, що висуваються до багатоканальних цифрових комплексів реєстрації мовних повідомлень телефонними каналами зв'язку, і придатні для ідентифікації особи за голосом і мовою.

    Начальник центру

    Державний експертно-криміналістичний центр

    Необмежена кількість оповіщених абонентів, велика кількість завдань, що одночасно обробляються, зробить «Рупор» незамінним помічником у роботі співробітників кредитного відділу філії № 524 ВАТ «АСБ Беларусбанку».

    Заступник директора – начальник центру роздрібного бізнесу

    Філія № 524 ВАТ «АСБ Беларусбанк»

    Система автоматичного оповіщення «Рупор» працювала за аналоговими телефонними лініями та випробувалася з метою оповіщення особового складу. Система обслуговувала 100 абонентів, працювала стабільно та не вимагала постійного технічного обслуговування.

    Виконувач обов'язків військового комісара

    Військовий комісаріат м. Мінська

    Система запису «Незабудка II» забезпечує прийом голосових повідомлень мешканців, якісний запис їх на комп'ютер, можливість прослуховування записаних повідомлень та занесення інформації до текстової бази даних. Система оповіщення «Рупор» здійснює автоматичне оповіщення боржників.

    Начальник відділу АСУ

    УП «ЖРЕО Радянського району м. Мінська»

    Система «Рупор» забезпечує оповіщення великої кількості абонентів у стислий термін відповідно до встановлених параметрів з наданням звіту за проведеним оповіщенням, працює надійно, повністю відповідає вимогам, що висуваються до неї.

    Директор департаменту роздрібного бізнесу

    До мобільної системи запису та документування мови «Протокол» входить цифровий диктофон «Гном 2М» та комп'ютерний транскрайбер «Цезар». Диктофон «Гном 2М» дозволяє отримувати якісний запис нарад та засідань, а транскрайбер «Цезар» значно збільшує швидкість роботи з перекладу звукової інформації в текстовий документ.

    Провідний фахівець

    Інститут держави і права Академії наук РБ

    Встановлення особи за голосом

    У сучасному світі все більший інтерес проявляється до біометричних технологій та біометричних систем ідентифікації особистості, і цей інтерес цілком зрозумілий.

    Біометрична ідентифікація заснована на принципі розпізнавання та порівняння унікальних характеристик людського організму. Основними джерелами біометричної характеристики людини є відбитки пальців, райдужна оболонка і сітківка очей, голос, обличчя, підпис, хода та інших. Ці біометричні ідентифікатори належать людині є його невід'ємною частиною. Їх не можна десь забути, лишити, втратити.

    Для біометричної ідентифікації можна використовувати різні властивості та риси людини. У статті дається короткий огляд, як працюють біометричні технології з прикладу системи розпізнавання особистості по голосу.

    Цінність голосових технологій для біометрики була неодноразово доведена. Однак лише висока якість реалізації автоматичних систем розпізнавання диктора здатна реально впровадити такі технології у практику. Подібні системи вже є. Вони знаходять застосування у системах безпеки, банківських технологіях, електронної комерції, правоохоронній практиці.

    Використання систем розпізнавання диктора є найбільш природним та економічним способом вирішення проблем неавторизованого доступу до комп'ютера або систем передачі інформації, а також проблем багаторівневого контролю доступу до мережевих чи інформаційних ресурсів.

    Системи розпізнавання диктора можуть вирішувати два завдання: визначати особистість із заданого, обмеженого списку людей (ідентифікація особи) або підтверджувати особистість того, хто говорить (верифікація особи). Ідентифікація та верифікація особи за голосом є напрямками розвитку технології обробки мовлення.

    Рис. 1 – Розпізнавання диктора

    Мова - це сигнал, що виникає в результаті перетворень, що відбуваються на різних рівнях: семантичному, лінгвістичному, артикуляційному і акустичному. Як відомо, джерелом мовного сигналу служить мовний тракт, який збуджує звукові хвилі в пружному повітряному середовищі. Під мовним трактом зазвичай мається на увазі орган мовлення, розташований над голосовими зв'язками. Як видно з малюнка 2 мовний тракт складається з гортаноглотки, ротоглотки, ротової порожнини, носоглотки та носової порожнини.


    Рис. 2 - Будова мовного тракту людини

    Голос людини виникає при проходженні повітря з легенів через трахею в гортань, повз голосові зв'язки, і, далі в горлянку і рот і носову порожнину. Коли звукова хвиля проходить через мовний тракт, її частотний спектр змінюється під впливом коливань мовного тракту. Коливання мовного тракту називаються формантами. Системи верифікації диктора зазвичай розпізнають відмітні ознаки мовного сигналу, які відбивають індивідуальну особливість м'язової активності мовного тракту особистості.

    Розглянемо докладніше систему верифікації диктора. Верифікація особи за голосом – це визначення, чи той, хто говорить тим, ким він представляється. Користувач, раніше зареєстрований у системі, вимовляє свій ідентифікатор, який є реєстраційним номером, парольним словом або фразою. При текстозалежному розпізнаванні парольне слово відоме системі, і вона «просить» користувача вимовити його. Парольне слово відображається на екрані, і людина вимовляє його на мікрофон. При текстонезалежному розпізнаванні вимовлене користувачем парольне слово співпадає з еталонним, тобто. як пароль користувач може вимовляти довільне слово або фразу. Система верифікації приймає мовний сигнал, обробляє його і вирішує, прийняти або відхилити ідентифікатор, що пред'являється користувачем. Система може повідомити користувачеві про недостатню міру збігу його голосу з наявним еталоном і попросити вимовити додаткову інформацію, щоб ухвалити остаточне рішення.


    Рис. 3 – Взаємодія людини із системою

    Схема взаємодії людини з системою верифікації особистості по голосу зображено малюнку 3. Користувач вимовляє в мікрофон запропонований йому системою номер у тому, щоб система перевірила, чи відповідає його голос еталону, що у базі даних системи. Зазвичай, існує компроміс між точністю розпізнавання голосу і розміром мовного зразка, тобто. що довше мовної зразок, то вище точність розпізнавання. Крім голосу в мікрофон можуть потрапляти луна та сторонні шуми.

    Існує ряд факторів, які можуть сприяти виникненню помилок верифікації та ідентифікації, наприклад:

    • неправильне вимовлення чи прочитання парольного слова чи фрази;
    • емоційний стан диктора (стрес, вимовлення парольної фрази під примусом та ін.);
    • складна акустична обстановка (шум, перешкоди, радіохвилі та ін.);
    • різні канали зв'язку (використання різних мікрофонів під час реєстрації диктора та верифікації);
    • застудні захворювання;
    • природні зміни голосу.

    Деякі з них можуть бути усунені, наприклад, використанням більш якісних мікрофонів.

    Процес верифікації особи за голосом складається з 5 етапів: прийом мовного сигналу, параметризація, або виділення відмітних ознак голосу, порівняння отриманого зразка голосу з раніше встановленим еталоном, прийняття рішення «допуск/відмова», навчання або оновлення еталонної моделі. Схема верифікації представлена ​​малюнку 4.


    Рис. 4 – Схема верифікації

    Під час реєстрації новий користувач вводить свій ідентифікатор, а потім вимовляє кілька разів ключове слово або фразу, таким чином створюються зразки. Число повторів ключової фрази може змінюватись для кожного користувача, а може бути постійним для всіх.

    Щоб комп'ютер міг обробити мовний сигнал, звукова хвиля перетворюється на аналоговий, та був у цифровий сигнал.

    На етапі виділення ознак голосу мовний сигнал розбивається деякі звукові кадри, які згодом перетворюються на цифрову модель. Ці моделі називають "голосовими відбитками". Знову отриманий «голосовий відбиток» порівнюється з раніше встановленим стандартом. Для розпізнавання особистості говорить найважливішими є найяскравіші відмітні ознаки голоси, які б системі з високою точністю розпізнавати голос кожного конкретного користувача.

    Нарешті, система вирішує допустити чи відмовити користувачеві у допуску залежно від збігу чи розбіжності його голоси з встановленим стандартом. Якщо система неправильно зіставила пред'явлений їй голос з зразком, виникає помилка «хибний допуск» (FA). Якщо ж система не впізнала біометричну ознаку, що відповідає наявному в ній зразку, то говорять про помилку «хибна відмова» (FR). Помилка помилкового допуску створює пролом у системі безпеки, а помилка помилкової відмови призводить до зменшення зручності користування системою, яка іноді не розпізнає людину з першого разу. Спроба знизити ймовірність виникнення однієї помилки призводить до частішому виникненню інший, у залежність від вимог до системі вибирається певний компроміс, тобто. встановлюється поріг прийняття рішення.

    Висновок

    Методи голосової ідентифікації застосовують і практично. Технологія ідентифікації за голосом компанії дозволяє організувати регламентований доступ користувачів за заданою парольною фразою до ресурсів підприємства, телефонних та WEB-сервісів. Використання технології дозволяє суттєво підвищити захищеність систем та водночас спростити процес ідентифікації користувача. Технологія Voice Key забезпечить високу надійність та стабільність роботи системи, а також допоможе підвищити якість обслуговування клієнтів.

    Всі матеріали, розміщені на даному сайті, дозволені до публікації та друку на інших ресурсах та друкованих виданнях лише за наявності письмового дозволу компанії ТОВ "Мовні Технології"

    У нашому сучасному, насиченому подіями світі швидкість роботи з інформацією є одним з наріжних каменів досягнення успіху. Від того як швидко ми отримуємо, створюємо, переробляємо інформацію залежить наша робоча продуктивність і продуктивність, а значить і наш безпосередній матеріальний достаток. Серед інструментів, здатних підвищити наші робочі можливості, важливе місце займають програми для перекладу мови в текст, що дозволяють істотно збільшити швидкість набору текстів, які нам потрібні. У цьому матеріалі я розповім, які існують популярні програми для перекладу аудіо голосу в текст, і які особливості.

    Додаток для перекладу аудіо голосу до тексту – вимоги до системи

    Більшість існуючих програм для перекладу голосу в текст мають платний характер, пред'являючи ряд вимог до мікрофона (у випадку, коли програма призначена для комп'ютера). Вкрай не рекомендується працювати з мікрофоном, вбудованим у веб-камеру, а також розміщеним у корпусі стандартного ноутбука (якість розпізнавання мовлення з таких пристроїв знаходиться на досить низькому рівні). Крім того, досить важливо мати тихе навколишнє оточення, без зайвих шумів, здатних безпосередньо вплинути на рівень розпізнавання вашої мови.

    При цьому більшість таких програм здатні не тільки трансформувати мову в текст на екрані комп'ютера, але й використовувати голосові команди для керування вашим комп'ютером (запуск програм та їх закриття, прийом та відправлення електронної пошти, відкриття та закриття сайтів тощо).

    Програма перетворення мови на текст

    Перейдемо до безпосереднього опису програм, які можуть допомогти у перекладі мови в текст.

    Програма "Laitis"

    Безкоштовна російськомовна програма для розпізнавання голосу «Laitis» має гарну якість розуміння мови, і, на думку її творців, здатна практично повністю замінити користувачеві звичну клавіатуру. Програма добре працює і з голосовими командами, дозволяючи з їх допомогою виконувати безліч дій з керування комп'ютером.

    Для своєї роботи програма вимагає обов'язкової наявності на ПК швидкісного інтернету (у роботі програми використовуються мережеві сервіси розпізнавання голосу від Google і Yandex). Можливості програми дозволяють також управляти за допомогою голосових команд і вашим браузером, для чого необхідна установка на веб-навігатор спеціального розширення від Laitis (Chrome, Mozilla, Opera).

    "Dragon Professional" - розшифровка аудіозаписів у текст

    На момент написання цього матеріалу цифровий англомовний продукт « Dragon Professional Individual » є одним із світових лідерів за якістю розпізнаваних текстів. Програма розуміє сім мов (з російською поки що працює лише мобільний додаток «Dragon Anywhere» на і ), має високу якість розпізнавання голосу, вміє виконувати ряд голосових команд. При цьому цей продукт має виключно платний характер (ціна за основну програму становить 300 доларів США, а за «домашню» версія продукту «Dragon Home» покупцеві доведеться викласти 75 доларів США).

    Для своєї роботи цей продукт від Nuance Communications вимагає створення свого профілю, який покликаний адаптувати можливості програми під специфіку вашого голосу. Крім безпосереднього диктування тексту, ви можете навчити програму виконувати ряд команд, тим самим роблячи свою взаємодію з комп'ютером ще більш конгруентним та зручним.

    "RealSpeaker" - надточний розпізнавач мови

    Програма для трансформації голосу в текст RealSpeaker крім стандартних для програм такого роду функцій, дозволяє задіяти можливості веб-камери вашого ПК. Тепер програма не тільки зчитує аудіо складову звуку, а й фіксує рух куточків губ, що говорить, тим самим коректніше розпізнаючи висловлювані ним слова.


    «RealSpeaker» зчитує не тільки аудіо, а й візуальну складову процесу мовлення

    Додаток підтримує більше десяти мов (у тому числі і російську), дозволяє розпізнавати мову з урахуванням акцентів та діалектів, дозволяє транскрибувати аудіо та відео, дає доступ до хмари та багато іншого. Програма умовно безкоштовна, за платну версію доведеться заплатити цілком реальні гроші.

    Voco — програма швидко переведе голос у текстовий документ

    Ще один перетворювач голосу в текст - це платний цифровий продукт "Voco", ціна "домашньої" версії якого нині становить близько 1700 рублів. Більш просунуті і дорогі варіанти даної програми - Voco.Professional і Voco.Enterprise мають ряд додаткових можливостей, однією з яких є розпізнавання мови з аудіозаписів, що є у користувача.

    Серед особливостей Voco відзначу можливість доповнення словникового запасу програми (нині словниковий запас програми включає більше 85 тисяч слів), а також її автономну роботу від мережі, що дозволяє не залежати від вашого підключення до Інтернету.


    Серед плюсів "Voco" - висока навчання програми

    Програма включається досить просто - достатньо двічі натиснути клавішу Ctrl. Для активації голосового введення в Gboard достатньо натиснути і утримувати пробіл

    Додаток абсолютно безкоштовний, підтримує кілька десятків мов, серед яких і російська.

    Висновок

    Вище мною були перераховані програми для перекладу аудіо запису голосу в текст, описаний їх загальний функціонал і характерні особливості. Більшість подібних продуктів зазвичай має платний характер, при цьому асортимент та якість російськомовних програм якісно поступається англомовним аналогам. Особливу увагу при роботі з подібними програмами рекомендую приділити вашому мікрофону та його налаштуванням – це має важливе значення в процесі розпізнавання мови, адже поганий мікрофон може звести нанівець навіть найякісніший софт розглянутого мною типу.

    Жодна програма не зможе повністю замінити ручну роботу з розшифровування записаного мовлення. Однак існують рішення, які дозволяють суттєво прискорити та полегшити переклад мови в текст, тобто спростити транскрибацію.

    Що таке транскрибація

    Транскрибація – це автоматичний або ручний переклад мовлення в текст, точніше запис аудіо або відео-файлу в текстовому вигляді.

    Є в інтернеті платні завдання, коли за транскрибацію тексту виконавцю виплачується деяка сума грошей. І тут транскрибацію роблять вручну.

    Однак можна зробити транскрибацію автоматично, за допомогою спеціальної програми, що вміє "слухати" текст і одночасно "друкувати" його, перетворювати на текстовий файл, придатний для подальшого використання.

    Переклад мови в текст вручну або за допомогою спеціальної програми корисний

    • студентам для перекладу записаних аудіо- або відеолекцій в текст,
    • блогерам, що ведуть сайти та блоги,
    • письменникам, журналістам для написання книг та текстів,
    • інфобізнесменам, яким потрібен текст після проведеного ними вебінару, виступи тощо,
    • фрілансерам, які вручну роблять переклад мови в текст, для полегшення та прискорення своєї роботи,
    • людям, яким складно друкувати – вони можуть надиктувати листа та надіслати його рідним або близьким,
    • інші варіанти.

    Про проблеми автоматичного перекладу мови в текст

    Можна виділити дві великі проблеми перекладу мови в текст за допомогою програми: якість записаного мовлення і наявність запису фону як шуму, музики чи інших сторонніх звуків.

    Мова у всіх людей різна:

    • настільки швидка, що слова проковтуються, або, навпаки, дуже повільна;
    • з чіткою дикцією, як у професійних дикторів, або настільки невиразна, що складно щось розібрати;
    • з чудовою вимовою або, навпаки, з сильним акцентом, наприклад, коли каже іноземець.

    У яких випадках програма автоматичної транскрибації даватиме найкращий результат перекладу мови в текст? Програма буде робити більш менш якісний переклад, коли на записі людина говорить з чіткою дикцією, з нормальним темпом мови, без акценту. При цьому в записі промови відсутні сторонні звуки у вигляді шуму, музики, розмов інших людей. Тоді можна сподіватися на хороший автоматичний переклад, який не потребує ручних виправлень або мінімальних змін.

    В інших випадках, коли мова невиразна і присутні сторонні шуми, переклад за допомогою програми або програми буде значно гіршим. Можливо, якась програма або сервіс виконувати транскрибацію такої мови краще, ніж інші програми та програми, але не варто очікувати дива.

    У деяких випадках варто таки звернутися на біржу фрілансу, де жива людина виконає переклад вручну. Втім, тут теж не можна гарантувати високої якості, оскільки фрілансер може використовувати програми автоматичної транскрибації, і полінується вносити в текст правки, що вийшов.

    Опишемо найефективніші інструменти, доступні на комп'ютері, мобільні програми та онлайн-сервіси для перекладу мови в текст.

    1 Сайт speechpad.ru

    Це онлайн-сервіс, який дає змогу через браузер Google Chrome перекладати мову в текст. Сервіс працює з мікрофоном та з готовими файлами. Звичайно, якість буде значно вищою, якщо використовувати зовнішній мікрофон і диктувати самому. Проте сервіс непогано справляється навіть із відеороликами на YouTube.

    Натискаємо «Включити запис», відповідаємо на запитання про «Використання мікрофона» – для цього натискаємо «Дозволити».

    Довгу інструкцію щодо використання сервісу можна згорнути, натиснувши на кнопку 1 на рис. 3. Від реклами можна позбутися, пройшовши нескладну реєстрацію.

    Рис. 3. Сервіс speechpad

    Готовий результат легко редагується. Для цього потрібно вручну виправити виділене слово, або надиктувати його заново. Результати роботи зберігаються в особистому кабінеті, їх можна скачати на свій комп'ютер.

    Список відео-уроків з роботи зі speechpad:

    Можна транскрибувати відео з Youtube або зі свого комп'ютера, щоправда, знадобиться мікшер.

    Відео «Транскрибування аудіо»

    Працює сервіс із сімома мовами. Є маленький мінус. Він полягає в тому, що якщо потрібно транскрибувати готовий аудіо-файл, його звучання лунає в колонки, що створює додаткові перешкоди у вигляді луни.

    2 Сервіс dictation.io

    Чудовий онлайн-сервіс, який дозволить безкоштовно та легко перекладати мову в текст.

    Рис. 4. Сервіс dictation.io

    1 на рис. 4 – російську мову можна вибрати наприкінці сторінки. У браузері Google Chrome мова вибирається, а в Мозіллі чомусь немає такої можливості.

    Примітно, що реалізована можливість автозберігати готовий результат. Це убезпечить від випадкового видалення в результаті закриття вкладки або браузера. Готові файли цей сервіс не розпізнає. Працює із мікрофоном. Потрібно називати розділові знаки, коли робите диктовку.

    Текст розпізнається досить коректно, орфографічних помилок немає. Можна самостійно вставляти розділові знаки з клавіатури. Готовий результат можна зберегти на комп'ютері.

    3 RealSpeaker

    Ця програма дозволяє легко переводити людську мову на текст. Вона варта роботи у різних системах: Windows, Android, Linux, Mac. З її допомогою можна перетворювати мову, що звучить у мікрофон (наприклад, він може бути вбудований в ноутбук), а також записану в аудіофайли.

    Може сприймати 13 мов світу. Існує бета-версія програми, яка працює в режимі онлайн-сервісу:

    Потрібно перейти за вказаним вище посиланням, вибрати російську мову, завантажити на онлайн-сервіс свій аудіо- або відео-файл та оплатити його транскрибацію. Після транскрибації можна буде скопіювати отриманий текст. Чим більше файл для транскрибації, чим більше часу знадобиться на обробку, докладніше:

    У 2017 році був безкоштовний варіант транскрибації за допомогою RealSpeaker, з 2018 року такої можливості немає. Ймовірно для того, щоб транскрибований файл був недоступний всім користувачам для скачування, необхідно наявність галочки навпаки "Зробити файл невдалим протягом 24 годин".

    На сайті є онлайн-чат. Кнопка, щоб почати чат, знаходиться в нижньому правому кутку сайту.

    4 Speechnotes

    Альтернатива попередньому додатку для мобільних пристроїв, що працюють на Android. Доступно безкоштовно в магазині додатків:

    Текст редагується автоматично, в ньому розставляються розділові знаки. Дуже зручно для того, щоб надиктувати собі нотатки або складати списки. В результаті текст вийде дуже гідної якості. Є платна преміум-версія.

    5 Dragon Dictation

    Ця програма, яка поширюється безкоштовно для мобільних пристроїв від компанії Apple.

    Програма може працювати з 15-ма мовами. Вона дозволяє редагувати результат, вибирати потрібні слова зі списку. Потрібно чітко промовляти всі звуки, не робити зайвих пауз та уникати інтонації. Іноді виникають помилки на закінчення слів.

    Додаток Dragon Dictation використовують власники яблучних гаджетів, наприклад, щоб переміщаючись по квартирі, надиктувати список покупок у магазині. Прийшовши туди, вони можуть подивитись текст у замітці, і не треба слухати.

    Яку б програму Ви не використовували у своїй практиці, будьте готові перевіряти ще раз результат і вносити певні корективи.

    Тільки так можна буде отримати бездоганний текст без помилок.

    Розшифровка аудіо та відео в текст на біржах фрілансу

    Що ж до ручного перекладу, можна замовити на біржі розшифровку мови в текст. На біржі фрілансу одні користувачі (замовники) розміщують замовлення, вибирають виконавця та оплачують роботу. А інші користувачі (фрілансери) беруть замовлення, виконують необхідну роботу та одержують за неї оплату.

    Як можна зробити замовлення на біржі фрілансу? Спочатку потрібно зареєструватись на сайті біржі, тобто пройти там реєстрацію. Потім можна буде розмістити замовлення – завдання на транскрибацію.

    Для свого замовлення на біржі можна обрати виконавця – людину, яка робитиме транскрибацію. Для цього необхідно, щоб хоча б один із потенційних виконавців погодився взятися за запропоновану роботу. Якщо ж ніхто не взяв замовлення, потрібно змінювати його параметри, наприклад, підвищувати ціну за роботу.


    Оплата за виконану роботу здійснюється не безпосередньо виконавцю-фрілансеру, а через біржу фрілансу. При розміщенні замовлення зазвичай потрібно поповнити рахунок на суму, необхідну для транскрибації. Крім того, може бути комісія біржі за посередництво у вигляді фіксованої суми або фіксованого відсотка суми замовлення. Оплата роботи проводиться після її перевірки та схвалення замовником. Найчастіше сума відправляється виконавцю одночасно зі схваленням його роботи замовником.

    Перш ніж робити замовлення, варто прочитати правила біржі щодо перевірки виконаного завдання, його оплати, а також введення та виведення грошей на біржу. Виведення грошей потрібен, щоб гроші, що залишилися, що планувалися для оплати інших замовлень, могли повернутися назад замовнику, а не залишилися б назавжди на біржі.

    Нижче пропоную дві відомі біржі фрілансу, де можна розмістити замовлення для перекладу мови в текст за допомогою фрілансера: weblancer.net та freelance.ru.

    Дві біржі фрілансу

    Розшифровка аудіо та відео в текст (транскрибація) на біржі фрілансу weblancer.net:

    Рис. 5. (натисніть для збільшення)

    Біржа фрілансу weblancer.net

    Інша біржа, де можна замовити розшифровку аудіо/відеозаписів – freelance.ru

    Біржа фрілансу freelance.ru

    Для того щоб розпізнати мовленнята перевести її з аудіо або відео до тексту, існують програми та розширення (плагіни) для браузерів. Однак навіщо все це, якщо є онлайн-сервіси? Програми треба встановлювати на комп'ютер, більш того, більшість програм розпізнавання мови далеко не безкоштовні.


    Велика кількість встановлених у браузері плагінів сильно гальмує його роботу та швидкість серфінгу в інтернеті. А послуги, про які сьогодні йтиметься, повністю безкоштовні і не вимагають установки - зайшов, користувався і пішов!

    У цій статті ми розглянемо два сервіси перекладу мови в текст онлайн. Обидва вони працюють за подібним принципом: Ви запускаєте запис (дозволяєте браузеру доступ до мікрофона на час користування сервісом), говорите в мікрофон (диктуєте), а на виході отримуєте текст, який можна скопіювати в будь-який документ на комп'ютері.

    Speechpad.ru

    Російськомовний онлайн сервіс розпізнавання мови. Має докладну інструкцію щодо роботи російською мовою.

    • підтримку 7 мов (російська, українська, англійська, німецька, французька, іспанська, італійська)
    • завантаження для транскрибації аудіо або відео файлу (підтримуються ролики з YouTube)
    • синхронний переклад іншою мовою
    • підтримку голосового введення розділових знаків та перекладу рядка
    • панель кнопок (зміна регістру, переклад на новий рядок, лапки, дужки тощо)
    • наявність персонального кабінету з історією записів (опція доступна після реєстрації)
    • наявність плагіна до Google Chrome для введення тексту голосом у текстовому полі сайтів (називається «Голосове введення тексту — Speechpad.ru»)

    Dictation.io

    Другий онлайн сервіс перекладу мови до тексту. Іноземний сервіс, який, тим часом, чудово працює з російською мовою, що вкрай дивно. За якістю розпізнавання мови не поступається Speechpad, але про це трохи пізніше.

    Основний функціонал сервісу:

    • підтримка 30 мов, серед яких присутні навіть угорська, турецька, арабська, китайська, малайська та ін.
    • авторопознання вимови розділових знаків, перекладу рядка та ін.
    • можливість інтеграції зі сторінками будь-якого сайту
    • наявність плагіна для Google Chrome (називається "VoiceRecognition")

    У справі розпізнавання мови найважливіше значення має саме якість перекладумовлення в тексті. Приємні «плюшки» та похвоти – не більше ніж добрий плюс. То чим же можуть похвалитися в цьому плані обидва сервіси?

    Порівняльний тест сервісів

    Для тесту виберемо два непростих для розпізнавання фрагмента, які містять нечасто вживані у мові слова і мовні звороти. Спочатку читаємо фрагмент поеми «Селянські діти» М. Некрасова.

    Нижче представлений результат перекладу мови у тексткожним сервісом (помилки позначені червоним кольором):

    Як бачимо, обидва сервіси практично з однаковими помилками впоралися з розпізнаванням мови. Результат дуже непоганий!

    Тепер для тесту візьмемо уривок із листа червоноармійця Сухова (к/ф «Біле сонце пустелі»):

    Відмінний результат!

    Як бачимо, обидва сервіси дуже гідно справляються з розпізнаванням мови – вибирайте будь-хто! Схоже, що вони навіть використовують один і той же двигун - вже схожі у них виявилися допущені помилки за результатами тестів). Але якщо Вам потрібні додаткові функції типу підвантаження аудіо/відео файлу та перекладу його в текст (транскрибація) або синхронного перекладу озвученого тексту іншою мовою, то Speechpad буде найкращим вибором!


    До речі, ось як він виконав синхронний переклад фрагмента поеми Некрасова англійською мовою:

    Ну а це коротка інструкція по роботі зі Speechpad, записана самим автором проекту:

    Друзі, чи Вам сподобався даний сервіс? Чи знаєте Ви якісніші аналоги? Діліться своїми враженнями у коментарях.