Голосовые технологии и ассистенты
Социальные технологии

Создание голосового помощника для людей с дефектами речи

Согласно отделу неврологии Медицинского центра Майо в США, средний процент пациентов, у которых за период с 1993 по 2008 год были выявлены нарушения моторики речи, составлял 57%. Среди этой группы людей около 20% были опознаны с гиперкинетической дисартрией. Люди с речевыми нарушениями сталкиваются с множеством проблем в повседневной жизни, в основном из-за трудностей, которые другие испытывают, пытаясь понять их речь. Реализация системы распознавания речи для гиперкинетической дисартрии могла бы значительно улучшить качество жизни людей с нарушениями голоса.

Достижения

Статьи, опубликованные в рецензируемых научных журналах и изданиях, определенных ВАК РФ и Аттестационным советом УрФУ:

  • А. М. Хасан, К. Р. Дмитриевич, М. А. Валерьевич и др., «Нарушения голоса при гиперкинетической дизартрии: нейросетевое решение для перевода текста». Межд. Дж. Речевые технологии, том. 27, стр. 255–265, 2024. https://doi.org/10.1007/s10772-024-10098-5
  • Б. А. Бредихин, А. М. Хасан, Н. А. Хлебников и др., «Распознавание речи при дизартрии по фонемам с использованием скрытых марковских моделей». Моделирование, оптимизация и информационные технологии», том. 12, нет. 1, стр. 1–9, 2024. https://doi.org/10.26102/2310-6018/2024.44.1.002
  • А. М. Хасан, Н. В. Чудиновских, Б. А. Бредихин и др., «Голосовой помощник на основе машинного обучения: оптимизация эффективности преобразования речи для людей с речевыми нарушениями». Компьютерная оптика, Принято, 2024.


Конференция:

  • А. М. Хасан, К. Р. Дмитриевич, М. А. Валерьевич и др., «Распознавание речи на основе глубокого обучения при гиперкинетической дизартрии». Урало-Сибирская конференция IEEE по биомедицинской инженерии, радиоэлектронике и информационным технологиям (USBEREIT), принята, 2024.


Интеллектуальная собственность:

  • М. В. Бачурин, Н. В. Чудиновских, А. М. Хасан и др., «Ненормальный_голос_В_Текст_переводчик». Свидетельство о государственной регистрации программы для ЭВМ, свидетельство №. RU 2024611256, 2024. https://elibrary.ru/item.asp?id=59917112
  • М.В. Бачурин, Д.В. Дорох, А. М. Хасан и др., «Набор данных о русских аномальных голосах». Свидетельство о государственной регистрации базы данных, свидетельство №. RU 2024620051, 2024. https://elibrary.ru/item.asp?id=59913904

Решение

  • Русский датасет речи: Реализация датасета с дефектной речью на русском языке для обучения модели.
  • Глубокое обучение: Разработка модели глубокого обучения для распознавания образцов речи.
  • Обнаружение речи: Внедрение функции обнаружения речевой активности для реального времени транскрибации.
  • Перевод дисартрии: Разработка системы для преобразования гиперкинетической дисартрии в текст.

Результаты

Производительность модели: Предложенная модель достигает показателя ошибок на уровне символов (CER) 14,76% и показателя ошибок на уровне слов (WER) 62,13%. Это означает, что почти 85% символов и около 35-38% слов точно распознаются из дефектной речи.

Сравнение с другими моделями: По сравнению с существующими моделями, такими как CSVM и DDBHMM, предложенная модель превосходит их по точности обучения, достигая до 90,11%, в то время как CSVM и DDBHMM достигают максимальной точности 81,83% и 83,87% соответственно.

Практическое применение: Был разработан телеграм-бот и веб-приложение для помощи людям с нарушениями речи гиперкинетической дисартрии. Приложения получают голосовые сообщения, преобразуют их в текст с помощью предложенной модели.

Существующие работы

Многие исследования предложили ряд техник для распознавания и классификации речевых нарушений. Например, метод опорных векторов (Support Vector Machine), метод k-ближайших соседей (K-Nearest Neighbor) и методы, основанные на дискриминантной функции для диагностики болезни Паркинсона. Хотя алгоритмы машинного обучения эффективны, они имеют недостаток - требуются ручной выбор признаков, что может быть трудоемким и затратным по времени. Чтобы решить эти проблемы, мы предлагаем модель глубокого обучения для распознавания и понимания речи при гиперкинетической дисартрии.

Проблема

Согласно отделу неврологии Медицинского центра Майо в США, средний процент пациентов, у которых за период с 1993 по 2008 год были выявлены нарушения моторики речи, составлял 57%. Среди этой группы людей около 20% были опознаны с гиперкинетической дисартрией. Люди с речевыми нарушениями сталкиваются с множеством проблем в повседневной жизни, в основном из-за трудностей, которые другие испытывают, пытаясь понять их речь. Реализация системы распознавания речи для гиперкинетической дисартрии могла бы значительно улучшить качество жизни людей с нарушениями голоса.

Решение

Русский датасет речи: Реализация датасета с дефектной речью на русском языке для обучения модели. Глубокое обучение: Разработка модели глубокого обучения для распознавания образцов речи. Обнаружение речи: Внедрение функции обнаружения речевой активности для реального времени транскрибации. Перевод дисартрии: Разработка системы для преобразования гиперкинетической дисартрии в текст.

Заказчик

УрФУ

Галерея

Видео

Команда проекта