Арабский язык — один из самых сложных и богатых языков в мире, которым говорят в Азии и Африке. Он является официальным языком более чем в 22 странах. Однако между стандартным письменным арабским и разговорными диалектами, используемыми в различных регионах, существуют значительные различия.
Распознавание диалектов представляет собой более сложную задачу для моделей распознавания речи, чем идентификация языков, объясняет научный сотрудник KAUST Сумир Хан. «Диалекты имеют схожие акустические и лингвистические характеристики по сравнению с разными языками. Малейшие различия в произношении и акценте служат подсказками для идентификации диалектов».
Срижит Радхакришнан, интерн в лаборатории Living Systems под руководством Йеспера Тегнера, возглавил проект по созданию модели для идентификации арабских диалектов. Проект был выполнен в сотрудничестве с бывшим стажёром KAUST Чао-Хан Хуком Янгом из Amazon Research, который теперь работает в NVIDIA Research.
Используя крупную открытую модель распознавания речи Whisper в качестве основы, исследователи адаптировали её с помощью онлайн-датасета, включающего 17 различных диалектов арабского языка. Они применили модель в условиях ограниченных ресурсов и данных, добавив небольшие модули в «замороженную» предварительно обученную модель.
«Мы внесли технические изменения в архитектуру и изучили различные способы интеграции обучаемых функций в замороженную модель», — говорит Хан. Это позволило сократить время и ресурсы, необходимые для настройки модели.
Команда достигла высокой точности в распознавании диалектов, используя только 2,5% параметров более крупной модели и 30% тренировочных данных. Этот подход, известный как параметро-эффективное обучение, снижает вычислительные затраты за счёт адаптации крупных моделей с использованием лишь небольшой части параметров.
«Основной недостаток крупных моделей заключается в их ресурсозатратности: они требуют больших вычислительных мощностей и обширных наборов данных. Наша цель — изменить архитектуру так, чтобы её можно было использовать в условиях ограниченных ресурсов», — объясняет Хан. «Такое обучение очень важно в различных областях, поскольку не у всех есть доступ к большим ресурсам для тренировки моделей».
Два научных доклада Срижита уже были опубликованы и представлены на ведущих конференциях по языкам и речи, таких как EMNLP 2023 и Interspeech 2023.
Хотя идентификация диалектов может стать важным шагом к созданию системы распознавания арабской речи, Йеспер Тегнер уверен, что исследование имеет более широкие применения. Он объясняет, что если можно преобразовать устную речь в текст, то можно объединить это с изображениями и строить целые истории, что открывает возможность создания целой экосистемы.
Тегнер считает, что эта работа может применяться, например, в медицине, где комбинация речи, текста и изображений может улучшить понимание пациентов.
Проект также открыл новые возможности для Радхакришнана. «Он приехал в KAUST как бакалавр и проявил себя блестяще; теперь он мотивирован поступить в магистратуру и докторантуру и подал заявки в несколько ведущих университетов США», — говорит Тегнер.