Адаптация ИИ для распознавания арабских диалектов | Все о науке, космосе, инновациях и исследованиях

Арабский язык — один из самых сложных и богатых языков в мире, которым говорят в Азии и Африке. Он является официальным языком более чем в 22 странах. Однако между стандартным письменным арабским и разговорными диалектами, используемыми в различных регионах, существуют значительные различия.

Распознавание диалектов представляет собой более сложную задачу для моделей распознавания речи, чем идентификация языков, объясняет научный сотрудник KAUST Сумир Хан. «Диалекты имеют схожие акустические и лингвистические характеристики по сравнению с разными языками. Малейшие различия в произношении и акценте служат подсказками для идентификации диалектов».

Срижит Радхакришнан, интерн в лаборатории Living Systems под руководством Йеспера Тегнера, возглавил проект по созданию модели для идентификации арабских диалектов. Проект был выполнен в сотрудничестве с бывшим стажёром KAUST Чао-Хан Хуком Янгом из Amazon Research, который теперь работает в NVIDIA Research.

Используя крупную открытую модель распознавания речи Whisper в качестве основы, исследователи адаптировали её с помощью онлайн-датасета, включающего 17 различных диалектов арабского языка. Они применили модель в условиях ограниченных ресурсов и данных, добавив небольшие модули в «замороженную» предварительно обученную модель.

«Мы внесли технические изменения в архитектуру и изучили различные способы интеграции обучаемых функций в замороженную модель», — говорит Хан. Это позволило сократить время и ресурсы, необходимые для настройки модели.

Команда достигла высокой точности в распознавании диалектов, используя только 2,5% параметров более крупной модели и 30% тренировочных данных. Этот подход, известный как параметро-эффективное обучение, снижает вычислительные затраты за счёт адаптации крупных моделей с использованием лишь небольшой части параметров.

«Основной недостаток крупных моделей заключается в их ресурсозатратности: они требуют больших вычислительных мощностей и обширных наборов данных. Наша цель — изменить архитектуру так, чтобы её можно было использовать в условиях ограниченных ресурсов», — объясняет Хан. «Такое обучение очень важно в различных областях, поскольку не у всех есть доступ к большим ресурсам для тренировки моделей».

Два научных доклада Срижита уже были опубликованы и представлены на ведущих конференциях по языкам и речи, таких как EMNLP 2023 и Interspeech 2023.

Хотя идентификация диалектов может стать важным шагом к созданию системы распознавания арабской речи, Йеспер Тегнер уверен, что исследование имеет более широкие применения. Он объясняет, что если можно преобразовать устную речь в текст, то можно объединить это с изображениями и строить целые истории, что открывает возможность создания целой экосистемы.

Тегнер считает, что эта работа может применяться, например, в медицине, где комбинация речи, текста и изображений может улучшить понимание пациентов.

Проект также открыл новые возможности для Радхакришнана. «Он приехал в KAUST как бакалавр и проявил себя блестяще; теперь он мотивирован поступить в магистратуру и докторантуру и подал заявки в несколько ведущих университетов США», — говорит Тегнер.