Кыргызстанская модель синтеза речи Kani TTS 2 оказалась в топе на платформе Hugging Face

Виктор Сизов Общество / Эксклюзив
VK X OK WhatsApp Telegram

Кыргызстанская команда разработчиков вновь продемонстрировала свои достижения на международной технологической арене, сообщается в Парке высоких технологий (ПВТ) Кыргызстана.
Стартап NineNineSix представил обновлённую версию модели синтеза речи Kani TTS2, которая уже успела войти в число самых востребованных TTS-моделей на платформе Hugging Face — одной из крупнейших в мире коллекций искусственного интеллекта.

Kani TTS 2 — это результат эволюции предыдущих разработок команды. Модель теперь способна генерировать до 40 секунд речи за один проход, что более чем в два раза превышает показатели её предшественницы.

В ПВТ отметили, что для открытой модели, созданной в Кыргызстане, вход в тройку лучших TTS на Hugging Face является редким и значимым достижением.
О команде NineNineSix

NineNineSix — это кыргызстанская команда разработчиков, специализирующаяся на языковых технологиях в области искусственного интеллекта.

Ранее они представили первую версию Kani TTS и разработали голосовую колонку, а также AI-ассистента AkylAi, который стал первым искусственным интеллектом, говорящим на кыргызском языке.
Голос для языков с ограниченными ресурсами

В то время как многие крупные AI-компании сосредоточены на английском и других широко распространенных языках, малоресурсные языки часто остаются вне поля их зрения. NineNineSix выбрала иной путь.

Модель Kani TTS 2 поддерживает английский, испанский и кыргызский языки, а её архитектура позволяет адаптировать её для практически любого языка, акцента или диалекта.

Одной из ключевых особенностей проекта стало то, что команда опубликовала полный код для предварительного обучения, что позволяет любой стране или исследовательской группе создавать собственную голосовую модель на базе Kani TTS 2.

Как отметил сооснователь nineninesix.ai Нурсултан Бакашов: «Kani TTS 2 — это следующий шаг после первой версии, мы улучшили стабильность генерации речи и научили модель обрабатывать длинные фрагменты. Наша цель — разработка компактных и открытых моделей, которые проще адаптировать под разные языки и акценты, включая малоресурсные. Мы хотим продемонстрировать, что технологии мирового уровня могут быть созданы в Кыргызстане, поэтому мы открыли не только веса модели, но и весь код для предварительного обучения, чтобы любая команда могла обучить TTS для своего языка».
Основные улучшения Kani TTS 2 включают:

* Способность к стабильной генерации речи до 40 секунд за один проход;

* Поддержка технологии zero-shot voice cloning — клонирование голоса по короткому аудиофрагменту;

* Полностью открытая архитектура и код обучения;

* Вход в топ-3 TTS-моделей на Hugging Face.

По данным ПВТ, модель состоит из около 400 миллионов параметров, была предобучена на приблизительно 10 000 часов речевых данных и может функционировать на GPU с 3 ГБ видеопамяти, что делает её доступной как для локального, так и для серверного использования.

«Kani TTS 2 — это не просто очередная AI-модель. Это подтверждение того, что кыргызстанские специалисты способны разрабатывать технологии мирового уровня и конкурировать на глобальном рынке ИИ. NineNineSix демонстрирует, что Кыргызстан может быть не только потребителем, но и создателем передовых AI-решений», - добавили в ПВТ.
VK X OK WhatsApp Telegram

Читайте также:

Что такое аудирование?

Что такое аудирование?

Аудирование по английскому языку для начинающих с заданиями – слушать онлайн Для того чтобы...

Экскурсии на английском

Экскурсии на английском

Экскурсии на английском языке Москва – один из главных туристических городов Европы. Ежегодно в...