«Яндекс» в качестве конкурента не рассматриваем»: как софт из Татарстана оценили в 93 странах мира

Директор Института прикладной семиотики АН РТ Ринат Гильмуллин рассказал о ключевых для татарского языка IT-проектах.

news_top_970_100

«Было сложновато работать с Яндексом, честно говоря, такие коммерческие компании не заинтересованы в развитии таких малоресурсных языков», – рассказал о попытке  взаимодействия с российским интернет-гигантом директор Института прикладной семиотики АН РТ Ринат Гильмуллин, под руководством которого разрабатываются IT-проекты для татарского языка.

Сегодня веб-сервисом онлайн-перевода Института пользуются представители 93 стран мира. За последние 2 месяца, со слов Гильмуллина, прирост по зарубежным странам составил 61%, по России – 30%.

В планах –  реализация голосового перевода, для этого разработчики активно собирают речевую базу татарских голосов с учетом возраста и пола «голосов». Другая «хотелка» айтишников и языковедов – возможность фотоперевода, когда у пользователя будет возможность получать мгновенный перевод текста через н адисплее мобильного телефона. Стоит перед Институтом также задача по расширению линейки тюркских языков.

«Нам нужно 200 часов речевой базы»

Несколько последних лет Институт прикладной семиотики Академии наук РТ посвятил реализации ключевых для татарского языка IT-проектов: это и машинный переводчик Tatsoft, и мобильные приложения с татарской клавиатурой под Android «Тиз.Яз», и «Татарская клавиатура» под iOS, а также многое другое. К слову, в 2015 году переводчик в русско-татарской языковой паре был включен в сервис Яндекс.Перевод.

Tatsoft также используется в системе SmartCAT для поддержки автоматизированного перевода документов. К системе подключены госучреждения и муниципальные образования республики.

«Движок используется в других сервисах, например, SmartCATдля ведения делопроизводства. Планируется использовать его в образовательных проектах, для создания субтитров телевизионных передач и видеороликов, а также для поддержки автоматического перевода на государственных языках РТ», – рассказал Гильмуллин на пресс-конференции, посвященной планам по развитию машинного переводчика. 

К числу разработок Института отнесится также татарская версия Tatar Chat в GPT, который позволяет общаться с ИИ на татарском языке. В планах – реализация голосового перевода.

 Пути татарстанских разработчиков и Яндекс разошлись. По словам Гильмуллина, Институт не устроитло и качество перевода, реализованное интернет-гигантом. 

Фото: © Рамиль Гали

«Чтобы создать такой [голосовой] переводчик нам нужно собрать большой объем речевой базы татарских голосов. В чем сложность – одно дело построить модель для одного человека, а когда нужно учитывать голоса людей разного возраста и пола… В зависимости от того, где это произнесено: на улице, в транспорте и т.д. Модель должна четко понимать такие голосовые сообщения. Поэтому нам важно собирать как можно больше таких голосовых сообщений. Для этого мы создали Telegram-бот «Татар Тавышы», – пояснил спикер.

Для пополнения базы не так давно запустили Telegram-бот, позволяющий записывать голосовые сообщения. Поделиться своим голосом может любой желающий.

«Любой может стать участником и внести вклад в реализацию этого функционала. Уже приняли участие 467 человек, всего было отправлено 16,3 тыс. сообщений. На сегодня это порядка 24 часов нам нужно больше – как минимум 200 часов речевой базы», – заверил Гильмуллин.

Для голосового переводчика необходим

большой объекм речевого корпуса.

Для этого разработан Телеграм-бот «Татар тавышы».

Любой желающий может озвучить предложения

и внести свой вклад в развитие популярного сервиса. 

Не отказываются разработчики и от планов по реализации функции фотоперевода, когда пользователь сможет прочесть на русском или татарском языке текст афиши, книги, вообще любого текста, наведя на него камеру смартфона.

«Мы начинали сотрудничество с Яндексом в 2013 – 2014 году. У нас было желание включить татарский язык в их сервис, мы им базы тексты предавали, чтоб язык появился, – ответил Гильмуллин на возражение журналистов о наличие подобной функции у Яндекса. – Было сложновато работать, честно говоря, такие коммерческие компании не заинтересованы в развитии таких малоресурсных языков. У них задача номер 1 – коммерческий интерес».

В желании иметь большую свободу действий пути татарстанских разработчиков и Яндекс разошлись. По словам Гильмуллина, Институт не устроило и качество перевода, реализованное интернет-гигантом. 

«Мы решили создать свой переводчик, причем это первый нейросетевой переводчик с использованием технологии ИИ. В 2019 году Яндекс выпустили на таких технологиях, потом появился Qoogle [перевод]. Мы оцениваем качество перевода Tatsoft на сегодня как лучшее среди своих аналогов Qoogle и Яндекс», – заявил он.

 Фото: © Рамиль Гали

Стоит перед Институтом и задача расширения линейки тюркских языков в рамках проекта TurkLang 7. Это машинный переводчик, который позволит переводить на русский и обратно шесть тюркских языков: татарский, башкирский, казахский, узбекский, крымско-татарский, чувашский.

Гильмуллин отметил, что Tatsoft может предоставить разработчикам практически безграничные возможности, в том числе – создать нишу взамен ушедшего из России приложения для знакомств Tinder.

«Наши приложения, тот же переводчик Tatsoft можно использовать по доступным IP, можно подключаться и воспользоваться переводом. А разработчики могут воспользоваться, как захотят. У института такой задачи нет, но возможность есть», – резюмировал спикер.

news_right_column_240_400