Проект реализуется с 2019 года и разработчики продолжают улучшать работу сайта по сей день. В рамках проекта в предыдущие годы достигнуты следующие результаты: накопление параллельных обучающих корпусов данных, разработка методов искусственного расширения обучающих данных, внедрение структурно-функциональной модели морфем, а также создание программных средств обучения машинного переводчика на основе современных нейросетевых подходов – все это способствует решению актуальных и значимых задач по сохранению, развитию и популяризации государственных языков в Республике Башкортостан, а также расширению присутствия башкирского языка в Интернет-пространстве.
На основе собранных в 2020 году параллельных данных произведено обучение ансамбля из 8 нейросетей, демонстрирующего наилучшее качество распознавания. Продолжается накопление и обработка материалов, доступных одновременно на башкирском и русском языке. Осуществлена обработка новостей на двух языках, опубликованных в 2021 году. Всего обработано более 14 тысяч Интернет-страниц.
Озвученные диктором записи были проанализированы и обработаны экспертами. Итогом этой работы стала база данных, готовая для использования при обучении нейросетевого синтезатора башкирской речи. В общей сложности было выделено 19892 предложений общей длительностью 40 часов.
Заключительным этапом проекта станет доработка программной части веб-сайта переводчика https://bashkortsoft.ru/ с целью включения возможности диктовки с микрофона для различных устройств, как стационарных, так и мобильных.
Проект реализуется на средства гранта на сохранение и развитие государственных языков республики и языков народов Башкортостана Фонда содействия гражданскому обществу РБ.