RUSLAN: Russian Spoken Language Corpus For Speech Synthesis

Authors: Lenar Gabdrakhmanov, Rustem Garaev, Evgenii Razinkov (L. Gabdrakhmanov and R. Garaev contributed equally to this work)

Abstract: We present RUSLAN – a new open Russian spoken language corpus for text-to-speech task. RUSLAN contains 22200 audio samples with text annotations – more than 31 hours of high-quality speech of one person – being the largest annotated Russian corpus in terms of speech duration for a single speaker. We trained deep neural network for text-to-speech task on our corpus and evaluated quality of the synthesized speech using Mean Opinion Score test. Synthesized speech achieves 4.05 score for naturalness and 3.78 score for intelligibility on a 5-point MOS scale.

Аннотация: Мы представляем "RUSLAN" – новый открытый датасет на русском языке для задачи преобразования текста в речь. Корпус, состоящий из 22,200 высококачественных аудиозаписей речи с соответствующими текстовыми аннотациями общей продолжительностью более 31 часа, является наибольшим по продолжительности датасетом для одного диктора на русском языке. Мы обучили глубокую нейронную сеть для задачи преобразования текста в речь на нашем корпусе и оценили качество синтезированной речи с помощью средней экспертной оценки MOS (Mean Opinion Score). Сгенерированная речь получила 4.05 балла за естественность и 3.78 за разборчивость по 5-балльной шкале MOS.

Link: Springer

Download: Corpus is available here (7 Gb) under the CC BY-NC-SA 4.0 license.

Feel free to ask any questions here.

Citation:

                Gabdrakhmanov L., Garaev R., Razinkov E. (2019) RUSLAN: Russian Spoken Language Corpus for Speech Synthesis.
                In: Salah A., Karpov A., Potapova R. (eds) Speech and Computer. SPECOM 2019.
                Lecture Notes in Computer Science, vol 11658. Springer, Cham
            

Samples from corpus:

"Это было в октябре тысяча девятьсот сорок пятого года."
"Причем нам нужен именно западный моряк."
"Кабинеты предназначены для штатных сотрудников. Общие залы, разделенные перегородками, для внештатных."

Synthesized speech (based on texts which are not presented in corpus):

"Синтез речи – это увлекательно"
"На вход подается текст, на выходе получается речь"
"Эксперименты подтверждают результаты"
"Как платил Незнайка за свои вопросы"
"Почему же так важно упомянуть эту группу? Раздел теоретической физики, описывающий физические явления"
"Ты звонишь, я звоню, мы звоним"