Authors: Lenar Gabdrakhmanov, Rustem Garaev, Evgenii Razinkov (L. Gabdrakhmanov and R. Garaev contributed equally to this work)
Abstract: We present RUSLAN – a new open Russian spoken language corpus for text-to-speech task. RUSLAN contains 22200 audio samples with text annotations – more than 31 hours of high-quality speech of one person – being the largest annotated Russian corpus in terms of speech duration for a single speaker. We trained deep neural network for text-to-speech task on our corpus and evaluated quality of the synthesized speech using Mean Opinion Score test. Synthesized speech achieves 4.05 score for naturalness and 3.78 score for intelligibility on a 5-point MOS scale.
Аннотация: Мы представляем "RUSLAN" – новый открытый датасет на русском языке для задачи преобразования текста в речь. Корпус, состоящий из 22,200 высококачественных аудиозаписей речи с соответствующими текстовыми аннотациями общей продолжительностью более 31 часа, является наибольшим по продолжительности датасетом для одного диктора на русском языке. Мы обучили глубокую нейронную сеть для задачи преобразования текста в речь на нашем корпусе и оценили качество синтезированной речи с помощью средней экспертной оценки MOS (Mean Opinion Score). Сгенерированная речь получила 4.05 балла за естественность и 3.78 за разборчивость по 5-балльной шкале MOS.
Link: Springer
Download: Corpus is available here (7 Gb) under the CC BY-NC-SA 4.0 license.
Feel free to ask any questions here.
Citation:
"Это было в октябре тысяча девятьсот сорок пятого года."
"Причем нам нужен именно западный моряк."
"Кабинеты предназначены для штатных сотрудников. Общие залы, разделенные перегородками, для внештатных."
"Синтез речи – это увлекательно"
"На вход подается текст, на выходе получается речь"
"Эксперименты подтверждают результаты"
"Как платил Незнайка за свои вопросы"
"Почему же так важно упомянуть эту группу? Раздел теоретической физики, описывающий физические явления"
"Ты звонишь, я звоню, мы звоним"