Аннотация:Ученые достаточно давно работают над алгоритмами, позволяющими транслировать текст, на писанный на естественном языке, в речь. Но качество работы этих алгоритмов оставляло желать лучшего до момента, когда применение методов глубокого обучения не стало возможным. С появлением необходимых вычислительных ресурсов и накопления достаточного количества данных для обучения, эти методы стали широко применять в машинном обучении в целом и, конечно, в синтезе речи в частности. Существенное улучшение качества работы алгоритмов трансляции текста в речь привело к их повсеместному применению, а именно в мобильных устройствах, умных колонках, голосовых помощниках и т.д. Но стоит отметить, что алгоритмы данного класса, разработанные на данный момент, не всегда корректно справляются с поставленной задачей. К примеру, не всегда могут корректно поставить ударение или озвучить нужные участки текста с необходимой интонацией. Таким образом исследование методов и средств, позволяющих синтезировать речь, приобрело еще большую актуальность.
В работе рассматриваются современные архитектуры преобразования текста в речь и проводится их сравнительный анализ. На основе лучшей на сегодняшней день архитектуры производится исследование для возможности ее улучшения при помощи вейвлет анализа. Полученный алгоритм был оценен при помощи PESQ оценки.