Устная речь имеет двойственную природу: семантическую и акустическую. С одной стороны, она является результатом интеллектуальной деятельности говорящего, использующего средства языка для общения с другими членами данного языкового коллектива.
С другой стороны, она представляет собой звуковую волну, передающую от говорящего к слушающему наряду со смысловой информацией комплекс экстралингвистической информации. Общепризнанным свойством речи является её вариативность, проявляющейся в особенностях формирования речевого сигнала, его информационной, кодовой и модуляционной структуры.
Учитывая, что устная речь, во-первых, является формой реализации языка, и, во-вторых, имеет свои специфические особенности, определяемые психо-акустическим процессом говорения, можно определить следующие уровни изменчивости речи (см. рис 5.1):
– лексико-синтаксический, заключающийся в параллельных возможностях формального выражения одних и тех же лингвистических значений (значимостей), связанных с одной и той же лексемой, словоформой или одной и той же синтаксической конструкцией;
– суперсегментный, или интонационно-просодический, который выражается в персональных особенностях интонирования речи, ритмического оформления и паузации;
– сегментно-фонетический, выражающийся в особенностях произнесения звуков (иностранный или региональный акцент, гнусавость, шепелявость, картавость);
– артикуляторно-акустический, который проявляется в различиях тембра голоса, значениях формантных частот, различиях шумовой/тональной составляющих сигнала, спектральных характеристиках сигнала.
Рис. 5.1. Источники и уровни изменчивости речевого сигнала
К основным типам источников вариативности относятся вид текста, стиль речи, характеристики диктора – постоянные и ситуативные. Каждый из указанных типов является, в свою очередь, источниками изменчивости речевого сигнала на каждом из указанных выше уровней речи.
Вид произносимого текста и стиль речи в наибольшей степени влияют на лексико-синтаксическое и интонационно-просодическое оформление высказывания. К основным типам текста относятся деловой (доклад, техническое описание, официальное письмо и др.), характеризующийся наличием терминов и профессионального лексикона, и художественный (художественная проза, поэзия, пьесы и др.), включающий абстрактную и разговорную лексику.
К основным стилям речи относятся ораторский стиль, по отбору лексики и нормативности синтаксиса сближающийся со стилями письменной речи, и разговорный стиль, характеризующийся преобладанием обиходно-бытовой лексики и значительной свободой синтаксических построений.
Персональные характеристики диктора, как постоянные, так и ситуативные, являются источником вариативности на каждом из указанных выше уровней изменчивости речи. К постоянным характеристикам относятся, в частности, пол, возраст, речевая патология. К ситуативным характеристикам относится эмоционально-психологическое и физическое состояние диктора.
Необходимо подчеркнуть, что к источникам индивидуального варьирования, по мнению современных лингвистов [177], относятся также логические и психологические факторы, связанные с общими закономерностями общения и мышления, гибкостью и сложностью языкового поведения личности. Индивидуальное варьирование является результатом различий в языковой компетенции, причём эти различия обусловлены, в частности, интеллектуальным развитием человека.
Основным источником вариативности речевого сигнала на артикуляторно-акустическом уровне являются персональные особенности строения речевого аппарата человека. С акустической точки зрения голосовой тракт представляет собой неоднородную по своим характеристикам трубу от голосовой щели до губ. Персональные акустические характеристики голоса зависят от геометрических размеров и формы речевого тракта, а также от акустических параметров (упругость, эластичность) и динамики движения артикуляторных органов, в частности, голосовых связок.
Как следует из вышесказанного, решение задачи компьютерного клонирования речи личности в полном объёме должно проводиться с учётом всех перечисленных выше источников индивидуальной вариативности, для чего необходимы совместные усилия лингвистов, психологов и специалистов в обработке сигнала. Однако на современном этапе развития речевых технологий невозможно охватить все аспекты компьютерного клонирования речи личности. В данном разделе рассматриваются вопросы создания клона речи личности ограниченные следующими условиями:
– личность находится в нейтральном эмоционально-психологическом состоянии,
– удовлетворительном физическом состоянии,
– стиль речи ограничен условиями чтения вслух текста жанра «деловая проза».
При таких ограничениях индивидуальное варьирование будет проявляться, в основном, только на фонетическом, просодическом и акустическом уровнях. В результате исследования индивидуальных фонетических, просодических и акустических характеристик речи личности создаются индивидуализированные базы данных, содержащие эти характеристики. Далее используется такой метод синтеза речи по тексту, который в процессе генерации способен в полной мере передавать указанные выше индивидуальные характеристики речи конкретной личности.