Синтетический звук

10.3. Синтетический звук

MPEG-4 определяет декодеры для генерирования звука на основе нескольких видов структурированного ввода. Текстовый ввод Text преобразуется в декодере TTS (Text-To-Speech), в то время как прочие звуки, включая музыку, могут синтезироваться стандартным путем. Синтетическая музыка может транспортироваться при крайне низких потоках данных.

Декодеры TTS (Text To Speech) работают при скоростях передачи от 200 бит/с до 1.2 Кбит/с, что позволяет использовать при синтезе речи в качестве входных данных текст или текст с просодическими параметрами (тональная конструкция, длительность фонемы, и т.д.). Такие декодеры поддерживают генерацию параметров, которые могут быть использованы для синхронизации с анимацией лица, при осуществлении перевода с другого языка и для работы с международными символами фонем. Дополнительная разметка используется для передачи в тексте управляющей информации, которая переадресуется другим компонентам для обеспечения синхронизации с текстом. Заметим, что MPEG-4 обеспечивает стандартный интерфейс для работы кодировщика TTS (TTSI = Text To Speech Interface), но не для стандартного TTS-синтезатора.

10.3.1. Синтез с множественным управлением (Score Driven Synthesis).

Средства структурированного аудио декодируют входные данные и формируют выходной звуковой сигнал. Это декодирование управляется специальным языком синтеза, называемым SAOL (Structured Audio Orchestra Language), который является частью стандарта MPEG-4. Этот язык используется для определения "оркестра", созданного из "инструментов" (загруженных в терминал потоком данных), которые формирует и обрабатывает управляющую информацию. Инструмент представляет собой маленькую сеть примитивов обработки сигналов, которые могут эмулировать некоторые специфические звуки, такие, которые могут производить настоящие акустические инструменты. Сеть обработки сигналов может быть реализована аппаратно или программно и включать как генерацию, так и обработку звуков, а также манипуляцию записанными ранее звуками.

MPEG-4 не стандартизует "единственный метод" синтеза, а скорее описывает путь описания методов синтеза. Любой сегодняшний или будущий метод синтеза звука может быть описан в SAOL, включая таблицу длин волн, FM, физическое моделирование и гранулярный синтез, а также непараметрические гибриды этих методов.

Управление синтезом выполняется путем включения "примитивов" (score) или "скриптов" в поток данных. Примитив представляет собой набор последовательных команд, которые включают различные инструменты в определенное время и добавляют их сигнал в общий музыкальный поток или формируют заданные звуковые эффекты. Описание примитива, записанное на языке SASL (Structured Audio Score Language), может использоваться для генерации новых звуков, а также включать дополнительную управляющую информацию для модификации существующих звуков. Это позволяет композитору осуществлять тонкое управление синтезированными звуками. Для процессов синтеза, которые не требуют такого тонкого контроля, для управления оркестром может также использоваться протокол MIDI.

Тщательный контроль в сочетании с описанием специализированных инструментов, позволяет генерировать звуки, начиная с простых аудио эффектов, таких как звуки шагов или закрытия двери, кончая естественными звуками, такими как шум дождя или музыка, исполняемая на определенном инструменте или синтетическая музыка с полным набором разнообразных эффектов.

Для терминалов с меньшей функциональностью, и для приложений, которые не требуют такого сложного синтеза, стандартизован также "формат волновой таблицы” (“wavetable bank format"). Используя этот формат, можно загрузить звуковые образцы для использования при синтезе, а также выполнить простую обработку, такую как фильтрация, реверберация, и ввод эффекта хора. В этом случае вычислительная сложность необходимого процесса декодирования может быть точно определена из наблюдения потока данных, что невозможно при использовании SAOL.

11. Приложение. Словарь и сокращения

AAC	Advanced Audio Coding – продвинутое кодирование звука
AAL	ATM Adaptation Layer – адаптационный уровень ATM
Access Unit	Логическая субструктура элементарного потока для облегчения доступа или манипуляции потоком данных
ACE	Advanced Coding Efficiency (профайл) – эффективность продвинутого кодирования
Amd	Поправка
AOI	Area Of Interest – область интереса
API	Application Programming Interface – программный интерфейс приложения
ARTS	Advanced Real-time Simple – простой, продвинутый профайл реального времени
ATM	Asynchronous Transfer Mode – режим асинхронной передачи
BAP	Body Animation Parameters – параметры анимации тела
BDP	Body Definition Parameters – параметры описания тела
BIFS	Binary Format for Scenes – двоичный формат сцены
BSAC	Bit-Sliced Arithmetic Coding – побитовое арифметическое кодирование
CD	Committee Draft – проект комитета
CE	Core Experiment – центральный эксперимент
CELP	Code Excited Linear Prediction – линейное предсказание, стимулируемое кодом
CIF	Common Intermediate Format – общий промежуточный формат
CNG	Comfort Noise Generator – генератор комфортного шума
DAI	DMIF-Application Interface – прикладной интерфейс DMIF
DCT	Discrete Cosine Transform – дискретное косинусное преобразование
DMIF	Delivery Multimedia Integration Framework -
DNI	DMIF Network Interface – сетевой интерфейс DMIF
DRC	Dynamic Resolution Conversion – преобразование с динамическим разрешением
DS	DMIF signaling – сигнальная система DMIF
EP	Error Protection – защита от ошибок
ER	Error Resilient – противостояние ошибкам
ES	Elementary Stream (элементарный поток): последовательность данных, которая исходит из передающего терминала MPEG-4 Terminal и приходит одному получателю, например, медиа- или управляющему объекту в приемном терминале MPEG-4. Он проходит через один канал FlexMux.
FAP	Facial Animation Parameters – параметры анимации лица
FBA	Facial and Body Animation – анимация лица и тела
FDP	Facial Definition Parameters – параметры описания лица
FlexMux stream	Последовательность пакетов FlexMux, ассоциированных с одним или более каналов FlexMux, идущих через один канал TransMux
FlexMux tool	A Flexible (Content) Multiplex tool – гибкое средство мультиплексирования
GMC	Global Motion Compensation – компенсация общего перемещения
GSTN	General Switched Telephone Network – общедоступная коммутируемая телефонная сеть
HCR	Huffman Codeword Reordering – смена порядка кодовых слов Хафмана
HFC	Hybrid Fiber Coax – гибридный волоконный коаксиал
HTTP	HyperText Transfer Protocol – протокол передачи гипертекста
HVXC	Harmonic Vector Excitation Coding – кодирование с гармоническим возбуждением вектора
IP	Internet Protocol – протокол Интернет
IPI	Intellectual Property Identification – идентификация интеллектуальной собственности
IPMP	Intellectual Property Management и Protection – защита и управление интеллектуальной собственностью
IPR	Intellectual Property Rights – Права интеллектуальной собственности
IS	International Standard – международный стандарт
ISDN	Integrated Service Digital Network – цифровая сеть с интегрированными услугами
LAR	Logarithmic Area Ratio – логарифмическое отношение области
LATM	Low-overhead MPEG-4 Audio Transport Multiplex:
LC	Low Complexity – низкая сложность
LOAS	Low Overhead Audio Stream – аудио поток с низкой избыточностью
LOD	Level Of Detail – уровень детализации
LPC	Linear Predictive Coding – линейно-предсказательное кодирование
LTP	Long Term Prediction – долгосрочное предсказание
M4IF	MPEG-4 Industry Forum – Промышленный форум MPEG-4
MCU	Multipoint Control Unit – многоточечный блок управления
Mdat	media data atoms – атомы медийных данных
Mesh	A graphical construct consisting of connected surface elements to describe the geometry/shape of a visual object. -
MIDI	Musical Instrument Digital Interface – цифровой интерфейс музыкального инструмента>
MPEG	Moving Pictures Experts Group – Экспертная группа по движущимся изображениям
MSB	Most Significant Bits - наиболее значимые биты
OCI	Object Content Information – информационное содержание объекта
OD	Object Descriptor – дескриптор объекта
PDA	Personal Digital Assistant – персональный цифровой помощник
PDU	Protocol Data Unit – Протокольный блок данных
PSNR	Peak Signal to Noise Ratio – отношение пикового значения сигнала к шуму
QCIF	Quarter Common Intermediate Format – четвертинный промежуточный формат изображения (видео)
QoS	Quality of Service – качество обслуживания
Rendering	The process of generating pixels for display – процесс генерации пикселей для отображения
RTP	Real Time Transport Protocol – транспортный протокол реального времени
RTSP	Real Time Streaming Protocol – поточный протокол реального времени
RVLC	Reversible Variable Length Coding – реверсивное кодирование с переменной длиной
SA-DCT	shape-adaptive DCT – двойное косинусное преобразование, адаптируемое к форме объекта
SID	Silence Insertion Descriptor – дескриптор паузы
SL	Sync(hronization) layer – уровень синхронизации
SMIL	Synchronized Multimedia Integration Language – интеграционный язык для синхронизованного мультимедиа
SNHC	Synthetic- Natural Hybrid Coding – синтетико-натуральное кодирование
SNR	Signal to Noise Ratio – отношение сигнал-шум
Sprite	Статический спрайт представляет собой возможно большое статическое изображение, описывающие панорамный фон
SRM	Session Resource Manager – субъект управления ресурсами сессии
SVG	Scalable Vector Graphics – масштабируемая векторная графика
T/F coder	Time/Frequency Coder – преобразователь времени в частоту
TCP	Transmission Control Protocol – протокол управления передачей данных
TransMux	Общая абстракция для любой схемы транспортного мультиплексирования
TTS	Text-to-speech – текст в голос
UDP	User Datagram Protocol – протокол передачи датограмм пользователя
UEP	Unequal Error Protection -
UMTS	Universal Mobile Telecommunication System – универсальная мобильная телекоммуникационная система
VCB	Virtual CodeBook – виртуальная кодовая книга
Viseme	Выражение лица, сопряженное с определенной фонемой
VLBV	Very Low Bitrate Video – видео с очень низкой скоростью передачи данных
VM	Verification Model – верификационная модель
VOP	Video Object Plane – объектная плоскость видео
VRML	Virtual Reality Modeling Language – язык моделирования виртуальной реальности
W3C	World Wide Web Consortium – консорциум WWW
WD	Working Draft – рабочий черновик (проект)
WWW	World Wide Web – Всемирная паутина
XMT	Extensible MPEG-4 textual format – расширяемый текстуальный формат MPEG-4

<

/p>
Содержание раздела

Главная сайта