Интегрированные сети ISDN

         

Синтетический звук


10.3. Синтетический звук



MPEG-4 определяет декодеры для генерирования звука на основе нескольких видов структурированного ввода. Текстовый ввод Text преобразуется в декодере TTS (Text-To-Speech), в то время как прочие звуки, включая музыку, могут синтезироваться стандартным путем. Синтетическая музыка может транспортироваться при крайне низких потоках данных.

Декодеры TTS (Text To Speech) работают при скоростях передачи от 200 бит/с до 1.2 Кбит/с, что позволяет использовать при синтезе речи в качестве входных данных текст или текст с просодическими параметрами (тональная конструкция, длительность фонемы, и т.д.). Такие декодеры поддерживают генерацию параметров, которые могут быть использованы для синхронизации с анимацией лица, при осуществлении перевода с другого языка и для работы с международными символами фонем. Дополнительная разметка используется для передачи в тексте управляющей информации, которая переадресуется другим компонентам для обеспечения синхронизации с текстом. Заметим, что MPEG-4 обеспечивает стандартный интерфейс для работы кодировщика TTS (TTSI = Text To Speech Interface), но не для стандартного TTS-синтезатора.

10.3.1. Синтез с множественным управлением (Score Driven Synthesis).

Средства структурированного аудио декодируют входные данные и формируют выходной звуковой сигнал. Это декодирование управляется специальным языком синтеза, называемым SAOL (Structured Audio Orchestra Language), который является частью стандарта MPEG-4. Этот язык используется для определения "оркестра", созданного из "инструментов" (загруженных в терминал потоком данных), которые формирует и обрабатывает управляющую информацию. Инструмент представляет собой маленькую сеть примитивов обработки сигналов, которые могут эмулировать некоторые специфические звуки, такие, которые могут производить настоящие акустические инструменты. Сеть обработки сигналов может быть реализована аппаратно или программно и включать как генерацию, так и обработку звуков, а также манипуляцию записанными ранее звуками.


MPEG-4 не стандартизует "единственный метод" синтеза, а скорее описывает путь описания методов синтеза. Любой сегодняшний или будущий метод синтеза звука может быть описан в SAOL, включая таблицу длин волн, FM, физическое моделирование и гранулярный синтез, а также непараметрические гибриды этих методов.

Управление синтезом выполняется путем включения "примитивов" (score) или "скриптов" в поток данных. Примитив представляет собой набор последовательных команд, которые включают различные инструменты в определенное время и добавляют их сигнал в общий музыкальный поток или формируют заданные звуковые эффекты. Описание примитива, записанное на языке SASL (Structured Audio Score Language), может использоваться для генерации новых звуков, а также включать дополнительную управляющую информацию для модификации существующих звуков. Это позволяет композитору осуществлять тонкое управление синтезированными звуками. Для процессов синтеза, которые не требуют такого тонкого контроля, для управления оркестром может также использоваться протокол MIDI.

Тщательный контроль в сочетании с описанием специализированных инструментов, позволяет генерировать звуки, начиная с простых аудио эффектов, таких как звуки шагов или закрытия двери, кончая естественными звуками, такими как шум дождя или музыка, исполняемая на определенном инструменте или синтетическая музыка с полным набором разнообразных эффектов.

Для терминалов с меньшей функциональностью, и для приложений, которые не требуют такого сложного синтеза, стандартизован также "формат волновой таблицы” (“wavetable bank format"). Используя этот формат, можно загрузить звуковые образцы для использования при синтезе, а также выполнить простую обработку, такую как фильтрация, реверберация, и ввод эффекта хора. В этом случае вычислительная сложность необходимого процесса декодирования может быть точно определена из наблюдения потока данных, что невозможно при использовании SAOL.



11. Приложение. Словарь и сокращения







AAC Advanced Audio Coding – продвинутое кодирование звука
AAL ATM Adaptation Layer – адаптационный уровень ATM
Access Unit Логическая субструктура элементарного потока для облегчения доступа или манипуляции потоком данных
ACE Advanced Coding Efficiency (профайл) – эффективность продвинутого кодирования
Amd Поправка
AOI Area Of Interest – область интереса
API Application Programming Interface – программный интерфейс приложения
ARTS Advanced Real-time Simple – простой, продвинутый профайл реального времени
ATM Asynchronous Transfer Mode – режим асинхронной передачи
BAP Body Animation Parameters – параметры анимации тела
BDP Body Definition Parameters – параметры описания тела
BIFS Binary Format for Scenes – двоичный формат сцены
BSAC Bit-Sliced Arithmetic Coding – побитовое арифметическое кодирование
CD Committee Draft – проект комитета
CE Core Experiment – центральный эксперимент
CELP Code Excited Linear Prediction – линейное предсказание, стимулируемое кодом
CIF Common Intermediate Format – общий промежуточный формат
CNG Comfort Noise Generator – генератор комфортного шума
DAI DMIF-Application Interface – прикладной интерфейс DMIF
DCT Discrete Cosine Transform – дискретное косинусное преобразование
DMIF Delivery Multimedia Integration Framework -
DNI DMIF Network Interface – сетевой интерфейс DMIF
DRC Dynamic Resolution Conversion – преобразование с динамическим разрешением
DS DMIF signaling – сигнальная система DMIF
EP Error Protection – защита от ошибок
ER Error Resilient – противостояние ошибкам
ES Elementary Stream (элементарный поток): последовательность данных, которая исходит из передающего терминала MPEG-4 Terminal и приходит одному получателю, например, медиа- или управляющему объекту в приемном терминале MPEG-4. Он проходит через один канал FlexMux.
FAP Facial Animation Parameters – параметры анимации лица
FBA Facial and Body Animation – анимация лица и тела
FDP Facial Definition Parameters – параметры описания лица
FlexMux stream Последовательность пакетов FlexMux, ассоциированных с одним или более каналов FlexMux, идущих через один канал TransMux
FlexMux tool A Flexible (Content) Multiplex tool – гибкое средство мультиплексирования
GMC Global Motion Compensation – компенсация общего перемещения
GSTN General Switched Telephone Network – общедоступная коммутируемая телефонная сеть
HCR Huffman Codeword Reordering – смена порядка кодовых слов Хафмана
HFC Hybrid Fiber Coax – гибридный волоконный коаксиал
HTTP HyperText Transfer Protocol – протокол передачи гипертекста
HVXC Harmonic Vector Excitation Coding – кодирование с гармоническим возбуждением вектора
IP Internet Protocol – протокол Интернет
IPI Intellectual Property Identification – идентификация интеллектуальной собственности
IPMP Intellectual Property Management и Protection – защита и управление интеллектуальной собственностью
IPR Intellectual Property Rights – Права интеллектуальной собственности
IS International Standard – международный стандарт
ISDN Integrated Service Digital Network – цифровая сеть с интегрированными услугами
LAR Logarithmic Area Ratio – логарифмическое отношение области
LATM Low-overhead MPEG-4 Audio Transport Multiplex:
LC Low Complexity – низкая сложность
LOAS Low Overhead Audio Stream – аудио поток с низкой избыточностью
LOD Level Of Detail – уровень детализации
LPC Linear Predictive Coding – линейно-предсказательное кодирование
LTP Long Term Prediction – долгосрочное предсказание
M4IF MPEG-4 Industry Forum – Промышленный форум MPEG-4
MCU Multipoint Control Unit – многоточечный блок управления
Mdat media data atoms – атомы медийных данных
Mesh A graphical construct consisting of connected surface elements to describe the geometry/shape of a visual object. -
MIDI Musical Instrument Digital Interface – цифровой интерфейс музыкального инструмента>
MPEG Moving Pictures Experts Group – Экспертная группа по движущимся изображениям
MSB Most Significant Bits - наиболее значимые биты
OCI Object Content Information – информационное содержание объекта
OD Object Descriptor – дескриптор объекта
PDA Personal Digital Assistant – персональный цифровой помощник
PDU Protocol Data Unit – Протокольный блок данных
PSNR Peak Signal to Noise Ratio – отношение пикового значения сигнала к шуму
QCIF Quarter Common Intermediate Format – четвертинный промежуточный формат изображения (видео)
QoS Quality of Service – качество обслуживания
Rendering The process of generating pixels for display – процесс генерации пикселей для отображения
RTP Real Time Transport Protocol – транспортный протокол реального времени
RTSP Real Time Streaming Protocol – поточный протокол реального времени
RVLC Reversible Variable Length Coding – реверсивное кодирование с переменной длиной
SA-DCT shape-adaptive DCT – двойное косинусное преобразование, адаптируемое к форме объекта
SID Silence Insertion Descriptor – дескриптор паузы
SL Sync(hronization) layer – уровень синхронизации
SMIL Synchronized Multimedia Integration Language – интеграционный язык для синхронизованного мультимедиа
SNHC Synthetic- Natural Hybrid Coding – синтетико-натуральное кодирование
SNR Signal to Noise Ratio – отношение сигнал-шум
Sprite Статический спрайт представляет собой возможно большое статическое изображение, описывающие панорамный фон
SRM Session Resource Manager – субъект управления ресурсами сессии
SVG Scalable Vector Graphics – масштабируемая векторная графика
T/F coder Time/Frequency Coder – преобразователь времени в частоту
TCP Transmission Control Protocol – протокол управления передачей данных
TransMux Общая абстракция для любой схемы транспортного мультиплексирования
TTS Text-to-speech – текст в голос
UDP User Datagram Protocol – протокол передачи датограмм пользователя
UEP Unequal Error Protection -
UMTS Universal Mobile Telecommunication System – универсальная мобильная телекоммуникационная система
VCB Virtual CodeBook – виртуальная кодовая книга
Viseme Выражение лица, сопряженное с определенной фонемой
VLBV Very Low Bitrate Video – видео с очень низкой скоростью передачи данных
VM Verification Model – верификационная модель
VOP Video Object Plane – объектная плоскость видео
VRML Virtual Reality Modeling Language – язык моделирования виртуальной реальности
W3C World Wide Web Consortium – консорциум WWW
WD Working Draft – рабочий черновик (проект)
WWW World Wide Web – Всемирная паутина
XMT Extensible MPEG-4 textual format – расширяемый текстуальный формат MPEG-4
<


/p>
Содержание раздела