10.3. Синтетический звук
MPEG-4 определяет декодеры для генерирования звука на основе нескольких видов структурированного ввода. Текстовый ввод Text преобразуется в декодере TTS (Text-To-Speech), в то время как прочие звуки, включая музыку, могут синтезироваться стандартным путем. Синтетическая музыка может транспортироваться при крайне низких потоках данных.
Декодеры TTS (Text To Speech) работают при скоростях передачи от 200 бит/с до 1.2 Кбит/с, что позволяет использовать при синтезе речи в качестве входных данных текст или текст с просодическими параметрами (тональная конструкция, длительность фонемы, и т.д.). Такие декодеры поддерживают генерацию параметров, которые могут быть использованы для синхронизации с анимацией лица, при осуществлении перевода с другого языка и для работы с международными символами фонем. Дополнительная разметка используется для передачи в тексте управляющей информации, которая переадресуется другим компонентам для обеспечения синхронизации с текстом. Заметим, что MPEG-4 обеспечивает стандартный интерфейс для работы кодировщика TTS (TTSI = Text To Speech Interface), но не для стандартного TTS-синтезатора.
10.3.1. Синтез с множественным управлением (Score Driven Synthesis).
Средства структурированного аудио декодируют входные данные и формируют выходной звуковой сигнал. Это декодирование управляется специальным языком синтеза, называемым SAOL (Structured Audio Orchestra Language), который является частью стандарта MPEG-4. Этот язык используется для определения "оркестра", созданного из "инструментов" (загруженных в терминал потоком данных), которые формирует и обрабатывает управляющую информацию. Инструмент представляет собой маленькую сеть примитивов обработки сигналов, которые могут эмулировать некоторые специфические звуки, такие, которые могут производить настоящие акустические инструменты. Сеть обработки сигналов может быть реализована аппаратно или программно и включать как генерацию, так и обработку звуков, а также манипуляцию записанными ранее звуками.
AAC | Advanced Audio Coding – продвинутое кодирование звука |
AAL | ATM Adaptation Layer – адаптационный уровень ATM |
Access Unit | Логическая субструктура элементарного потока для облегчения доступа или манипуляции потоком данных |
ACE | Advanced Coding Efficiency (профайл) – эффективность продвинутого кодирования |
Amd | Поправка |
AOI | Area Of Interest – область интереса |
API | Application Programming Interface – программный интерфейс приложения |
ARTS | Advanced Real-time Simple – простой, продвинутый профайл реального времени |
ATM | Asynchronous Transfer Mode – режим асинхронной передачи |
BAP | Body Animation Parameters – параметры анимации тела |
BDP | Body Definition Parameters – параметры описания тела |
BIFS | Binary Format for Scenes – двоичный формат сцены |
BSAC | Bit-Sliced Arithmetic Coding – побитовое арифметическое кодирование |
CD | Committee Draft – проект комитета |
CE | Core Experiment – центральный эксперимент |
CELP | Code Excited Linear Prediction – линейное предсказание, стимулируемое кодом |
CIF | Common Intermediate Format – общий промежуточный формат |
CNG | Comfort Noise Generator – генератор комфортного шума |
DAI | DMIF-Application Interface – прикладной интерфейс DMIF |
DCT | Discrete Cosine Transform – дискретное косинусное преобразование |
DMIF | Delivery Multimedia Integration Framework - |
DNI | DMIF Network Interface – сетевой интерфейс DMIF |
DRC | Dynamic Resolution Conversion – преобразование с динамическим разрешением |
DS | DMIF signaling – сигнальная система DMIF |
EP | Error Protection – защита от ошибок |
ER | Error Resilient – противостояние ошибкам |
ES | Elementary Stream (элементарный поток): последовательность данных, которая исходит из передающего терминала MPEG-4 Terminal и приходит одному получателю, например, медиа- или управляющему объекту в приемном терминале MPEG-4. Он проходит через один канал FlexMux. |
FAP | Facial Animation Parameters – параметры анимации лица |
FBA | Facial and Body Animation – анимация лица и тела |
FDP | Facial Definition Parameters – параметры описания лица |
FlexMux stream | Последовательность пакетов FlexMux, ассоциированных с одним или более каналов FlexMux, идущих через один канал TransMux |
FlexMux tool | A Flexible (Content) Multiplex tool – гибкое средство мультиплексирования |
GMC | Global Motion Compensation – компенсация общего перемещения |
GSTN | General Switched Telephone Network – общедоступная коммутируемая телефонная сеть |
HCR | Huffman Codeword Reordering – смена порядка кодовых слов Хафмана |
HFC | Hybrid Fiber Coax – гибридный волоконный коаксиал |
HTTP | HyperText Transfer Protocol – протокол передачи гипертекста |
HVXC | Harmonic Vector Excitation Coding – кодирование с гармоническим возбуждением вектора |
IP | Internet Protocol – протокол Интернет |
IPI | Intellectual Property Identification – идентификация интеллектуальной собственности |
IPMP | Intellectual Property Management и Protection – защита и управление интеллектуальной собственностью |
IPR | Intellectual Property Rights – Права интеллектуальной собственности |
IS | International Standard – международный стандарт |
ISDN | Integrated Service Digital Network – цифровая сеть с интегрированными услугами |
LAR | Logarithmic Area Ratio – логарифмическое отношение области |
LATM | Low-overhead MPEG-4 Audio Transport Multiplex: |
LC | Low Complexity – низкая сложность |
LOAS | Low Overhead Audio Stream – аудио поток с низкой избыточностью |
LOD | Level Of Detail – уровень детализации |
LPC | Linear Predictive Coding – линейно-предсказательное кодирование |
LTP | Long Term Prediction – долгосрочное предсказание |
M4IF | MPEG-4 Industry Forum – Промышленный форум MPEG-4 |
MCU | Multipoint Control Unit – многоточечный блок управления |
Mdat | media data atoms – атомы медийных данных |
Mesh | A graphical construct consisting of connected surface elements to describe the geometry/shape of a visual object. - |
MIDI | Musical Instrument Digital Interface – цифровой интерфейс музыкального инструмента> |
MPEG | Moving Pictures Experts Group – Экспертная группа по движущимся изображениям |
MSB | Most Significant Bits - наиболее значимые биты |
OCI | Object Content Information – информационное содержание объекта |
OD | Object Descriptor – дескриптор объекта |
PDA | Personal Digital Assistant – персональный цифровой помощник |
PDU | Protocol Data Unit – Протокольный блок данных |
PSNR | Peak Signal to Noise Ratio – отношение пикового значения сигнала к шуму |
QCIF | Quarter Common Intermediate Format – четвертинный промежуточный формат изображения (видео) |
QoS | Quality of Service – качество обслуживания |
Rendering | The process of generating pixels for display – процесс генерации пикселей для отображения |
RTP | Real Time Transport Protocol – транспортный протокол реального времени |
RTSP | Real Time Streaming Protocol – поточный протокол реального времени |
RVLC | Reversible Variable Length Coding – реверсивное кодирование с переменной длиной |
SA-DCT | shape-adaptive DCT – двойное косинусное преобразование, адаптируемое к форме объекта |
SID | Silence Insertion Descriptor – дескриптор паузы |
SL | Sync(hronization) layer – уровень синхронизации |
SMIL | Synchronized Multimedia Integration Language – интеграционный язык для синхронизованного мультимедиа |
SNHC | Synthetic- Natural Hybrid Coding – синтетико-натуральное кодирование |
SNR | Signal to Noise Ratio – отношение сигнал-шум |
Sprite | Статический спрайт представляет собой возможно большое статическое изображение, описывающие панорамный фон |
SRM | Session Resource Manager – субъект управления ресурсами сессии |
SVG | Scalable Vector Graphics – масштабируемая векторная графика |
T/F coder | Time/Frequency Coder – преобразователь времени в частоту |
TCP | Transmission Control Protocol – протокол управления передачей данных |
TransMux | Общая абстракция для любой схемы транспортного мультиплексирования |
TTS | Text-to-speech – текст в голос |
UDP | User Datagram Protocol – протокол передачи датограмм пользователя |
UEP | Unequal Error Protection - |
UMTS | Universal Mobile Telecommunication System – универсальная мобильная телекоммуникационная система |
VCB | Virtual CodeBook – виртуальная кодовая книга |
Viseme | Выражение лица, сопряженное с определенной фонемой |
VLBV | Very Low Bitrate Video – видео с очень низкой скоростью передачи данных |
VM | Verification Model – верификационная модель |
VOP | Video Object Plane – объектная плоскость видео |
VRML | Virtual Reality Modeling Language – язык моделирования виртуальной реальности |
W3C | World Wide Web Consortium – консорциум WWW |
WD | Working Draft – рабочий черновик (проект) |
WWW | World Wide Web – Всемирная паутина |
XMT | Extensible MPEG-4 textual format – расширяемый текстуальный формат MPEG-4 |