Семейство форматов MPEG:история развития, описание структуры, область использования

Гринько В. ПИб-31

Начало

Группа специалистов международной организации по стандартизации (ISO) в 1998 г. приступила к разработке международных стандартов кодирования и сжатия видео- и аудиоинформации. Официальное наименование этой группе было дано совершенно невоспроизводимое - ISO/IECJTC1 SC29 WG11. Впоследствии она стала известна как «Экспертная группа по кинематографии» (Moving Picture Expert Group), а аббревиатура MPEG, образованная от английского варианта обиходного названия этой группы, давно уже используется как обозначение разработанных ею норм и стандартов.

В основу правил сжатия видеоданных была заложена идея поиска и устранения избыточной информации, не влияющей на конечное восприятие качества изображения. В первую очередь, был учтен «человеческий фактор» - психофизиологическая модель восприятия человеком видеоизображений (HVS - Human Visual Sense); в частности, тот факт, что градации яркости воспринимаются зрительным аппаратом человека значительно тоньше, чем градации цвета. Это означает, что цветовую информацию можно «загрубить» по сравнению с яркостной, при этом в субъективном восприятии качество изображения не ухудшится. То есть первоочередным направлением в построении алгоритмов всех стандартов MPEG становится отыскание и устранение информации, избыточной с точки зрения субъективного восприятия.

Семейство MPEG

Группа MPEG стандартизовала следующие стандарты сжатия и вспомогательные стандарты:

MPEG-1: Исходный стандарт видео и аудио компрессии. Позднее использовался как \\стандарт для Video CD; включает в себя Layer 2 формат аудио сжатия.

MPEG-2: Транспортные, видео и аудио стандарты для широковещательного телевидения. Используется в цифровом телевидении ATSC, DVB и ISDB, цифровых спутниковых ТВ службах, таких, как Dish Network, цифровом
кабельном телевидении, и (с небольшими изменениями) в DVD.

MPEG-3: Изначально разрабатывался для HDTV, но от него отказались, когда обнаружилось, что MPEG-2
(с расширениями) вполне достаточно для HDTV. (Не следует путать MPEG-3 с MP3, который на самом деле является MPEG-1 Layer 3.)

MPEG-4: Расширяет MPEG-1 для поддержки видео/аудио «объектов», 3D контента, сжатия с низким
битрейтом и DRM. В него включено несколько новых высокоэффективных видео
стандартов (альтернатив MPEG-2), таких, как:

MPEG-4 Part 2 (ASP) и

MPEG-4 Part 10 (или AVC, или H.264). MPEG-4 Part 10 используется в HD DVD и Blu-Ray дисках.

В дополнение к вышеупомянутым существуют стандарты, которые являются не усовершенствованием предыдущих
стандартов сжатия, а определяют различные языки описания:

MPEG-7: Стандарт индексации мультимедиа-содержимого.

MPEG-21: MPEG описывает стандарт как мультимедийная среда разработки.

Moving Picture Experts Group made MPEG

Формат MPEG-1 начал разрабатываться в конце 80-х когда была эпоха 286 и 386 процессоров, 4 Мб оперативной памяти и 250 Мб винчестер считались роскошью, а Windows была примочкой для DOS, а не наоборот, а в качестве легко переносимых носителей информации доминировали 5 дюймовые дискеты и только-только появившиеся 3,5» дискеты от фирмы SONY.

В те времена приличный фильм занимал пространство более гигабайта!!! В эти годы впервые на платформе PC появился такой новый тип носителей информации как CD-ROM диски, которые смогли обеспечить необходимый объем информации. Первые CD-ROM проигрыватели были односкоростными, максимальная скорость пересылки потока данных (bitstream) в формате MPEG-1 ограничена 150 Кб/сек., что соответствует одной скорости CD-ROM.

В самом формате MPEG-1 была заложена возможность сжатия и воспроизведения видеоинформации с разрешением вплоть до 4095х4095 и частотой смены кадров до 60 Гц. Но скорость пересылки потока была ограничена 150 Кб/сек., то есть так называемый Constrained Parameters Bitstream (CPB) - зафиксированная ширина потока передачи данных, разработчики формата, а в дальнейшем и создатели кодеков на его основе, были вынуждены использовать разрешения кадра, оптимизированные под данный CPB. Наиболее широко распространенными являются два таких оптимизированных формата - это формат SIF 352х240, 30 кадров в секунду и урезанный формат PAL/SECAM 352х288, 25 кадров в секунду.

Качество аудиотреков в MPEG-1 может варьироваться в очень больших пределах - от высококачественных до безобразных. Окончательно все форматы сжатия аудиоданных были стандартизированы в 1992 году европейской комиссией по стандартам ISO.

В зависимости от используемого кодера и степени сжатия аудиоинформация видеоролика может быть представлена в следующем виде: моно, dual mono, стерео, интенсивное стерео (стереосигналы, чьи частоты превышают 2 КГц объединяются в моно), m/s стерео (один канал - сумма сигналов, другой - разница) и по частоте дискретизации могут быть: 48, 44.1и 32 КГц.

MPEG-2

Стандарт MPEG-2 получил распространение в цифровых видеодисках DVD, системах компрессии видеоизображений, цифровом телевидении DVB. В случае использования в цифровом телевидении MPEG-2 активно применяется как стандарт, определяющий структуру транспортных потоков и способы передачи данных.

Стандарт содержит несколько подразделов (parts). Например, MPEG-2 part 1 определяет тип контейнера, например, может использоватся Transport Stream, который позволяет корректировать ошибки оборудования, принимающего сигнал. Part 2 — структуру компрессированного изображения (элементарный поток MPEG-2). Стандарт MPEG-2 намеренно не определяет способы компрессии изображения (звука), он лишь указывает, как должно быть оформлено сжатое изображение (звук). Стандарт не определяет, каким образом должен быть реализован кодер или декодер MPEG-2, он определяет только структуру данных. Это даёт возможность участникам рынка конкурировать друг с другом за создание более качественных устройств и алгоритмов.

Использование стандартов MPEG-2 требует уплаты лицензионных отчислений держателям патентов через MPEG Licensing Association. Тексты стандартов MPEG-2 распространяются свободно, но не бесплатно (см. сайт ISO).

Сжатие видео (упрощённо)

MPEG-2 используется для «общего сжатия движущихся изображений и звука» и определяет формат видеопотока, который может быть представлен как три типа кадра — независимо сжатые кадры (I-кадры), кадры, сжатые с использованием предсказания движения в одном направлении (P-кадры) и кадры, сжатые с использованием предсказания движения в двух направлениях (B-кадры). Соответствующие группы кадров от одного I-кадра до другого образуют GOP — Group Of Pictures — группу кадров.

Обычно используются потоки в 30 или 29,97 кадров в секунду.

Для сравнения: в MPEG1 предусматривалось только одно фиксированное значение - 8 бит на элемент. То есть в рамках стандарта MPEG2 имеется возможность гибкой настройки качества изображения в зависимости от пропускной способности сети или емкости носителя (вот почему на первых DVD можно было видеть разное по качеству изображение). Биты на элемент - это понятие, знакомое компьютерным «юзерам». В то же время, пользователи таких аппаратов, как DVD- или HD-рекордеры, использующих MPEG2-компрессию, знают, как можно самим задавать уровень качества записи (HQ, SP, LP и т.д.), меняя таким образом объем записанного материала. Эта гибкость, в частности, и сделала MPEG2 основой для приема/передачи цифрового телевидения по различным цифровым сетям.

В результате для фильмов, созданных в стандартах PAL и SECAM, поддерживается разрешение 720х576 при 25 кадрах в секунду при качестве, практически не уступающем вещательному. Собственно, MPEG-фильм нельзя отнести к какой-либо системе цветного телевидения, так как кадры в MPEG являются просто картинками и не имеют прямого отношения к исходной для фильма системе телевидения; речь может идти о соответствии размера и частоты следования кадров. В части аудио в MPEG2, по сравнению с MPEG1, добавлена поддержка многоканального звука(Dolby Digital 5.1, DTS и т.п.)

MPEG3

Прежде всего, не следует смешивать с широкоизвестным форматом компрессии звука МР3, о котором речь пойдет ниже. Стандарт MPEG3 первоначально разрабатывался для использования в системах телевидения высокой четкости (High Definition Television, HDTV) со скоростью потока данных 20-40 Мбит/с. Но еще в процессе разработки стало ясно, что параметры, требуемые для передачи HDTV, вполне обеспечиваются использованием стандарта MPEG2 при увеличенной скорости цифрового потока. Другими словами, острой нужды в существовании отдельного стандарта для HDTV нет. Таким образом, MPEG3, еще не родившись, стал фактически составной частью стандарта MPEG2 и отдельно теперь даже не упоминается.

MPEG4

В новом стандарте MPEG4, появившемся в самом конце 1999 г., предложен более широкий взгляд на медиа-реальность. Стандарт задает принципы работы с контентом (цифровым представлением медиа-данных) для трех областей: собственно интерактивного мультимедиа (включая продукты, распространяемые на оптических дисках и через Интернет), графических приложений (синтетического контента) и цифрового телевидения (DTV). Фактически данный стандарт задает правила организации среды, причем среды объектно ориентированной. Он имеет дело не просто с потоками и массивами медиа-данных, а с медиа-объектами (ключевое понятие стандарта). В MPEG4 определен двоичный язык описания объектов, классов и сцен BIFS, который разработчики характеризуют как «расширение С++». Помимо работы с аудио- и видеоданными, стандарт позволяет работать с естественными и синтезированными компьютером 2D- и 3D-объектами, производить привязку их взаимного расположения и синхронизацию друг относительно друга, а также указывает их интерактивное взаимодействие с пользователем. Картинка разделяется на составные элементы - медиа-обьекты, описывается структура этих объектов и их взаимосвязи, чтобы затем собрать их в единую видеозвуковую сцену. Результирующая сцена составляется из медиа-объектов, объединенных в иерархическую структуру:

а) неподвижные картинки (например, фон); б) видеообъекты (например, говорящий человек); в) аудиообъекты (голос, связанный с этим человеком); г) текст, связанный с этой сценой; д) синтетические объекты, которых не было изначально в описываемой сцене, но которые туда добавляются при демонстрации конечному пользователю (например, синтезируется говорящая голова); е) текст (например, связанный с головой), из которого в конце синтезируется голос.

Такой способ представления данных позволяет изменить результирующую сцену, обеспечивая высокий уровень интерактивности для конечного пользователя и предоставляя ему целый ряд возможностей, например: перемещать и помещать объекты в любое место сцены, трансформировать объекты, изменять их форму и геометрические размеры, собирать из отдельных объектов составной объект и производить над ним какие-либо операции, менять текстуру и цвет объекта, манипулировать им (заставить, к примеру, стол передвигаться в пространстве), менять точку наблюдения за всей сценой.

Особое внимание уделим довольно узкой области приложения стандарта MPEG4 - сжатию видеоматериалов, поскольку именно эта область, скорее всего, на практике хорошо известна значительному числу пользователей-зрителей по аббревиатуре MР4 (так условно обозначают фильмы, сжатые кодером по стандарту MPEG4). Алгоритм компрессии видео, в принципе, работает по той же схеме, что и в предыдущих стандартах, но есть несколько радикальных нововведений. В отличие от прежних стандартов, которые делили кадр на квадратные блоки вне зависимости от содержимого, новый кодер оперирует целыми объектами произвольной формы. К примеру, человек, двигающийся по комнате, будет восприниматься как отдельный объект, перемещающийся относительно другого неподвижного объекта - заднего плана. Также применен «интеллектуальный» способ расстановки ключевых кадров. Ключевые кадры не расставляются с заданной регулярностью, а выделяются кодером только в те моменты, в которые происходит смена сюжета. Естественно, разветвленные алгоритмы поиска и обработки объектов сложной формы, углубленного анализа последовательностей кадров требуют существенно больших вычислительных ресурсов для качественного восстановления (декомпрессии) изображения этого формата, нежели в случае MPEG1 и -2. К счастью, производительность современных процессоров позволяет обойти это препятствие. В результате усовершенствования эффективности компрессии видео в MPEG4 возросла настолько, что позволяет размещать полнометражный фильм длительностью полтора-два часа с весьма приличным качеством всего на одном стандартом компакт-диске (650 Мб)! Впрочем, не стоит питать иллюзий по поводу рекламируемого «DVD-качества» MPEG4-продукции. Следует помнить, что, сколь совершенным не является кодер, всегда существует ограничение на минимальный размер (поток) сжатого видео. Поэтому фильмы в MPEG4, размещенные даже на двух компакт-дисках (2х650 Мб), все-таки не дотягивают до качества DVD-видео в стандарте MPEG2.

MPEG 7

MPEG 7 и MPEG 21 – форматы будущего В октябре 1996 года группа MPEG приступила к разработке формата сжатия MPEG 7, призванным определить универсальные механизмы описания аудио и видео информации. Этот формат получил название Multimedia Content Description Interface. В отличие от предыдущих форматов сжатия семейства MPEG, MPEG 7 описывает информацию, представленную в любой форме (в том числе в аналоговой) и не зависит от среды передачи данных. Как и его предшественники, формат сжатия MPEG 7 генерирует масштабируемую информацию в рамках одного описания.

Формат сжатия MPEG 7 использует многоуровневую структуру описания аудио и видео информации.

  • На высшем уровне прописываются свойства файла, такие как название, имя создателя, дата создания и т.д.
  • На следующем уровне описания формат сжатия MPEG 7 указывает особенности сжимаемой аудио или видео информации – цвет, текстура, тон или скорость. Одной из отличительных особенностей MPEG 7 является его способность к определению типа сжимаемой информации. Если это аудио или видео файл, то он сначала сжимается с помощью алгоритмов MPEG 1, MPEG 2, MPEG 4, а затем описывается при помощи MPEG 7.

Такая гибкость в выборе методов сжатия значительно снижает объем информации и ускоряет процесс сжатия. Основное преимущество формата сжатия MPEG 7 над его предшественниками состоит в применении уникальных дескрипторов и схем описания, которые, помимо всего прочего, делают возможным автоматическое выделение информации как по общим, так и по семантическим признакам, связанным с восприятием информации человеком. Процедура занесения в каталог и поиска данных находятся вне сферы рассмотрения этого формата сжатия.

MPEG 21

Разработка формата сжатия MPEG 21 - это долговременный проект, который называется «Система мультимедийных средств» (Multimedia Framework). Над разработкой этого формата сжатия эксперты начали работать в июне 2000 г. На первых этапах планировалось провести расширение, унификацию и объединение форматов MPEG 4 и MPEG 7 в единую обобщающую структуру. Подразумевалось, что она будет обеспечивать глубокую поддержку управления правами и платежными системами, а также качеством предоставляемых услуг.

Звук в MPEG

Кодирование звука и музыки осуществляется отдельным аудиокодером. По мере развития стандарта MPEG звуковые кодеры также совершенствовались, становясь все эффективнее. В основе повышения эффективности - та же идея: сократить объем «второстепенной» для слушателя аудиоинформации. В результате в составе стандарта MPEG1 было создано семейство из трех звуковых кодеров, названных «слоями»: Layer I, Layer II, Layer III. Все они, подобно видеокодерам, построены на несовершенстве «человеческого фактора»: психоакустическая модель здесь эксплуатирует несовершенства слухового аппарата человека. По мнению ученых, в несжатом звуке передается много избыточной информации. Избыточной в том смысле, что человеческое ухо ее все равно не воспринимает. Большой эффект для сжатия дает, например, явление маскирования некоторых звуков. В частности, если сначала подать громкий звук на частоте 1000 Гц, то более тихий звук на частоте 1100 Гц уже не будет фиксироваться слухом. В модели используется и явление ослабления чувствительности человеческого уха на период в 5 мс - до и 100 мс - после возникновения сильного звука. Существуют похожие временные эффекты маскирования; известны и более сложные взаимодействия, когда временный эффект может выделить конкретную частоту или, наоборот, подавить. Психоакустическая модель - как свод правил - разбивает весь спектр на блоки, в которых уровень звука считается близким. Затем удаляет звуки, формально не воспринимаемые человеком в соответствии с описанными выше эффектами. Потом следует процедура «упаковки» методами, напоминающими по принципу компьютерные архиваторы (опять же - с устранением избыточности), и, наконец, формируется цифровой информационный поток. Идеология сжатия всех «слоев» сходна, разница - в методах и в математике.

Первый «слой» (Layer I) был рассчитан на поток скоростью 192 кбит/с на канал. Алгоритм его в целом похож на систему сжатия звука ATRAC, которая реализована на мини-дисках Sony. Разновидность Layer I используется и в устройствах записи цифровых компакт-кассет DCC. Разновидность Layer II, предназначенная для потоков до 128 кбит/с на канал, была разработана как компромисс между качеством звука, величиной потока и сложностью кодера. В нем были, в первую очередь, усовершенствованы гребенчатые фильтры. Этот «слой» весьма сходен с известным аудиостандартом MUSICAM. Наибольшее применение Layer II нашел в сетях цифрового радиовещания DAB (Digital Audio Broadcasting).

И, наконец, Layer III исходно был рассчитан на низкоскоростные сети с потоком до 64 кбит/с на канал. Благодаря усилиям до того малоизвестного немецкого института информационных технологий имени Фраунгофера (IIS Fraunhofer) в 1998 г. был сделан почти революционный прорыв. Усовершенствование математики в части алгоритма преобразования Фурье и механизмов упаковки спектральных коэффициентов позволило сохранить «CD-качество» звука при низкой скорости потока. Естественно, такое достижение потребовало больших вычислительных ресурсов, но производительности современных компьютеров к тому времени уже хватало и на это. В результате появился формат сжатия аудиоинформации МР3 (полное его название - MPEG Audio Layer III), который начал вполне самостоятельную жизнь. Тот же институт Фраунгофера выпустил первый аппаратный кодер, работающий в реальном времени. За этим шагом последовали другие (МР3-Pro). Сегодня миниатюрные МР3-плейеры и диктофоны с флэш-картами разных мастей знакомы многим. Любой пользователь Интернета знает о распространении сжатого звука через сеть, знает о серверах, «набитых» музыкой в формате МР3. Естественно, вслед за удачным решением массовому потребителю уже предложены форматы-конкуренты, в частности, WMA от Microsoft, ААС (как «продвинутый» Dolby Digital АС-3)… Здесь уместно упомянуть и технологию Meridian Lossless Packing (MLP), которая, напротив, используется в аудиофильских записях DVD-Audio - но это предмет, достойный отдельного разговора.

Источники: