Семейство форматов MPEG

Введение

Необработанный цифровой видеосигнал занимает большой объём памяти для хранения. Непрактично передавать или хранить цифровое видео в первоначальной необработанной форме, потому что изображения содержат слишком много излишней информации. Разумное решение заключается в том, чтобы сжимать видео перед тем, как передавать или сохранять его, и восстанавливать сжатые данные, когда это необходимо. Поскольку видеосигнал содержит естественную избыточность информации в виде статических областей, повторяющихся изображений, областей подобной текстуры и циклического движения, такой подход может быть довольно эффективен.

Сжатие конторолируется кодером - устройством, которое анализирует поступающую видеопоследовательность, находит избыточность информации и создаёт поток двоичных кодов, который описывает последовательность в соответствии с некоторой математической моделью кодирования видео. Когда требуется несжатое видео, декодер берет эти двоичные коды и восстанавливает последовательность в соответствии с той же моделью. Пара кодер-декодер называется КОДЕКОМ, КОдер-ДЕКодер.

История

The Motion Picture Expert Group (MPEG) работает над созданием спецификаций для аудиовизуального кодирования под контролем Международной организации по стандартизации (ISO) и Международной электротехнической комиссии, МЭК, (International Electrotechnical Commission - IEC). В большинстве случаев под понятием «MPEG VIDEO » понимают стандарты MPEG-1, MPEG-2, и MPEG-4, которые создавались в течение прошлых 10 лет в связи с растущим спросом на технологии видео и аудио сжатия и быстро увеличивающейся вычислительной мощностью электронных устройств. H.264/AVC - новейший утверждённый стандарт видео кодирования. Он появился в результате совместной разработки экспертной группы по видео кодированию Международного союза телекоммуникаций (International Telecommunication Union Video Coding Experts Group - ITU VCEG) и MPEG ISO. Этот стандарт известен как H.264 (имя, данное ITU-T - сектором телекоммуникаций Международного союза телекоммуникаций), или MPEG-4 Part 10 (ISO/IEC 14496-10), или MPEG-4 усовершенствованное видео кодирование (Advanced Video Coding - AVC).

Определение

MPEG(англ. Moving Picture Experts Group — русск. Экспертная группа по вопросам движущегося изображения) - это группа людей в ISO (Internation Standards Organization), которые встречаются для выработки стандартов сжатия цифрового видео и аудио. В частности, они определили сжатый поток и декомпрессор для него. Алгоритмы сжатия определяются индивидуально каждым производителем, в чем и достигается преимущество в рамках опубликованного международного стандарта. Группа MPEG собирается приблизительно четыре раза в год примерно на неделю. Основная работа делается между встречами, будучи организованной и спланированной на них.

Разновидность форматов MPEG

MPEG (произносится, как ЭМ-пег) стандартизовала следующие стандарты сжатия и вспомогательные стандарты:

  • MPEG-1: Исходный стандарт видео и аудио компрессии. Позднее использовался, как стандарт для Video CD, и включает в себя Layer 3 (MP3) формат аудио сжатия.
  • MPEG-2: Транспортные, видео и аудио стандарты для широковещательного телевидения. Используется в цифровом телевидении ATSC, DVB и ISDB, цифровых спутниковых ТВ службах, таких как Dish Network, цифровом кабельном телевидении, и (с небольшими изменениями) в DVD.
  • MPEG-3: Изначально разрабатывался для HDTV, но от него отказались, когда обнаружилось, что MPEG-2 (с расширениями) вполне достаточно для HDTV. (Не стоит его путать с MP3, который на самом деле MPEG-1 Layer 3.)
  • MPEG-4: Расширяет MPEG-1 для поддержки видео/аудио «объектов», 3D контента, сжатия с низким битрейтом и DRM. В него включено несколько новых высоко эффективных видео стандартов (альтернатив MPEG-2), особо отметим:

o MPEG-4 Part 2 (ASP) и

        o MPEG-4 Part 10 (или AVC, или H.264). MPEG-4 Part 10 может быть использован в HD DVD и Blu-Ray дисках.

В дополнении, к рассмотренным стандартам, рассмотрим стандарты которые являются не усовершенствованием предыдущих стандартов сжатия, а описывают различные языки описания:

  • MPEG-7: Формальная система для описания мультимедийного контента.
  • MPEG-21: MPEG описывает стандарт, как мультимедийная среда разработки.

Принципы сжатия

Цветное цифровое изображение из сжимаемой последовательности переводится в цветовое пространство YUV (YCbCr). Компонента Y представляет собой интенсивнось, а U и V - цветность. Так как человеческий глаз менее восприимчив к цветности, чем к интенсивности, то разрешений цветовых компонент может быть уменьшено в 2 раза по вертикали, или и по вертикали и по горизонтали. К анимации и высококачественному студийному видео уменьшение разрешения не применяется для сохранения качества, а для бытового применения, где потоки более низкие, а аппаратура более дешевая, такое действие не приводит к заметным потерям в визуальном восприятии, сохраняя в то же время драгоценные биты данных.

Основная идея всей схемы - это предсказывать движение от кадра к кадру, а затем применить дискретное косинусное преобразование (ДКП), чтобы перераспределить избыточность в пространсве. ДКП выполняется на блочках 8х8 точек, предсказание движения выполняется на канале интенсивности (Y) на блоках 16х16 точек, или, в зависимости от характеристик исходной последовательности изображении (черезстрочная развертка, содержимое), на блоках 16х8 точек. Другими словами, данный блок 16х16 точек в текущем кадре ищется в соответсвующей области большего размера в предыдущих или последующих кадрах. Коэфициентны ДКП (исходных данных или разности этого блока и ему соответсвующего) квантуются, то есть делятся на некоторое число, чтобы отбросить несущественные биты. Многие коэфициенты после такой операции оказываются нулями. Коэфициент квантизации может изменяться для каждого «макроблока» (макроблок - блок 16х16 точек из Y-компонент и соответсвующие блоки 8х8 в случае отношения YUV 4:2:0, 16х8 в случае 4:2:2 и 16х16 в случае 4:4:4. Коэфициенты ДКП, параметры квантизации, векторы движения и пр. кодируется по Хаффману с использованием фиксированных таблиц, определенных стандартом. Закодированные данные складываются в пакеты, которые формируют поток согласно синтаксису MPEG.

Принципы соотношения кадров при кодировании

Существует три типа закодированных кадров. I-фремы - это кадры, закодированные как неподвижные изображения - без ссылок на последующие или предыдущие. Они используются как стартовые. P-фреймы - это кадры, предсказаные из предыдущих I- или P-кадров. Каждый макроблок в P-фрейме может идти с вектором и разностью коэфициентов ДКП от соответвующего блока последнего раскодированного I или P, или может быть закодирован как в I, если не соответсвующего блока не нашлось.

И, наконец, существуют B-фреймы, которые предсказаны из двух ближайших I или P-фреймов, одного предыдущего и другого - последующего. Соответсвующие блоки ищутся в этих кадрах и из них выбирается лучший. Ищется прямой вектор, затем обратный и вычисляется среднее между соответсвующими макроблоками в прошлом и будущем. Если это не работает, то блок может быть закодирован как в I-фрейме.

Последовательность раскодированных кадров обычно выглядит как I B B P B B P B B P B B I B B P B B P B …

Здесь 12 кадров от I до I фрейма. Это основано на требовании произвольного доступа, согласно которому начальная точка должна повторяться каждые 0.4 секунды. Соотношение P и B основано на опыте.

Чтобы декодер мог работать, необходимо, чтобы первый P-фрейм в потоке встретился до первого B, поэтому сжатый поток выгдядит так: 0 x x 3 1 2 6 4 5 …

где числа - это номера кадров. xx может не быть ничем, если это начало последовательности, или B-фреймы -2 и -1, если это фрагмент из середины потока.

Сначала необходимо раскодировать I-фрейм, затем P, затем, имея их оба в памяти, раскодировать B. Во время декодирования P показывается I-фрейм, B показываются сразу, а раскодированный P показывается во время декодирования следующего.

Сжатие аудио-потоков

При сжатии аудио используются хорошо разработанные психоакустические модели, полученные из экспериментов с самыми взыскательными слушателями, чтобы выбросить звуки, которые не слышны человеческому уху. Это то, что называется «маскированием», например, большая составляющая в некоторой частоте не позволяет услышать компоненты с более низким коэфициентом в близлежащих частотах, где соотношение между энергиями частот, которае маскируются, описывается некоторой эмпирической кривой. Существуют похожие временные эффекты маскирования, а также более сложные взаимодействия, когда временной эффект может выделить частоту или наоборот.

Звук разбивается на спектральные блоки с помощью гибридной схемы, которая объединяет синусные и полосные преобразования, и психоакустической модели, описанной на языке этих блоков. Все, что может быть убрано или сокращено, убирается и сокращается, а остаток посылается в выходной поток. В действительности, все выглядит несколько сложнее, поскольку биты должны распределяться между полосами. И, конечно же, все, что посылается, кодируется с сокращением избыточности.

Интересные факты

1. Коэфициет сжатия свыше 100:1 Зачастую статьи в прессе и маркетинговой литературе заявляют, что MPEG достигает необычайно высокого качества видео при степени сжатия свыше 100:1, тогда как в действительности он находися в районе от 8:1 до 30:1. Эти заявления обычно не включают понижение цветового разрешения исходного цифрового изображения. Предварительное сжатие за счет уменьшения цветового разрешения играет основную роль в формировании коэфициетнов сжатия с 3 нулями во всех методах кодирования видео, включая отличные от MPEG.

2. MPEG-1 всегда 352×240 Как MPEG-1, так и MPEG-2, могут быть применены к широкому классу потоков, частот и размеров кадров. MPEG-1, знакомый большинству людей, позволяет передавать 25 кадров/с с разрешением 352×288 в PAL или 30 кадр/с с разрешением 352×240 в NTSC при величине потока менее 1.86 Мбит/с - комбинация, известная как «Constrained Parameters Bitstreams». Это цифры введены спецификацией White Book для видео на CD (VideoCD).

Фактически, синтаксис позволяет кодировать изображения с разрешением до 4095х4095 с потоком до 100 Мбит/с. Эти числа могли бы быть и бесконечными, если бы не ограничение на количество бит в заголовках.

С появлением спецификации MPEG-2, самые популярные комбинации были объединены в уровни и профили. Самые общие из них:

  • Source Input Format (SIF), 352 точки x 240 линий x 30 кадр/с, известный также как Low Level (LL) - нижний уровень,

и

  • «CCIR 601» (например 720 точек/линию x 480 линий x 30 кадр/с), илиMain Level - основной уровень.

Область примененния

1. ТВ-вещание

Декодеры и кодеры Elecard позволяют создавать продукты ТВ-вещания высокого качества благодаря современной технологии. Elecard предлагает следующие решения для рынка цифрового ТВ-вещания: Редактирование

Elecard обеспечивает декодирование HDTV (720p@30Hz) в реальном времени на одном стандартном компьютере, для H.264, на битрэйтах до 20 Мб/с. Простота кодирования разрешения D1 в реальном времени при самом высоком качестве позволяет делать редактирование очень удобным для каждого пользователя.

2. Видео серверы

Кодирование в реальном времени, в зависимости от требуемых битрэйтов, позволяет сохранять и создавать видео с необходимым битрэйтом.

3. Персональные медиа центры

Декодеры и кодеры Elecard обеспечивают декодирование и кодирование видео на Вашем ПК - из любого источника и в соответствии с любым стандартом. К тому же решения Elecard в кодировании с низким битрэйтом позволяют использовать каждый ПК в качестве PVR (персональных видео рекордеров) благодаря эффективному использованию памяти диска. Так как способ полностью основывается на ПО, технология Elecard позволяет сделать из персонального медиа центра домашнюю студию видеомонтажа.

4. Бытовая электроника

Технология Elecard обеспечивает декодирование и кодирование на недорогих ЦСП (цифровых сигнальных процессорах). Это позволяет использовать решения Elecard в бытовой электронике, включая:

5. Видеонаблюдения

Кодеки Elecard, включая декодеры и кодеры MPEG-2 и H.264 в реальном времени на базе ПК и ЦСП, успешно используются производителями ПО в продуктах для видеонаблюдения.

Ссылки

http://www.elecard.com - Компания Элекард основана в 1988 году. С 1995 года занимается разработкой программного обеспечения для кодирования, декодирования, обработки, передачи и приема видео и аудио в различных форматах (MPEG-2, MPEG-4, H.264/AVC, MJPEG 2000 и др.). Основная информация взята с этого сайта.

http://ru.wikipedia.org/wiki/MPEG - статья Вики о MPEG.