§14 Кодирование графики, звука и видео. Кодирование графики. Кодирование звука. Кодирование видео. Решение задач на кодирование графики, звука и видео.

14.1. Кодирование графики

В настоящее время при создании и хранении графических объектов в компьютере используются растровое и векторное изображения (примеры 14.1, 14.2).

Растровое изображение — совокупность отдельных точек (пикселей), каждая из которых имеет свой цвет.

В векторном графическом изображении каждый нарисованный элемент является объектом: линия, овал, прямоугольник и др.

Все объекты имеют определенный перечень значений свойств, которые описывают эти объекты (пример 14.3).

Векторное изображение — совокупность графических примитивов (объектов изображения), которые описаны с помощью числовых значений или математических формул.

Различие в представлении растровых и векторных изображений существует лишь для графических файлов.

При выводе на экран монитора изображения растрового или векторного типов, в видеопамяти компьютера формируется информация растрового типа.

Эта информация состоит из двоичных кодов каждого пикселя. Код пикселя — информация о его цвете.

Если на черно-белое изображение наложить сетку и каждой ячейке белого цвета поставить в соответствие 1, а черного цвета — 0 (или наоборот: 1 — черный, 0 — белый), то можно создать матрицу изображения из нулей и единиц (пример 14.4).

Для черно-белого изображения информационный объем пикселя равен одному биту. Соответственно, информационный объем изображения в битах будет равен количеству пикселей в изображении — произведению ширины на длину изображения.

Чем больше цветов в изображении, тем больше битов понадобится для кодирования одной точки (пример 14.5).

На экране монитора цвет пикселя изображения формируется смешением трех цветовых лучей: красного (англ. Red), зеленого (англ. Green) и синего (англ. Blue).

Поэтому при кодировании цветных изображений используется цветовая модель RGB. В современной версии модели RGB на каждый пиксель отводится 24 бита, по 8 бит на каждый из трех основных цветов, что дает возможность закодировать 16,7 млн оттенков.

Если для каждого из основных цветов использовать меньшее количество бит, то, соответственно, можно закодировать и меньшее количество цветовых оттенков.

Кодирование цветов при использовании 16-цветной палитры приведено в примере 14.6.

В этом случае информационный объем каждого пикселя составляет 4 бита.

Качество изображения на экране зависит от разрешающей способности монитора и глубины цвета.

Любое графическое изображение на экране монитора состоит из строк, которые содержат определенное количество пикселей.

Мониторы могут иметь различные разрешающие способности: 1024 х 768, 1280 х1024, 1366 х 768,1920 х 1080 и др. Разрешение экрана может быть изменено. Для этого в контекстном меню Рабочего стола нужно выбрать команду

Разрешение экрана (пример 14.7).

Глубина цвета определяется количеством бит, используемых для кодирования цвета пикселя. Современные мониторы поддерживают глубину цвета 32 бита: 24 бита хранят код цвета в RGB-палитре, еще 8 бит отводятся на хранение значений прозрачности цвета (альфа-канал).

В файле с графическим растровым изображением хранится информация о цвете каждого пикселя изображения. В таком виде сохраняются изображения в формате BMP.

Другие растровые форматы (JPEG, GIF, PNG) хранят изображение в сжатом виде: при сохранении к изображению, которое на экране представлено матрицей пикселей, применяют алгоритмы архивации.

При сохранении в формате GIF количество цветов уменьшается до 256. При сохранении в формате JPEG сохраняется информация не о каждом пикселе, а о группе пикселей, при этом часть информации теряется.

Такое сжатие необратимо, восстановить изображение в исходном виде невозможно. Однако человеческий глаз не всегда способен заметить изменения, поэтому формат JPEG является одним из самых распространенных для компактного хранения фотографий.

При сохранении изображения в формате PNG используется алгоритм сжатия без потерь.

Формат PNG предназначен прежде всего для использования в Интернете.В файле с векторным изображением сохраняются математические значения свойств объектов изображения, которые необходимы для его построения.

Файлы формата SVG можно просматривать и редактировать в текстовом виде — например, в редакторе NotePad (пример 14.8).

Фрактальная графика, как и векторная, основывается на математических вычислениях.

Базовым элементом фрактальной графики является математическая формула.

Это приводит к тому, что в памяти компьютера не хранится никаких объектов, а изображение строится по уравнениям.

При помощи этого способа можно строить как простейшие изображения, так и сложные иллюстрации, имитирующие ландшафты (пример 14.9).

14.2. Кодирование звука Современные компьютерные устройства оснащены устройствами для ввода и вывода звуковой информации.

Понятие звук тесно связано с понятием волна. Как и любая волна, звук имеет амплитуду и частоту.

Амплитуда характеризует громкость звука. Частота определяет тон, высоту. Обычный человек способен слышать звуковые колебания в диапазоне частот от 16—20 Гц до 15—20 кГц.

При оцифровке звук подвергается дискретизации. Аналого-цифровой преобразователь, встроенный в звуковую карту, производит замеры амплитуды звуковой волны через равные промежутки времени. Полученные числовые значения преобразуются в двоичный код и сохраняются (пример 14.10).

Количество измерений за одну секунду определяет частоту дискретизации звука.

Точность преобразования зависит от разрядности АЦП. Разрядность АЦП характеризует количество дискретных значений, которые преобразователь может выдать на выходе.

Например, двоичный 8-разрядный АЦП способен выдать 256 дискретных значений (0…255), 2⁸ = 256. С разрядностью связано разрешение АЦП — минимальное изменение величины аналогового сигнала, которое может быть преобразовано. Разрешение равно разности значений, соответствующих максимальному и минимальному выходному коду, деленной на количество выходных дискретных значений.

Звуковой файл длительностью в 1 с при частоте дискретизации 8 КГц и разрядности 8 бит будет занимать объем в 7,8 Кбайт.

При увеличении частоты дискретизации до 44,1 КГц и разрядности 24 бита объем файла увеличится до 129,2 Кбайт.

Чтобы записать стереозвук, следует одновременно кодировать два независимых канала звука.

Количество каналов может быть большим: 4 (квадро), 6 (Dolby Digital). Сегодня существуют технологии, поддерживающие до 16 звуковых каналов. Воспроизведение многоканальных фонограмм через систему громкоговорителей, расположенных по окружности от слушателя, называют объемным звуком.

Чем выше частота дискретизации и разрядность, тем качественнее получается звук (пример 14.11).

Однако с увеличением частоты возрастает объем памяти, необходимый для хранения цифрового сигнала, а с увеличением разрядности — и вычислительная нагрузка на цифровые преобразователи.

Чтобы уменьшить объем, занимаемый цифровыми аудиоданными, применяют различные методы сжатия (пример 14.12).

При сжатии звука без потерь к исходному звуку применяют алгоритмы архивации. Возможно удаление избыточных данных — связей между соседними отсчетами цифрового звукового сигнала. Сжатие звука с потерями основано на несовершенстве человеческого слуха (человек не воспринимает сверхнизкие и сверхвысокие частоты, более слабый сигнал становится неслышимым на фоне более сильного и др.).

14.3. Кодирование видео

Видео хранится на диске в виде файлов, содержащих видео-, аудио- и другие потоки, а также метаданные. Видеофайл часто называют медиаконтейнером.

В любой момент из контейнера можно вынуть, например, видео- или аудиодорожки, перекодировать их и поместить в другой контейнер, т. е. изменить формат видеофайла.

Существует несколько форматов видеоконтейнеров (пример 14.13).

Кодирование звукового сопровождения видеоинформации ничем не отличается от кодирования звука.

Изображение в видео состоит из отдельных кадров, которые меняются с
определенной частотой.

Кадр кодируется так же, как обычное растровое изображение.

Видеоданные характеризуются частотой кадров и экранным разрешением. Если частота смены кадров равна 25, то для каждой секунды видео необходимо хранить в памяти 25 кадров.

Разрешение для видео обычно составляет 768 х 484 (для стандарта NTSC) или 768 х 576 (для стандартов PAL и SECAM).В основе кодирования цветного видео лежит стандартная модель RGB.

Если представить каждый кадр изображения как отдельный рисунок, то видеоизображение будет занимать очень большой объем.

Например, одна секунда записи в системе PAL будет занимать 25 Мбайт. Поэтому на практике используются различные алгоритмы сжатия для уменьшения объема видеоданных (пример 14.14). Для просмотра такого видео нужен кодек.Кодек (CoDec) — это сокращение слов компрессор и декомпрессор. Кодек — набор файлов, драйверов и библиотек, необходимых для упаковки видео или звукового файла в сжатый формат и воспроизведения сжатого файла.

Кодек может отслеживать массивы точек изображения с одинаковыми значениями (например, синий цвет моря) и вместо того, чтобы запоминать информацию о каждой точке (яркость и цвет), записать лишь первую (ключевую) точку и количество повторений этой точки до момента изменения ее цвета.

14.4. Решение задач на кодирование графики, звука и видео

Пример 14.15. Для хранения изображения размером 128 х 128 точек выделено 4 Кбайт памяти. Определите, какое максимальное число цветов в палитре.

Пример 14.16. Цвет пикселя, формируемого принтером, определяется тремя составляющими: голубой, пурпурной и желтой красками. Под каждую составляющую одного пикселя отвели по 4 бита. В какое количество цветов можно раскрасить пиксель?

Пример 14.17. Фотография размером 10 х 10 см была отсканирована с разрешением 400 dpi при глубине цвета 24 бита. Определите информационный объем полученного растрового файла в килобайтах (принять 1 дюйм = = 2,5 см).

Пример 14.18. Определить информационный объем в Кбайтах моноаудиофайла длительностью звучания 8 с при глубине звука 8 бит и частоте 8 кГц.

Пример 14.19. Рассчитать время звучания стереоаудиофайла, который был закодирован с частотой дискретизации 32 кГц. Разрядность аудиоадаптера — 16 бит, информационный объем файла равен 70 Мбайт.

Пример 14.20. Какой объем будет иметь видео, передаваемое с разрешением кадра 800 х 600 пикселей с 24-битовой глубиной цвета, скоростью воспроизведения 24 кадра в секунду и длительностью 5 мин? Известно, что стереозвук, наложенный на видео, имеет 256 уровней громкости, частота дискретизации равна 11 250 Гц.

Пример 14.1. Растровое изображение.

Пример 14.2. Векторное изображение.

Пример 14.3. Свойства отрезка и круга в векторном изображении.

Отрезок:

начало и конец отрезка — две пары чисел, определяющих координаты точек на координатной плоскости;
значения, определяющие цвет, толщину и тип линии (сплошная, пунктирная и др.).

Таким образом, для описания отрезка необходимо 7 числовых значений, описывающих его свойства. Этих значений достаточно для описания отрезка любого размера, цвета и толщины.

Круг:

координаты центра круга и его радиус;
значения ширины контурной линии, цвета контура, типа линии контура окружности;
цвет заливки внутренней области, ограниченной окружностью.

Для описания свойств круга может использоваться 3—7 числовых значений. Координаты центра и радиус являются обязательными параметрами, остальные параметры могут отсутствовать.

Пример 14.4. Кодирование чернобелого изображения:

Размер изображения 7 × 8 пикселей, информационный объем изображения равен 8 • 7 • 1 бит = 56 бит = 7 байт.
Пример 14.5. Кодирование одного пикселя изображения.

Пример 14.6. Кодирование цвета при использовании палитры из 16 цветов.

Пример 14.7. Изменение разрешения экрана.

Научная дисциплина, изучающая вопросы измерения цветовых характеристик, называется колориметрией (или метрологией цвета).

Научную основу колориметрии как сочетание нескольких основных цветов положил Исаак Ньютон. Он в 1676 г. с помощью трехгранной призмы разложил белый солнечный свет на цветовой спектр и выделил семь основных цветов: красный, оранжевый, желтый, зеленый, голубой, синий и фиолетовый.

В 1756 г. М. В. Ломоносов сформулировал трехкомпонентную теорию цвета. До этого считалось, что цвет состоит из семи составляющих.

Спустя столетие Герман Грассман ввел для нее математический аппарат.

Пример 14.8. Рисунок в Inkscape:

Просмотр файла рисунка в NotePad:

Пример 14.9. Фрактальная графика.

Слово фрактал образовано от латинского fractus и в переводе означает «состоящий из фрагментов». Оно было предложено математиком Бенуа Мандель-Бротом в 1975 г. для обозначения самоподобных структур.

Пример 14.10. Временная диаграмма кодирования звука: 1 — аналоговый сигнал; 2 — дискретный сигнал.

Для кодирования будем использовать трехразрядный двоичный код. С помощью такого кода можно закодировать 8 различных значений. Разобьем диапазон изменения амплитуды сигнала на 8 уровней. Каждому отсчету сигнала присвоим ближайший к нему номер от 0 до 7. Далее выполним кодирование полученных значений сигнала трехразрядным двоичным кодом (в таблице приведены первые 6 значений).

Максимальное и минимальное значения амплитуды сигнала равны 2 и 0 соответственно. Разрешение АЦП в данном случае определяется как 2 / 8 = 0,25.

В многоканальном звуке один канал используют для низкочастотных эффектов (выводится на сабвуфер). Поскольку диапазон частот этого канала очень ограничен (по сравнению с другими каналами), то часто его обозначают «.1». Тогда обозначение 5.1 говорит о том, что это 5 каналов с полным диапазоном частот и 1 канал для низкочастотных эффектов. Общее количество каналов 6.

Пример 14.11. Используемые частоты дискретизации звука.

Пример 14.12. Звуковые форматы.

Пример 14.13. Форматы видеофайлов.

Пример 14.14. Стандарты сжатия видео.

MPEG

(Moving Pictures Expert Group)Один из основных стандартов сжатия. Имеет разновидности:MPEG-1 — формат сжатия для компакт-дисков (CD-ROM);MPEG-2 — формат сжатия для DVD- дисков, цифрового телевидения;MPEG-4 — формат, который уменьшает видеопоток сильнее, чем MPEG-2, но сохраняет хорошее качество.

High Definition — формат высокого разрешения и особой четкости. Может использовать разрешение 1920 X 1080.

Windows Media

Разработан компанией Microsoft и предназначен для хранения сжатого видео и звука.

Пример 14.15. Изображение состоит из 128 • 128 = 2⁷ • 2⁷ = 2¹⁴ пикселей. Для хранения изображения выделено 4 Кбайт = 4 • 2¹⁰ байт = 2¹² байт = 2¹⁵ бит. Значит, информационный объем одного пикселя равен 2¹⁵ / 2¹⁴ = 2 бит. С помощью 2 бит можно закодировать 2² = 4 цвета.

Пример 14.16. Информационный объем одного пикселя равен 3 • 4 = 12. Количество цветов 2¹² = 4096.

Пример 14.17. Размер фотографии в дюймах 4 • 4, т. к. 10 / 2,5 = 4. Количество пикселей4 • 4 • 400 • 400 = 2⁸ • 10000. Информационный объем 2⁸ • 10000 • 24 бит = 2⁸ • 2⁴ • 625 • 2³ • 3 бит = 2¹⁵ • 3 • 5⁴ бит = 2¹² • 3 • 5⁴ байт = 4 • 3 • 5⁴ Кбайт = 7500 Кбайт.

Или V = 10/2.5*10/2.5*400*400*24/1024/8 = 7500 Кбайт.

Пример 14.18. При частоте 8 кГц за 1 с производится 8000 измерений. Чтобы сохранить одно измерение, нужно 8 бит. Тогда для всех измерений:8 • 8 • 8000 = 2⁹ • 1000 бит = 2⁶ • 1000 байт = 62,5 Кбайт.

Или V = 8*8*8000/1024/8 = 62,5 Кбайт.

Пример 14.19. Информационный объем стереоаудиофайла вычисляют по формуле: V = 2 • R • t • N, где V — объем аудиофайла, R — разрядность аудиоадаптера, N — частота дискретизации, t — время звучания, умножение на 2 показывает, что кодируются два канала. Тогда

Или t = 70*1024*1024*8/(2*32*1000*16)/60 = 9,56 мин

Пример 14.20. Найдем объем графики:
800 • 600 • 24 бит = 11520000 бит ≈ 1,38 Мбайт. Размер видео: 1,38 • 24 х (5 • 60) = 9936 Мбайт. Разрядность при кодировании звука равна 8, т. к. 256 = 2⁸. Размер звука: 11250 • 8 • 2 • (5 • 60) = 54000000 бит ≈ 6,4 Мбайт. Объем видеофайла: 9936 + 6,4 = 9942,4 Мбайт ≈ 9,7 Гигабайт.

Или V = 800*600*24*24*5*60/1024/1024/8+11250*8*5*60*2/1024/1024/8 = 9894 Мбайт.

где 8 это количество разрядов в числе уровней громкости 256.

Если уровней громкости 512 то количество разрядов 9.

1024 — 10, 2048 — 11, 4096 — 12 и так далее.

1. Какие два принципа представления графических изображений используются
в компьютерной графике?
2. Из чего состоит растровое изображение?
3. Что представляет собой векторное изображение?
4. Чем отличается растровое изображение от векторного?
5. Графические изображения какого типа выводятся на экран монитора?
6. Что понимается под разрешающей способностью экрана монитора и глубиной
цвета?
7. Как хранятся растровые и векторные изображения в файле?
8. Чем определяется частота дискретизации звука?
9. Что такое разрядность аналого-цифрового преобразователя?
10. Как кодируется видео?

Упражнения

1. Создайте матрицу из нулей и единиц для кодирования следующих черно-белых изображений (можно использовать электронные таблицы; для проверки правильности посчитайте суммы по строкам и столбцам). Определите информационный объем изображений.2. Определите информационный объем размещенных ниже растровых изображений (одна клетка — один пиксель).

3. 16-цветный рисунок содержит 500 байт информации. Из скольких точек он состоит?
4. Определите требуемый объем (в мегабайтах) видеопамяти для реализации графического режима монитора с разрешающей способностью 1024 х 768 пикселей при количестве отображаемых цветов 65 536.

5*. На рисунке в примере 14.9 изображена фигура, которая называется «треугольник Серпинского». Для ее построения можно воспользоваться следующим алгоритмом:

Строим равносторонний треугольник (уровень 0).
Соединяем середины сторон построенного треугольника отрезками. Получается 4 новых треугольника. Из исходного треугольника удаляется внутренность срединного треугольника. Получаем 3 треугольника уровня 1.
Поступая точно так же с каждым из треугольников первого уровня, получим множество, состоящее из 9 равносторонних треугольников второго уровня.
Повторяем процесс до нужного уровня.

Реализуйте данный алгоритм в среде программирования.

6. Определите длительность звучания стереоаудиофайла, занимающего 468,75 Кбайт памяти при глубине звука 16 бит и частоте 48 кГц.

7. При переводе в дискретную форму аналогового сигнала длительностью 2 мин 8 с использовалась частота дискретизации 32 Гц и 16 уровней дискретизации. Найти в байтах размер полученного кода аналогового сигнала.

8. Экспериментально было установлено, что на временном отрезке [0; 20] амплитуда звукового сигнала изменялась в соответствии с законом A(t) = 2 sin1,7x • sin0,2x. Используя электронные таблицы, постройте временные диаграммы кодирования звука.

а)диаграмму аналогового сигнала (в Excel можно использовать тип диаграммы — точечная);

б)диаграмму дискретного сигнала (в Excel можно использовать тип диаграммы — гистограмма).

9. Какой объем будет иметь черно-белое видео, передаваемое с разрешением кадра 800 X 600, скоростью воспроизведения 24 кадра в секунду и длительностью 30 мин без звука?

10. Кадры видеозаписи закодированы в режиме истинного цвета (24 бита на пиксель) и сменяются с частотой 25 кадров в секунду. Кадр имеет размеры 720 х 480 пикселей. Частота дискретизации 22 кГц, глубина кодирования звука 16 бит. Оцените объем минуты видеозаписи в мегабайтах (с точностью до десятых), если файл за¬писан с 10-кратной степенью сжатости.

11. Камера снимает видео без звука с частотой 60 кадров в секунду, при этом изображения используют палитру, содержащую 224 цвета. При записи файла на сервер полученное видео преобразуют так, что частота кадров уменьшается до 20, а изображения преобразуют в формат, использующий палитру из 256 цветов. Другие преобразования и иные методы сжатия не используются. 10 секунд преобразованного видео в среднем занимают 512 Кбайт. Сколько Мбайт в среднем занимает 1 минута исходного видео?

Проверь себя

Выбор тем

CheckTests

Создай свой урок с применением ПК Родюшкин Александр Николаевич

§14 Кодирование графики, звука и видео. Кодирование графики. Кодирование звука. Кодирование видео. Решение задач на кодирование графики, звука и видео.

Упражнения

CheckTests