§15 Различные подходы к измерению информации. Содержательный подход. Алфавитный подход. Вероятностный подход. Решение задач на определение объема информации.

15.1. Содержательный подход

Сегодня информация является од­ним из основных ресурсов человече­ства. Поэтому так важны ответы на вопросы, как много информации мы получили, передали, обработали, соз­дали.

При физических измерениях вели­чину сравнивают с эталоном, а с чем сравнивать информацию?

Известно несколько подходов к из­мерению количества информации.

При содержательном подходе из­мерение информации происходит с точки зрения ее содержания, т. е. определяется, в какой мере пришед­шая информация (знания) уменьшает незнание. Человек получает знания посредством сообщений. Чем больше пополняет наши знания сообщение, тем большее количество информации в нем заключено (пример 15.1).

Основателем такого подхода к изме­рению информации является К. Шенон, который ввел приведенное ниже определение.

Сообщение, которое уменьша­ет неопределенность знания в два раза, несет 1 бит информации.

Неопределенность знания о резуль­тате некоторого события — количе­ство возможных результатов.

Если в некотором сообщении содер­жатся сведения о том, что произошло одно из N равновероятных событий, то количество информации i, содержаще­еся в сообщении, можно определить из формулы Хартли: N = 2i (пример 15.2).

15.2. Алфавитный подход

Если человек получает текстовое со­общение, то количество информации может быть измерено количеством сим­волов в нем. Однако каждый символ алфавита тоже несет какое-то количе­ство информации. Если предположить, что все символы алфавита встречаются в тексте с одинаковой частотой (равно­вероятно), то количество информации i, которое несет каждый символ, вы­числяется по формуле Хартли: N = 2i, где N — мощность алфавита (при­мер 15.3). Под мощностью алфавита по­нимают количество символов в нем.

Алфавитный (объемный) подход используется, если для преобразова­ния, хранения и передачи информа­ции применяют технические средства.

При использовании двоичного алфавита один символ несет 1 еди­ницу информации — 1 бит.

Для измерения объемов информа­ции применяют производные едини­цы измерения (пример 15.4).

Для двоичного представления тек­стов в компьютере часто используется восьмиразрядный код. С его помощью можно закодировать алфавит из 256 сим­волов. Один символ из алфавита мощ­ностью 256 = 28 несет в тексте 8 бит информации. Такое количество ин­формации называется байтом.

Объем текста измеряется в байтах. При восьмиразрядном кодировании 1 символ = 1 байт, и информационный объем текста определяется количеством символов в нем. Если весь текст состоит из K символов, то при алфа­витном подходе объем V содержащей­ся в нем информации равен: V = K i, где i — информационный вес одного символа в используемом алфавите.

15.3. Вероятностный подход

В жизни различные события проис­ходят с разной вероятностью. Событие «летом идет снег» маловероятно, а у события «осенью идет дождь» вероят­ность велика. Если в коробке 10 крас­ных шаров и 40 зеленых, то вероятность достать не глядя зеленый шар боль­ше, чем вероятность достать красный.

Для количественного измерения ве­роятности используют следующий под­ход: если общее количество возможных исходов какого-либо события равно N, а K из них — те, в которых мы заинте­ресованы, то вероятность интересующе­го нас события может быть посчитана по формуле \(p=\frac{K}{N}\) (пример 15.5).

Чем меньше вероятность собы­тия, тем больше информации содер­жит сообщение о том, что это собы­тие произошло.

Вероятностный подход применя­ется для измерения количества ин­формации при наступлении событий, имеющих разную вероятность. Связь между вероятностью события и коли­чеством информации в сообщении о нем выражается формулой \(\frac{1}{p}=2 \), где p — вероятность события, а i — коли­чество информации (пример 15.6).

15.4. Решение задач на определение объема информации

Пример 15.7. При игре в кости ис­пользуется кубик с шестью гранями. Сколько бит информации получает игрок при каждом бросании кубика? Ответ округлить в большую сторону до ближайшего целого количества бит.

Пример 15.8. Объем сообщения ра­вен 11 Кбайт. Сообщение содержит 11 264 символа. Какова мощность ал­фавита?

Пример 15.9. Измеряется темпе­ратура воздуха, которая может быть целым числом от -30 до 34 градусов. Какое наименьшее целое количество бит необходимо, чтобы закодировать одно измеренное значение?

Пример 15.10. В ящике находится 32 теннисных мяча, среди которых есть мячи желтого цвета. Наудачу вынимается один мяч. Сообщение «Извлечен мяч желтого цвета» несет 4 бита информации. Сколько желтых мячей в ящике?

Пример 15.11*. В коробке лежат кубики. Известно, что среди них 10 красных, 8 зеленых, 6 желтых. Вычислите вероятность доставания кубика каждого цвета. Сколько ин­формации несет сообщение, что до­стали кубик любого цвета? Для реше­ния задачи воспользоваться формулой Шеннона.

Клод Элвуд Шеннон (1916—2001) — американский инженер, криптоанали­тик и математик. Является основате­лем теории информации.

Пример 15.1. У вас сегодня контроль­ная по математике. Учитель обычно дает 2 варианта заданий. До контроль­ной вы не знаете свой вариант, поэтому неопределенность знания равна 2. Если вариантов на контрольной 4, то неопре­деленность знания равна 4.

Ральф Винтон Лайон Хартли (1888—1970) — американский ученый- электронщик. Предложил генератор Хартли, преобразование Хартли и сде­лал вклад в теорию информации, введя в 1928 г. логарифмическую меру инфор­мации: i = log2N.

Пример 15.2. Количество информа­ции, которую вы получите, узнав свой вариант контрольной работы, можно рассчитать по формуле Хартли.

Если вариантов два, то 2 = 2i, следо­вательно, i = 1. Вы получите 1 бит ин­формации.

Если вариантов 4, то 4 = 2i, следова­тельно, i = 2. Вы получите 2 бита ин­формации.

Если вариантов 6, то 6 = 2i, следова­тельно, i 2,58. Вы получите 2,58 бита информации. Для получения значения i в этом случае нужно посчитать значе­ние i = log26 (например, на калькулято­ре или по таблице).

Пример 15.3. При компьютерном на­боре текста на русском языке обычно используется 32 буквы (буква «ё» при­меняется очень редко). Тогда, согласно формуле Хартли, 32 = 25, одна буква рус­ского алфавита несет 5 бит информации.

Пример 15.4. Единицы измерения объемов информации.

Килобайт (Кбайт):

210 = 1024 байта

Мегабайт (Мбайт):

220 = 1024 килобайта = 1 048 576 байт

Гигабайт (Гбайт):

230 = 1024 мегабайта = 1 073 741 824 байта

Терабайт (Тбайт):

240 = 1024 гигабайта = 1 099 511 627 776 байт

Петабайт (Пбайт):

250 = 1024 терабайта = 1 125 899 906 842 624 байта

Эксабайт (Эбайт):

260 = 1024 петабайта = 1 152 921 504 606 846 976 байт

Зеттабайт (Збайт):

270 = 1024 эксабайта = 1 180 591 620 717 411 303 424 байта

Йоттабайт (Йбайт):

280 = 1024 зеттабайта = 1 208 925 819 614 629 174 706 176 байт

С точки зрения теории измерений единицы измерения количества инфор­мации, в названии которых есть части «кило», «мега» и др., некорректны. Эти приставки используются в метрической системе мер, в которой в качестве мно­жителей кратных единиц применяется коэффициент 10n, где n = 3, 6, 9 и т. д.

В 1999 г. утвердили ряд новых при­ставок для единиц измерения коли­чества информации: киби (kibi), меби (mebi), гиби (gibi), теби (tebi), пети (peti), эксби (exbi). В настоящее время они используются наравне с «кило», «мега» и др.

Пример 15.5. В коробке 16 красных шаров и 48 зеленых. Какова вероят­ность достать зеленый шар не глядя? Красный?

Всего в коробке N = 16 + 48 = 64 шара. Нас интересует зеленый шар.

Благоприятный исход — достать любой из 48 зеленых шаров. Поэтому ​\( \frac{48}{64}=0.75 \)​ Аналогично получим вероятность достать красный шар: ​\( p=\frac{16}{64}=0.25 \)

. Значит, вероятность вы­тащить зеленый шар в 3 раза больше, чем вытащить красный шар.

* Если произошло несколько разнове­роятностных событий, то количество ин­формации можно определять по форму­ле Шеннона, предложенной им в 1948 г: I = -(Pllog2Pl + P2log2P2 + … Pwlog2Pw), где I количество информации; N — количество возможных событий; pt вероятность i-го события.

Легко заметить, что если вероятности p1, …, pN равны между собой, то каж­дая из них равна 1/N и формула Шен­нона превращается в формулу Хартли.

Пример 15.6. Какое количество ин­формации несет сообщение «Из коробки достали красный шар» для примера 15.5? По формуле ​\( \frac{1}{p}=2^i \)​получаем ​\( \frac{1}{0.25}=2^i \)​⇒4=2i. Тогда i = 2, т. е. мы получили 2 бита информации.

Пример 15.7. Выпадение каждой грани кубика равновероятно. Поэто­му количество информации от одно­го результата бросания находится из уравнения 2i = 6. Тогда 2i = 6 < 8 = 23, i = 3 бита.

Можно рассуждать и так:
i = log26 = 2,585 бита ~ 3 бита.

Пример 15.8. 11 Кбайт = 11 * 1024 = = 11264 байт. Поскольку количество байт равно количеству символов, то ис­пользована восьмибитная кодовая та­блица. Мощность алфавита: 28 = 256.

Пример 15.9. Нужно закодировать 65 равновероятностных значений. По формуле Харли: 2i = 65 < 128 = 27, i = 7 бит.

Пример 15.10. Пусть в ящике x жел­тых мячей. Тогда вероятность достать желтый мяч равна \( \frac{x}{32}\)​. Подставляем в формулу, связывающую вероятность с количеством информации:

В ящике 2 желтых мяча.
Пример 15.11*. Всего в коробке 10 + 8 + 6 = 24 кубика. Вероятности доставания кубиков: ​\( P_{кр}=\frac{10}{24}, P_{зел}=\frac{8}{24}, P_{ж}=\frac{6}{24}. \)

Количество информации по формуле Шеннона:

1. В чем сущность содержательного подхода к измерению информации?
2. Что обозначает 1 бит информации при алфавитном подходе к измерению информации?
3. Когда применяют вероятностный подход к измерению информации?

Упражнения

1. Сколько различных звуковых сигналов можно закодировать с помощью 6 бит?

2. Какое количество информации несет сообщение о том, что человек живет в первом или втором подъезде, если в доме 16 подъездов?

3. Сообщение о том, что ваш друг живет на 10-м этаже, несет 4 бита информации. Сколько этажей в доме?

4. Азбука Морзе позволяет кодировать символы для радиосвязи, задавая комбинацию точек и тире. Сколько различных символов (цифр, букв, знаков пунктуации и т. д.) можно закодировать, используя код Морзе длиной не менее пяти и не более шести сигналов (точек и тире)?

5. В ящике находится 32 теннисных мяча, среди которых есть мячи черного цвета. Наудачу вынимается один мяч. Сообщение «Извлечен мяч НЕ черного цвета» несет 3 бита информации. Сколько черных мячей в ящике?

6. К празднику надували белые и синие шарики. Белых шариков 24. Сообщение о том, что лопнул синий шарик, несет 2 бита информации. Сколько всего надули шариков?

7. В школьной библиотеке 32 стеллажа с книгами, на каждом — по 8 полок. Пете сообщили, что нужный учебник находится на 2-й полке 4-го стеллажа. Какое количество информации получил Петя?

8. Для регистрации на некотором сайте пользователю нужно придумать пароль, состоящий из 10 символов. В качестве символов можно использовать десятичные цифры и шесть первых букв латинского алфавита, причем буквы используются только заглавные. Пароли кодируются посимвольно. Все символы кодируются одинаковым и минимально возможным количеством бит. Для хранения сведений о каждом пользователе в системе отведено одинаковое и минимально возможное целое число байт. Какой объем будет занимать информация о паролях 1000 пользователей?

9*. В некоторой стране автомобильный номер длиной 6 символов составляют из заглавных букв (задействовано 30 различных букв) и десятичных цифр в любом порядке. Каждый такой номер в компьютерной программе записывается минимально возможным и одинаковым целым количеством байт (при этом используют посимвольное кодирование, и все символы кодируются одинаковым и минимально возможным количеством бит). Определите объем памяти в байтах, отводимый этой программой для записи 50 номеров.

10. В озере обитают 12 500 окуней, 25 000 пескарей, а карасей и щук по 6250. Какое количество информации несет сообщение о том, что поймали пескаря? Сколько информации мы получим, когда поймаем какую-нибудь рыбу?

11*. Какое сообщение содержит большее количество информации?

  1. Бабушка испекла 16 пирожков. Лера съела один пирожок.
  2. Бабушка испекла 12 пирожков с капустой, 12 пирожков с повидлом. Маша съела один пирожок.
  3. Бабушка испекла 16 пирожков с капустой, 24 пирожка с повидлом. Миша съел один пирожок.

 

Проверь себя

Выбор тем