К чему приводит повышение энтропии источника сообщений
Энтропия источника сообщений
Для большинства реальных источников сообщения имеют разные вероятности. Например, в тексте буквы А, О, Е встречаются сравнительно часто, а Щ, Ы – редко. Согласно экспериментальным данным, для букв русского алфавита характерны безусловные вероятности, сведенные в табл. 4.1.
Таблица 4.1 Безусловные вероятности букв русского алфавита
При разных вероятностях сообщения несут различное количество информации . При решении большинства практических задач необходимо знать среднее количество информации, приходящееся на один элемент сообщения. Это среднее количество информации при общем числе элементов сообщения источника n и числе символов алфавита m равно:
(бит/сообщение).
Величину называют энтропией источника сообщений. Термин «энтропия» заимствован из термодинамики, где она характеризует среднюю неопределенность состояния системы молекул вещества. В теории информации этот термин введен в 1948 г. американским ученым К. Шенноном [49] и далее более строго определен советскими математиками А.Я. Хинчиным [46, 47, 48]и А.Н. Колмогоровым [27]. Физически энтропия выражает среднюю неопределенность состояния источника сообщений и является объективной информационной характеристикой источника. Энтропия всегда положительна и принимает максимальное значение при равновероятных сообщениях [2]:
.
Минимальное значение энтропии соответствует случаю, когда одна из вероятностей , а остальные равны нулю, т.е. имеется полная определенность.
Для источника с зависимыми сообщениями энтропия тоже вычисляется как математическое ожидание количества информации на один элемент этих сообщений. Следует заметить, что полученное в этом случае значение энтропии будет меньше, чем для источника независимых сообщений. Это следует из того, что при наличии зависимости сообщений неопределенность выбора уменьшается и, соответственно, уменьшается энтропия. Так, в тексте после сочетания «чт» вероятнее всего, что третьей буквой будет «о» и маловероятно появление в качестве третьей буквы «ж» или «ь». В среднем, сочетание «что» несет меньше информации, чем эти буквы в отдельности.
Наиболее широкое применение в дискретных системах передачи информации получили двоичные источники. Двоичные источники характеризуются передачей только двух возможных сообщений. Причем, если вероятность передачи одного из них , то вероятность передачи другого .
График зависимости (4.4) представлен на рис. 4.1. Как следует из графика, энтропия двоичного источника изменяется в пределах от нуля до единицы. Энтропия равна нулю, когда вероятность передачи одного из символов равна нулю или единице, т.е. передается только одно сообщение. Получение же одного единственно возможного сообщения никакой новой информации не дает. Энтропия двоичного источника будет максимальна, если существует наибольшая неопределенность, т.е. . При этом .
Избыточность источникасообщений
Избыточными в источнике являются сообщения, которые несут малое, иногда нулевое, количество информации. Наличие избыточности означает, что часть сообщений можно и не передавать по каналу связи, а восстановить на приеме по известным статистическим связям. Так и поступают при передаче телеграмм, исключая из текста союзы, предлоги, знаки препинания, поскольку они легко восстанавливаются по смыслу телеграммы на основании известных правил построения фраз.
где – энтропия источника; – максимальная энтропия источника с алфавитом из сообщений.
Избыточность при передаче сообщений имеет свои положительные и отрицательные стороны. Увеличение избыточности приводит к увеличению времени передачи сообщений, излишней загрузке каналов связи. За определенный промежуток времени по каналу передается меньшее количество информации, чем это возможно; поэтому одной из задач теории информации и техники кодирования является задача сокращения избыточности.
Однако при увеличении избыточности появляется возможность повышения помехоустойчивости передачи сообщений. Так, избыточность текста позволяет исправлять отдельные ошибки или восстанавливать пропущенные буквы или даже слова в телеграмме. У русского и всех европейских языков избыточность с учетом всех статистических зависимостей букв примерно одинакова . Она сформировалась в результате длительной, общественной практики на основе требований исправления искажения слов и фраз под воздействием различных мешающих факторов. Для систем связи устанавливается компромиссное значение избыточности, которое обеспечивает заданную скорость и надежность передачи сообщений.
Производительность источника сообщений
Для источников сообщений с фиксированной скоростью важным параметром является его производительность , определяемая выражением:
[бит/с],
где – интервал времени для передачи элементарного сообщения.
Физический смысл производительности – количество информации, выдаваемое источником в среднем за единицу времени (одну секунду) его непрерывной работы.
Как может показаться, анализ сигналов и данных — тема достаточно хорошо изученная и уже сотни раз проговоренная. Но есть в ней и некоторые провалы. В последние годы словом «энтропия» бросаются все кому не лень, толком и не понимая, о чем говорят. Хаос — да, беспорядок — да, в термодинамике используется — вроде тоже да, применительно к сигналам — и тут да. Хочется хотя бы немного прояснить этот момент и дать направление тем, кто захочет узнать чуть больше об энтропии. Поговорим об энтропийном анализе данных.
В русскоязычных источниках очень мало литературы на этот счет. А цельное представление вообще получить практически нереально. Благо, моим научным руководителем оказался как раз знаток энтропийного анализа и автор свеженькой монографии [1], где все расписано «от и до». Счастью предела не было, и я решила попробовать донести мысли на этот счет до более широкой аудитории, так что пару выдержек возьму из монографии и дополню своими исследованиями. Может, кому и пригодится.
Итак, начнем с начала. Шенноном в 1963 г. было предложено понятие меры усредненной информативности испытания (непредсказуемости его исходов), которая учитывает вероятность отдельных исходов (до него был еще Хартли, но это опустим). Если энтропию измерять в битах, и взять основание 2, то получим формулу для энтропии Шеннона , где Pi это вероятность наступления i-го исхода.
То есть в этом случае энтропия напрямую связана с «неожиданностью» возникновения события. А отсюда вытекает и его информативность — чем событие более предсказуемо, тем оно менее информативно. Значит и его энтропия будет ниже. Хотя открытым остается вопрос о соотношениях между свойствами информации, свойствами энтропии и свойствами различных ее оценок. Как раз с оценками мы и имеем дело в большинстве случаев. Все, что поддается исследованию — это информативность различных индексов энтропии относительно контролируемых изменений свойств процессов, т.е. по существу, их полезность для решения конкретных прикладных задач.
Энтропия сигнала, описываемого некоторым образом (т.е. детерминированного) стремится к нулю. Для случайных процессов энтропия возрастает тем больше, чем выше уровень «непредсказуемости». Возможно, именно из такой связки трактовок энтропии вероятность->непредсказуемость->информативность и вытекает понятие «хаотичности», хотя оно достаточно неконкретно и расплывчато (что не мешает его популярности). Встречается еще отождествление энтропии и сложности процесса. Но это снова не одно и то же.
Для того, чтобы немного обрисовать области применения энтропии к анализу данных, рассмотрим небольшую прикладную задачку из монографии [1] (которой нет в цифровом виде, и скорей всего не будет).
Пусть есть система, которая каждые 100 тактов переключается между несколькими состояниями и порождает сигнал x (рисунок 1.5), характеристики которого изменяются при переходе. Но какие — нам не известно.
Разбив x на реализации по 100 отсчетов можно построить эмпирическую плотность распределения и по ней вычислить значение энтропии Шеннона. Получим значения, «разнесенные» по уровням (рисунок 1.6).
Как можно видеть, переходы между состояниями явно наблюдаются. Но что делать в случае, если время переходов нам не известно? Как оказалось, вычисление скользящим окном может помочь и энтропия так же «разносится» на уровни.В реальном исследовании мы использовали такой эффект для анализа ЭЭГ сигнала (разноцветные картинки про него будут дальше).
Теперь еще про одно занятное свойство энтропии — она позволяет оценить степень связности нескольких процессов. При наличии у них одинаковых источников мы говорим, что процессы связаны (например, если землетрясение фиксируют в разных точках Земли, то основная составляющая сигнала на датчиках общая). В таких случаях обычно применяют корреляционный анализ, однако он хорошо работает только для выявления линейных связей. В случае же нелинейных (порожденных временными задержками, например) предлагаем пользоваться энтропией.
Рассмотрим модель из 5ти скрытых переменных(их энтропия показана на рисунке ниже слева) и 3х наблюдаемых, которые генерируются как линейная сумма скрытых, взятых с временными сдвигами по схеме, показанной ниже справа. Числа-это коэффициенты и временные сдвиги (в отсчетах).
Так вот, фишка в том, что энтропия связных процессов сближается при усилении их связи. Черт побери, как это красиво-то!
Такие радости позволяют вытащить практически из любых самых странных и хаотичных сигналов (особенно полезно в экономике и аналитике) дополнительные сведения. Мы их вытаскивали из электроэнцефалограммы, считая модную нынче Sample Entropy и вот какие картинки получили.
Можно видеть, что скачки энтропии соответствуют смене этапов эксперимента. На эту тему есть пара статей и уже защищена магистерская, так что если кому будут интересны подробности — с радостью поделюсь. А так по миру по энтропии ЭЭГ ищут уже давно разные вещи — стадии наркоза, сна, болезни Альцгеймера и Паркинсона, эффективность лечения от эпилепсии считают и тд. Но повторюсь-зачастую расчеты ведутся без учета поправочных коэффициентов и это грустно, так как воспроизводимость исследований под большим вопросом (что критично для науки, так то).
Резюмируя, остановлюсь на универсальности энтропийного аппарата и его действительной эффективности, если подходить ко всему с учетом подводных камней. Надеюсь, что после прочтения у вас зародится зерно уважения к великой и могучей силе Энтропии.
Информационные характеристики источников сообщений
Количественная мера информации
Поскольку любая система связи предназначена для передачи информации, то возникает задача в оценке количества информации в передаваемом сообщении. Оценить количество информации с точки зрения ее ценности для получателя невозможно, т. к. одно и тоже сообщения для различных получателей несет различную ценность, так, например, информация получаемая при изучении данного материала для специалиста имеет весьма большую ценность.
Поэтому для определения количества информации используют вероятностные характеристики сообщения, которые не связаны с конкретным содержанием сообщения, а отражают степень их неопределенности (неожиданности). Поскольку информация это новые сведения, то и сообщения менее вероятные несут больше информации, нежели сообщения более вероятные. Таким образом, имеет место обратно пропорциональная зависимость между количеством информации в сообщении и вероятностью его появления.
Также для определения количества информации используются две зависимости:
Чтобы учесть обе этих зависимости принимается логарифмическая шкала для оценки количества информации. Исходя из выше сказанного количество информации в сообщении будет определятся:
где I(ai) — количество информации в сообщении ai;
P(ai) — вероятность появления сообщения ai.
Выбор основания логарифма определяет единицу измерения количества информации. Для удобства в качестве основания в системах с двоичными кодами используется основание b=2 и тогда информация измеряется в битах — бинарных или двоичных единицах (от английских слов binary digit). Таким образом, количество информации определяется как:
Из данного выражения следует, что один бит информации это:
т. е. 1 бит?это количество информации, которое несет сообщение с вероятностьюP(ai)=0,5.
Термин бит используется в вычислительной и импульсной технике, поскольку там используются сообщения формируемые двумя равновероятными символами 1 и 0.
Как следует из выражения, количество информации не может быть отрицательным.
Энтропия источника
Большинство реальных источников формирует сообщения с различным количеством информации, однако, при решении практических задач необходимо знать среднее количество информации приходящееся на одно сообщение. Среднее количество информации определяется как математическое ожидание количества информации в сообщении.
где Ма — количество возможных сообщений источника.
Величина Н(А) называется энтропией источника и характеризует среднее количество информации приходящейся на одно сообщение.
Приведенное выражение используется для определения энтропии источников дискретных сообщений. Для непрерывных сообщений а(t) энтропия теоретически стремится к бесконечности, т. к. сообщение может принимать бесконечное число значений, следовательно P(ai)®0, а I(ai)®?. Однако если сообщение подвергнуть дискретизации и представить его конечным числом квантованных значений по уровню L, то можно определить среднее количество информации в одном отсчете (энтропию отсчета):
где pi — вероятность появления в квантованном сообщении i-го уровня.
Lкв — количество уровней квантования.
Если осуществить предельный переход устремив L к бесконечности, то получится величина, называемая дифференциальной энтропией.
Энтропия является объективной информационной характеристикой источника сообщений. Она всегда положительна.
1 0 Энтропия равна нулю, если одно сообщение достоверно (P(ai)=1), а другие не возможны.
2 0 Энтропия максимальна, когда все сообщения равновероятны, и растет с увеличением равновероятных сообщений.
3 0 Энтропия обладает свойством аддитивности, т. е. энтропии различных источников можно складывать.
Избыточность источника
Под избыточностью понимают наличие в сообщении «лишних» элементов, т. е. элементов не несущих смысловой нагрузки (например, союзы, предлоги). Данные элементы могут быть восстановлены за счет статистических взаимосвязей между другими элементами сообщения. Например, союзы, предлоги и знаки препинания можно восстановить, зная правила построения предложений. Таким образом:
избыточность — это мера сокращения сообщения без потери информации, за счет статистических взаимосвязей между элементами сообщения.
Количественной мерой информации является коэффициент избыточности:
где Н(А) — энтропия, вычисленная на основе учета статистических характеристик сообщений;
Hmax(A) — максимальная энтропия источника, которая согласно второму свойству равна:
Hmax(A)= log2 Ma; бит/сообщ. (13)
Наличие избыточности при передаче сообщений имеет свои положительные и отрицательные стороны. Сообщение, обладающее избыточности требует большего времени передачи и, соответственно большего времени занятия канала. Однако повышение избыточности приводит к увеличению помехоустойчивости сообщения. Она способствует обнаружению и исправлению ошибок в принятых сообщениях. Это связано с тем, что для формирования сообщения используются не все возможные комбинации символов, а лишь определенные (разрешенные), которые заносятся в специальные справочники (словари). При приеме сообщения с элементами (словами) которых нет в справочниках говорит о наличии ошибки и ошибочный элемент может быть заменен похожим по написанию или подходящим по смыслу. Все языки обладают избыточностью равной cи»0,5.
Производительность источника
Производительность источника — это среднее количество информации создаваемое источником в единицу времени.
Производительность источника дискретных сообщений определяется как:
где tср — средняя длительность сообщения:
где tн — время, в течении которого было сформировано n сообщений.
Производительность источника непрерывных сообщений определяется как:
H’н.с.(А)=fд Hотсч(А); бит/с (16)
где fд — частота дискретизации (2Fmax).
Если сообщение квантуется равновероятными уровнями, т. е. pi=1/L, то производительность источника может быть определена как:
Пусть источник информации выдаёт дискретные сообщения Z. С помощью кодирующего устройства каждое сообщение превращается в код. Множество символов кода обозначим через X. Если исследуется канал связи, то можно не обращаться к источнику информации, а рассматривать лишь источник символов (кодирующее устройство). Тогда возникает необходимость связать свойства источника и отправителя. Эта связь возможна через энтропию.
Под энтропией сообщения будем понимать количество информации, содержащееся в любом усреднённом сообщении. Тогда
(6.4)
– усреднённая энтропия сообщения. Соответственно энтропия источника, или количество информации, содержащееся в одном символе сообщения:
(6.5)
Пример. Пусть передаётся четыре равновероятных сообщения двоичным не избыточным кодом. Сообщения отображаются кодом 00, 01,10,11. Найдём энтропию сообщения:
и энтропию источника
.
Из примера видно, что каждый символ несёт одну двоичную единицу информации.
Разделим H(Z) на H(X) и получим число элементов в коде, т.е. H(Z)/H(X) = n. Если данное условие соблюдается, то код называется оптимальным, в противном случае в коде возникает избыточность, и он становится неоптимальным для канала без шума. Для получения оптимального кода необходимо, чтобы символы в нём встречались с равной вероятностью.
Дата добавления: 2016-02-04 ; просмотров: 1261 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ
Энтропия источника дискретных сообщений (ИДС) и её свойства
Балтийский федеральный университет имени И. Канта
Физико-технический факультет
Утверждаю
Заведующий кафедры
к.т.н., доцент
А. Шпилевой
«___»_________ 201__ г.
Л Е К Ц И Я № 29
Тема:«Основные понятия теории информации»
Текст лекции по дисциплине:«Теория электрической связи»
Обсуждена и одобрена на заседании кафедры
протокол №___ от «___»___________201__г.
Г. Калининград 2012 г.
Текст лекции № 30
по дисциплине:«Теория электрической связи»
«Основные понятия теории информации»
Введение
В каналах связи передаётся информация, преобразованная в сигналы.
Для согласования объёма информации с каналом необходимо научиться определять количество информации, подлежащее передаче. Без решения этого вопроса невозможно строить современные системы передачи информации.
Под термином “информация” понимают различные сведения, которые поступают к получателю. В более строгой форме определение информации следующее:
Информация– это сведения, являющиеся объектом передачи, распределения, преобразования, хранения или непосредственного использования.
В дальнейшем нас будут интересовать лишь вопросы, связанные с информацией как объектом передачи.
Сообщениеявляется формой представления информации.
Одно и то же сведение может быть представлено в различной форме. Например, передача голосового сообщения по телефону или изображения по телевизионному каналу. В этом случае мы имеем дело с информацией, представленной в непрерывном виде (непрерывное сообщение). Будем считать, что это сообщение вырабатывается источником непрерывных сообщений. Либо мы передаем сообщение по телеграфному каналу, в этом случае речь идет об информации, представленной в дискретном виде (дискретное сообщение). Это сообщение вырабатывается источником дискретных сообщений.
В технических устройствах и системах прием, обработка и передача информации осуществляется с помощью сигналов.
Сигнал (от латинского signum– знак) представляет собой любой процесс, несущий информацию.
Сигналы отражают физические характеристики изучаемых объектов и процессов. Посредством сигналов информация может передаваться на короткие и большие расстояния. Информация в виде сигнала может различным образом перерабатываться, сохраняться, уничтожаться и т. п.
Различают несколько видов сигналов: звуковые, которые можно услышать при работе милицейской сирены; световые, передающие информацию от пульта дистанционного управления к телевизору, а также электрические.
Основное отличие дискретного и непрерывного источников состоит в следующем. Множество всех различных сообщений, вырабатываемых дискретным источником всегда конечно. Поэтому на конечном отрезке времени количество символов дискретного источника так же является конечным. В то же время число возможных различных значений звукового давления (или напряжения в телефонной линии), измеренное при разговоре, даже на конечном отрезке времени, будет бесконечным.
В нашем курсе мы будем рассматривать вопросы передачи именно дискретных сообщений.
Информация, содержащаяся в сообщении, передается от источника сообщений к получателю по каналу передачи дискретных сообщений (ПДС).
Рис.1. Тракт передачи дискретных сообщений
Вид передаваемого сигнала определяет тип канала связи.
Понятие информации, постановка задачи её определения.
Какое количество информации содержится, к примеру, в тексте романа «Война и мир», во фресках Рафаэля или в генетическом коде человека? Возможно ли, объективно измерить количество информации?
Определить понятие «количество информации» довольно сложно. В решении этой проблемы существуют два основных подхода. Исторически они возникли почти одновременно. В конце 40-х годов XX века один из основоположников кибернетики американский математик Клод Шеннон развил вероятностный подход к измерению количества информации, а работы по созданию ЭВМ привели к «объемному» подходу.
Вероятностный подход
Этот подход заключается в том, что понятие «количество информации», основывается на том, что информацию, содержащуюся в сообщении, можно нестрого трактовать в смысле ее новизны или, иначе, уменьшения неопределенности наших знаний об объекте.
При этом понятие «информация» связывается с вероятностьюосуществления того или иного события.
Американский инженер Р. Хартли (1928 г.) процесс получения информации рассматривал как выбор одного сообщения из конечного заранее заданного множества из равновероятных сообщений, а количество информации , содержащееся в выбранном сообщении, определял как двоичный логарифм .
Формула Хартли:
;
(1.1)
где
–
количество информации
–
число возможных состояний
Ту же формулу можно представить иначе:
;
(1.2)
Допустим, нужно угадать одно число из набора натуральных целых чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: . То есть сообщение о верно угаданном числе содержит количество информации, приблизительно равное .
Приведем примеры равновероятных сообщений: при бросании монеты: «выпала решка», «выпал орел»; на странице книги: «количество букв четное», «количество букв нечетное».
Определим теперь, являются ли равновероятными сообщения «первой выйдет из дверей здания женщина» и «первым выйдет из дверей здания мужчина». Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.
Для задач такого рода американский ученый Клод Шеннон предложил в 1948г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.
Формула Шеннона:
;
(1.3)
где
–
вероятность того, что именно -e сообщение выделено в наборе из сообщений
Если вероятности равны, то каждая из них равна , и формула Шеннона превращается в формулу Хартли.
Анализ формулы показывает, что чем выше вероятность события, тем меньшее количество информации возникает после его осуществления, и наоборот.
Если вероятность равна (т.е. событие достоверно), количество информации равно . Если вероятность свершения или не свершения, какого либо события одинакова, т.е. равна , то количество информации, которое несет с собой это событие, равно .
Это – единица измерения информации. Она получила наименование бит.
Если событие имеет равновероятных исходов, как при подбрасывании монеты или при игре в кости, то вероятность конкретного исхода равна , и формула Шеннона приобретает вид: .
В качестве примера определим количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке. Будем считать, что русский алфавит состоит из букв и знака «пробел» для разделения слов. По формуле Хартли:
;
(1.4)
Однако, в словах русского языка (равно как и в словах других языков) различные буквы встречаются неодинаково часто. Ниже приведена таблица вероятностей частоты употребления различных знаков русского алфавита, полученная на основе анализа очень больших по объему текстов.
Воспользуемся для подсчета формулой Шеннона; бит. Полученное значение , как и можно было предположить, меньше вычисленного ранее. Величина ,вычисляемая по формуле Хартли, является максимальным количеством информации, которое могло бы приходиться на один знак.
Таблица . Частотность букв русского языка
i
Символ
P(i)
i
Символ
P(i)
i
Символ
P(i)
Пробел
0,175
К
0,028
Г
0.012
0,090
М
0,026
Ч
0,012
Е
0,072
Д
0,025
И
0,010
Ё
0,072
П
0,023
X
0,009
А
0,062
У
0,021
Ж
0,007
И
0,062
Я
0,018
Ю
0,006
Т
0,053
Ы
0,016
Ш
0.006
Н
0,053
З
0.016
Ц
0,004
С
0,045
Ь
0,014
Щ
0,003
Р
0,040
Ъ
0,014
Э
0,003
В
0,038
Б
0,014
Ф
0,002
Л
0,035
Запомните комбинацию из наиболее повторяющихся букв русского алфавита СЕНОВАЛИТР. Эти знания использовали дешифровальщики при вскрытии тайных переписок в различные исторические периоды.
Аналогичные подсчеты можно провести и для других языков, например, использующих латинский алфавит – английского, немецкого, французского и др. ( различных букв и «пробел»).
Рассмотрим алфавит, состоящий из двух знаков и . Если считать, что со знаками и в двоичном алфавите связаны одинаковые вероятности их появления , то количество информации на один знак при двоичном кодировании будет равно:
;
(1.5)
Таким образом бит можно также определить как количество информации, которое содержит один разряд двоичного числа (отсюда название «бит»: binary digit — двоичный разряд). Другими словами количество информации (в битах), заключенное в двоичном слове, равно числу двоичных знаков в нем.
Количество информации, равное битам, называется байтом.
Отметим, что создатели компьютеров отдают предпочтение именно двоичной системе счисления потому, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния: некоторый физический элемент, имеющий два различных состояния: намагниченность в двух противоположных направлениях; прибор, пропускающий или нет электрический ток; конденсатор, заряженный или незаряженный и т.п.
Выводы
1. Единицей количества информации является 1 бит.
2. Для определения частного количества информации используется логарифмическая величина.
Энтропия источника дискретных сообщений (ИДС) и её свойства
Энтропия– среднее количество информации, которое приходится на одно сообщение (один символ последовательности), поступающее от источника без памяти. Получим, применяя операцию усреднения по всему объему алфавита
;[бит/символ]
(2.1)
Выражение (2.1) известно как формула Шеннона для энтропии источника дискретных сообщений. Энтропия – мера неопределенности в поведении источника дискретных сообщений.
Энтропия равна нулю, если с вероятностью единица источником выдается всегда одно и то же сообщение (в этом случае неопределенность в поведении источника сообщений отсутствует). Энтропия максимальна, если символы источника появляются независимо и с одинаковой вероятностью.
Свойства энтропии:
1. Энтропия любого источника сообщений всегда положительна, . Энтропия равна нулю, , если источник выдаёт одно и тоже сообщение с вероятностью, равной .
2. Если источник без памяти содержит сообщения с фиксированным объёмом алфавита K, то энтропия такого источника имеет максимальное значение при условии равновероятной выдачи сообщений.
, при .
В частном случае, когда источник выдаёт всего два сообщения и , энтропия максимальна и равна биту при . Покажем это.
Введём обозначения: , , тогда
;
(2.2)
Отсюда видно, что при и или и . Максимум энтропии достигается, если , т. е.
;
(2.3)
Зависимость энтропии этого источника от (1) показана на рисунке 2.
Рис. 2. Энтропия двоичного источника без памяти
3. Энтропия аддитивна. Это вытекает из свойств логарифмической функции.
Аддитивность (лат. additivus — прибавляемый) — свойство величин, состоящее в том, что значение величины, соответствующее целому объекту, равно сумме значений величин, соответствующих его частям, в некотором классе возможных разбиений объекта на части. Например, аддитивность объёма означает, что объём целого тела равен сумме объёмов составляющих его частей.
Выводы
1. Среднее количество информации, содержащееся в одном символе источника, оценивается энтропией.