Последний уровень раздела предыдущего изложения   Текущий уровень изложения предыдущего раздела   Текущий уровень изложения следующего раздела   Первый уровень изложения следующего раздела   Уровень: Глоссарии:


Избыточность информации. Коэффициент стохастичности

Запишем последовательные значения информационной энтропии при учете все более протяженной корреляции для русского языка

I0
 
I1
 
I2
 
I3
    
5,00   4,35   3,52   3,01      бит

Вернемся к текстам, представленным в табл. 1. предыдущего параграфа

С помощью функции можно подсчитать, что при переходе от фразы 1 к фразе 4 энтропия текста уменьшилась примерно в 5 раз. Во фразе 2 неопределенность появления каждой буквы составляет примерно 4 бита на букву. Во фразе 4 неопределенность составляет 1 бит на букву. Это вызвано тем, что в структуре реального текста содержится информация обо всех грамматических и фонетических правилах русского языка. Разница между энтропией реального текста = 1 бит/буква и максимальной энтропией фразы Imax = 5 бит/буква и есть количество информации, содержащейся в правилах.

Язык характеризуется избыточностью информации, которую можно определить по формуле

, (1)
где In - значение информационной энтропии при данном уровне n корреляций.

Для русского языка избыточность для корреляций n = 0, 1, 2, 3 составляет

R0
 
R1
 
R2
 
R3
0,00   0,13   0,30   0,40

Однако на избыточность информации можно посмотреть по-иному, а именно: исследование сообщений текстов телеграмм, кодов и т. д. показало, что все они обладают избыточной информацией, которую можно и не передавать по каналам связи. Но то, что избыточно для каналов связи, вовсе не лишнее для самого языка. Именно избыточная информация, накапливаемая в совокупности всех грамматических и фонетических правил и сделала язык языком. Функция отразила в себе весь процесс упорядочивания как постепенный переход от равенства всех вероятностей к их существенному различию, когда вероятность буквы "О" возрастает до 0,09, а буквы "Ф" - падает до 0,0002.

Избыточность текста имеет очень широкое применение на практике. Широко известные среди пользователей ЭВМ программы-упаковщики (архиваторы) сжимают файлы как раз за счет избыточности информации.

Если процесс упорядочивания текста будет и дальше продолжаться, то можно предсказать, что же в конце концов получится. Бессмысленная фраза 1 получила подобие знакомых нам текстов, когда разные буквы стали иметь разные вероятности. Но чем больше вероятности одних букв, тем меньше вероятности остальных в силу условия : преимущество одних букв оплачивается бесправием других.

Продолжим этот процесс далее, и тогда одна какая-нибудь буква, например А, заберет все права, т. е. WА = 1, а вероятности появления остальных букв Wi = 0. Итак, доведенное до конца упорядочивание, приводит к странному тексту типа АААА..., т. е. происходит вырождение.

Однако в некоторых случаях и такой текст может оказаться полезным: он может служить сигналом какого-нибудь события. Например, сообщение о том, что прибыл груз, человек и т. д. Пока вероятности букв одинаковы, текст бессмысленно хаотичен; вероятности появления букв различны - в тексте появляется некоторый порядок; продолжаем этот процесс дальше и текст превращается в повторение одной буквы. Избегнув хаоса, текст устремляется к упрощению, не несущему информации. Но так это кажется на первый взгляд, дело гораздо сложнее: в мире есть и такие явления, которые похожи на текст из одной буквы, но, тем не менее, такая информация полезна. Например, на некоторые воздействия внешней среды организм отвечает стереотипно: почувствовали при ожоге боль - отдернули рефлекторно руку. По одной и той же команде осуществляется одно и то же движение, независимо от того нагрет ли предмет до 70, 100 или 500 градусов. Пока есть различные вероятности, ответы разнообразны; когда все свелось к одной букве, на любые запросы система дает один и тот же ответ. Это жестко детерминированные системы. Примером может служить Солнечная система, где движения планет предопределены на бесконечно долгое время. Но ведь эта система была когда-то энтропийной и непредсказуемой, хаосом движущихся в пространстве частиц.

Из хаоса возникла жестко детерминированная система, т. к. условия существования системы тоже жестко определены. Можно ожидать, что в отдаленном будущем, исчерпав энергию, погаснет Солнце, или произойдет какое-либо космическое столкновение, и Солнечная система опять превратится в хаос частиц.

В значительной степени детерминированной системой можно считать сердце, задача которого ритмично сжиматься, разжиматься и гнать кровь. При изменении внешних условий ритмичность работы сердца может нарушиться, и здесь для регулировки процесса создана нервная система и другие органы (гормональная система). Без них сердце при изменении условий не сможет выполнить своих функций и станет непригодным как текст из одной буквы А, когда даже не ясно, куда посылать эту примитивную команду.

Для выявления закономерностей взаимодействия информации с энтропией удобной системой оказался письменный текст, который отражает в себе более сложную систему - человеческий язык. Отметим, что исследование различных языков показало, что все они обладают близкими статистическими характеристиками.

Наш язык - это гибкая, подвижная, легко адаптирующаяся в различных условиях система. В языке существует определенная доля непредсказуемости, доля "энтропии". Рассмотрим этот вопрос подробнее.

Обозначим через избыточную предсказуемую информацию, которая позволяет прочитать текст при нехватке букв.

Величина In равна разности между энтропией реального текста = 1 бит на букву и максимальной энтропией, например, фразы 1 (табл. 1) I0 = 5 бит на букву, т. е.

I = I0 - = 5 - 1 = 4 бита на букву.

Это и есть количество информации, содержащейся в грамматических и фонетических правилах, которым подчиняются реальные тексты. Этого количества информации I = 4 бита/буква оказывается достаточно, чтобы превратить абракадабру (фраза 1) в осмысленный текст.

Обозначим через G коэффициент стохастичности, равный

. (2)

Сопоставляя формулы (1) и (2) найдем связь между избыточностью информации R и коэффициентом стохастичности G

.

Итак, для обычного текста G = 0,25; текст из одних "А" обладает нулевой энтропией, т. е. = 0, поэтому G = 0. Текст с максимальной энтропией I = I0 - = 0 не подчиняется правилам и G = . В официальных документах существует более жесткая детерминированность, чем в литературных текстах, и G < 0,25.

При G = 0 ничего нового сообщить нельзя, при G = невозможно ничего понять, т. к. обрушивается поток слов, оптимальное соотношение непредсказуемости (энтропийности) и детерминации (правил) G = 0,25. Это результат длительной эволюции языка.

Исследования на энтропийность сочетания звуков в музыкальных произведениях выявили оптимальное соотношение детерминированности и стохастичности, и оно также G ~ 0,25.

В картинах также соблюдается правило золотой середины. Если картина несет в себе строгие классические законы, то их G близко к нулю. Напротив, в творениях без оглядки G возрастает, в подобных произведениях не всегда возможно уловить смысл.

В заключение заметим, что для реальных случаев коэффициент G определить очень сложно, здесь можно рассуждать только о тенденциях (тяготению к G = 0 или G = ), окончательный суд могут вынести на интуитивном уровне эксперты.

Рассуждения о коэффициенте стохастичности применимы ко многим явлениям социальной жизни - к архитектуре городов, феномену моды, к психике человека и т. д. Психический комфорт, ощущение счастья, по-видимому, определяется тем, насколько условия жизни индивидуума соответствуют потребностям его психики. Последняя как заложена в нем от природы, так и сформирована его воспитанием и может также характеризоваться критерием G. Натуре человека противопоказаны как чрезмерное бравирование спонтанностью (оригинальничанье), так и излишняя детерминированность, подчиненная требованиям выгоды и удобства. Высокая психическая спонтанность приводит к нравственной неустойчивости, беспокойству, лишает способности к сосредоточенной работе. Чрезмерно детерминированная психика убивает творческое начало, лишает артистизма. Задача психиатрии заключается в создании обстановки, способной детерминировать слишком спонтанную психику или напротив, с помощью эмоций "расшевелить" спонтанность. Природа предоставляет человеку свободу выбора, позволяющую внезапно найденным удачным решением найти неожиданный поворот.

Наверное, должен сформироваться в любой ситуации оптимальный коэффициент стохастичности Gопт на всех уровнях организации - в косной, живой и социальной природе.

Цель человека на земле только и заключается в одной беспрерывности процесса достижения, иначе сказать, в самой жизни, а не собственно в цели, которая есть формула "дважды два четыре". А ведь "дважды два четыре" есть уже не жизнь, а начало смерти.

Далее