Уровень: Глоссарии:

Оценка информации в тексте

Предполагается проделать следующий опыт. На 32 карточках выписать все буквы русского алфавита. После тщательного перемешивания карт их извлекают наугад, записывают букву, возвращают карту в коробку, снова перемешивают, извлекают карту, записывают букву и т.д. Проделав такую процедуру 30-40 раз, получим набор букв. Математик Р. Добрушин в результате такого эксперимента получил набор букв, приведенный в первой строке табл. 1.

Таблица 1

Фразы	Фраза	Условия получения фразы
1	СУХЕРРОБЬДЩ ЯЫХВУИ ЮАЙЖТЛФВНЗАГФО ЕНВШТУР ПХГБКУЧТЖЮ РЯМЧЬЙХРЫС	Равная вероятность всех букв алфавита и интервала между словами
2	ЕЫНТ УИЯБЬА ОЕРВ ОДНГ ЬУЕМЛОЛЙКЗБЯ ЕВНТША	Учтены вероятности отдельных букв и пробелов между словами
3	ВЕСЕЛ ВРАТЬСЯ НЕ СУХОМ И НЕПО И КОРКО	Учтены вероятности 4-х буквенных сочетаний
4	ТЕОРИЯ ИНФОРМАЦИИ ПОЗВОЛЯЕТ ИЗУЧИТЬ ЭТО СВОЙСТВО РЕАЛЬНЫХ	Соблюдены реальные вероятности сочетания всех букв

Чередование букв беспорядочно, хаотично. Энтропия текста велика. По предложенной методике вероятность извлечения любой из букв одинакова, т. е.

W_A = W_Б = ... =W_Я = 1/32

Вероятность извлечения пустой карточки (промежуток между словами) также равна 1/32: на 32 буквы выпадает один интервал.

Энтропия появления каждой следующей буквы в тексте подсчитывается по формуле Шеннона

Если вероятности появления букв одинаковы W_А = W_Б = ... = W_Я, то получаем энтропию I~5 бит.

В реальных текстах частота появления каждой буквы и интервалы различны. В табл. 2 приведены частоты W_i букв в русском языке. Из-за неодинаковой вероятности появления различных букв в реальных текстах их энтропия меньше, чем в первом опыте. Во втором опыте в коробку помещается уже не 32 карточки, а больше: число карточек пропорционально вероятностям появления букв. Например, на 1 карточку с буквой Ф (W_Ф = 0,002) приходится 45 карточек с буквой О (W_О = 0,090). Затем, как и в первом опыте, идет вытаскивание и возвращение карточек. В результате появляется фраза 2 (табл. 1), которая более упорядочена.

Таблица 2

Частота букв W_i в русском языке
Пробел 0,175	Р 0,040	Я 0,018	Х 0,009
О 0,090	В 0,038	Ы 0,016	Ж 0,007
Е,Ё 0,072	Л 0035	З 0,016	Ю 0,006
А 0,062	К 0,028	Ь,Ъ 0,014	Ш 0,006
И 0,062	М 0,026	Б 0,014	Ц 0,003
Т 0,053	Д 0,025	Г 0,013	Щ 0,003
Н 0,053	Г 0,023	Ч 0,012	Э 0,003
С 0,045	У 0,021	Й 0,010	Ф 0,002

Во-первых, из текста исчезли несуразно длинные слова.

Во-вторых, во фразе 2 гласные и согласные чередуются более равномерно, но, тем не менее, не все можно даже прочитать, не говоря уже о смысле.

Подставим в формулу Шеннона вероятность появления отдельных букв

I₁ = - 0,175 log₂0,175 - 0,090 log₂0,090 - ... - 0,002 log₂0,002 = 4,35 бит.

Количество информации в сообщении, приходящейся на одну букву, уменьшилось, с 5 до 4,35 бит, т. к. мы располагаем сведениями о частотах встречаемости букв.

Но в языке существует частотный словарь, где учтены не только частоты отдельных букв, но и их сочетаний (парных, тройных и т. д.). Если учесть вероятность 4-х буквенных сочетаний в русском тексте, то получим фразу 3 (табл. 1).

По мере учета все более протяженных корреляций возрастает сходство полученных "текстов" с русским языком, но до смысла все еще далеко.