|
|
|
|
Предполагается проделать следующий опыт. На 32 карточках выписать все буквы русского алфавита. После тщательного перемешивания карт их извлекают наугад, записывают букву, возвращают карту в коробку, снова перемешивают, извлекают карту, записывают букву и т.д. Проделав такую процедуру 30-40 раз, получим набор букв. Математик Р. Добрушин в результате такого эксперимента получил набор букв, приведенный в первой строке табл. 1.
Чередование букв беспорядочно, хаотично. Энтропия текста велика. По предложенной методике вероятность извлечения любой из букв одинакова, т. е.
Вероятность извлечения пустой карточки (промежуток между словами) также равна 1/32: на 32 буквы выпадает один интервал.
Энтропия появления каждой следующей буквы в тексте подсчитывается по формуле Шеннона
Если вероятности появления букв одинаковы WА = WБ = ... = WЯ, то получаем энтропию I~5 бит.
В реальных текстах частота появления каждой буквы и интервалы различны. В табл. 2 приведены частоты Wi букв в русском языке. Из-за неодинаковой вероятности появления различных букв в реальных текстах их энтропия меньше, чем в первом опыте. Во втором опыте в коробку помещается уже не 32 карточки, а больше: число карточек пропорционально вероятностям появления букв. Например, на 1 карточку с буквой Ф (WФ = 0,002) приходится 45 карточек с буквой О (WО = 0,090). Затем, как и в первом опыте, идет вытаскивание и возвращение карточек. В результате появляется фраза 2 (табл. 1), которая более упорядочена.
Таблица 2
Во-первых, из текста исчезли несуразно длинные слова.
Во-вторых, во фразе 2 гласные и согласные чередуются более равномерно, но, тем не менее, не все можно даже прочитать, не говоря уже о смысле.
Подставим в формулу Шеннона вероятность появления отдельных букв
Количество информации в сообщении, приходящейся на одну букву, уменьшилось, с 5 до 4,35 бит, т. к. мы располагаем сведениями о частотах встречаемости букв.
Но в языке существует частотный словарь, где учтены не только частоты отдельных букв, но и их сочетаний (парных, тройных и т. д.). Если учесть вероятность 4-х буквенных сочетаний в русском тексте, то получим фразу 3 (табл. 1).
По мере учета все более протяженных корреляций возрастает сходство полученных "текстов" с русским языком, но до смысла все еще далеко.