23 января 1913 года выдающийся русский математик Андрей Андреевич Марков выступил в Императорской Академии Наук с докладом, озаглавленным «Пример статистического исследования над текстом “Евгения Онегина” иллюстрирующий связь испытаний в цепь». Этот доклад был опубликован в Известиях Императорской Академии Наук С.-Петербурга, серия VI, том VII, выпуск 1 за 1913 год (С. 153—162).
Значение представленной А.А. Марковым работы заключалось в подтверждении согласованности эмпирических оценок вероятностей появления связанных событий с теоретическими значениями. В качестве событий им рассматривались случаи появления гласной (событие Г) или согласной буквы (событие С) в цепи “испытаний”, каждое из которых связано с двумя предыдущими таким образом, что
1. Вероятность появления события Г является постоянной величиной p
пока
неизвестны результаты последующих испытаний. Вероятность обратного события С
также является постоянной величиной q = 1 – p
.
2. Вероятность появления события Г, если известен результат одного предшествующего испытания, составляет:
p1
, если предшествующее событие было Г, иp0
, если предшествующее событие было С.3. Вероятность появления события Г, если известен результат двух предшествующих испытаний, составляет
p1,1
для предшествующих событий ГГp1,0
для предшествующих событий ГСp0,1
для предшествующих событий СГp0,0
для предшествующих событий СС.Говоря проще, исследование А.А. Маркова заключалось в определении оценок вероятностей появления в тексте гласных и согласных букв, а также их двух и трех буквенных сочетаний.
Исходный текст был преобразован таким образом, что из него были удалены все знаки пунктуации, промежутки, кавычки, нерусские буквы и буквы Ь и Ъ. Из всего текста была выделена начальная последовательность длиной 20000 букв, которая включила по словам А.А.Маркова “всю первую главу и шестнадцать строф второй”.
МОЙ ДЯДЯ САМЫХ ЧЕСТНЫХ ПРАВИЛ КОГДА НЕ В ШУТКУ ЗАНЕМОГ ОН УВАЖАТ СЕБЯ ЗАСТАВИЛ И ЛУЧШЕ ВЫДУМАТ НЕ МОГ ЕГО ПРИМЕР ДРУГИМ НАУКА НО БОЖЕ МОЙ КАКАЯ СКУКА С БОЛНЫМ СИДЕТ И ДЕН И НОЧ НЕ ОТХОДЯ НИ ШАГУ ПРОЧ КАКОЕ НИЗКОЕ КОВАРСТВО ПОЛУЖИВОГО ЗАБАВЛЯТ ЕМУ ПОДУШКИ ПОПРАВЛЯТ ПЕЧАЛНО ПОДНОСИТ ЛЕКАРСТВО ВЗДЫХАТ И ДУМАТ ПРО СЕБЯ КОГДА ЖЕ ЧЕРТ ВОЗМЕТ ТЕБЯ…
Для удобства анализа исследуемая последовательность была разбита на 200 частей по 100 букв каждая. В результате скрупулезных подсчетов было определено, что количество гласных букв в тексте составило 8638, а согласных 11362. Таким образом, эмпирическая оценка вероятности появления гласной буквы составила
p
= 8638/20000 ~= 0,432.
Соответственно, вероятность появления согласной буквы составила
q = 1 – p
~= 0,568.
Количество буквенных сочетаний по его расчетам составило:
Последние два значения были определены А.А. Марковым не с помощью утомительных ручных подсчетов, а исходя из здравых рассуждений. В случае, если исследуемая последовательность ограничена согласными буквами, число согласных, следующих за гласными определяется разностью общего числа гласных и числа сочетаний ”гласная, гласная”: 8638–1104=7534. Так как все согласные кроме первой должны следовать за гласными или согласными, то число сочетаний ”согласная, согласная” определяется разностью 11362–1–7534=3827. В общем случае данный метод может давать ошибку ±1, что при достаточной длине исследуемой последовательности абсолютно несущественно.
Эмпирические оценки значений вероятностей появления сочетаний составили:
p1
= 1104/8638 ~=0,128p0
= 7534/11361 ~= 0,663p1,1
= 115/1104 ~= 0,104q0,0
= 505/3827 ~= 0,132.Оценки вероятностей появления сочетаний “гласная, согласная, гласная”, p1,0
и “согласная, гласная, гласная”, p0,1
были определены на основании теоретических формул, полученных А.А. Марковым в работе «Об одном случае испытаний связанных в сложную цепь»,
Известия Императорской Академии Наук, серия VI, том V, 1911 (С. 174):
q0,0 = q0 + η·p0 | (1) |
p1,0 = p0 + η·q0 | (2) |
p1,1 = p1 + ε·q1 | (3) |
p0,1 = p1·(1 - ε) | (4) |
По формуле (1) находим коэффициент η
:
η = (q0,0 – q0)/p0 = (q0,0 – 1 + p0)/p0
= (0,132 – 1 + 0,663) / 0,663 = –0,205 / 0,663 = –0,309.
Соответственно из (2) получаем для сочетаний “гласная, согласная, гласная”
p1,0 = p0 + η·q0
= 0,663 – 0,309·(1 – 0,663) = 0,559.
Аналогично по формуле (3) находим коэффициент ε
:
ε = (p1,1 – p1)/q1 = (p1,1 – p1)/(1 – p1) = (0,104 – 0,128) / 0,872 = –0,024 / 0,872 = –0,027.
Соответственно из (4) получаем для сочетаний “согласная, гласная, гласная”
p0,1 = p1·(1 – ε)
= 0,128·(1 + 0,027) = 0,131.
Кроме оценок перечисленных выше вероятностей, А.А. Марков исследует еще оценки коэффициента дисперсии частот рассматриваемых событий. Мы этот вопрос оставим в стороне.
В упомянутой выше работе «Об одном случае испытаний связанных в сложную цепь» А.А.Марков приводит три важные формулы:
p = p·p1 + q·p0
, где q = 1 – p
p1 = p1·p1,1 + q1·p0,1
, где q1 = 1 – p1
P0 = p0·p1,0 + q0·p0,0
, где q0 = 1 – p0
которые определяют теоретическую взаимосвязь событий в исследуемой цепи. Относительно рассмотренного нами примера аболютно справедливы его слова “вероятность букве быть гласной значительно изменяется, в зависимости от того, предшествует ей гласная или согласная.”
Было крайне любопытно повторить результаты, полученные А.А. Марковым для текста ”Евгения Онегина”. В качестве исходного текста была взята электронная публикация романа с сайта Русской Виртуальной Библиотеки. Задача подготовки исследуемой последовательности букв легко решилась с помощью утилиты xMarkup. Процесс подготовки занял несколько итераций:
1. исходный текст публикации был очищен от HTML-тегов;
2. зафиксировано начало текста (с первой строфы), удалены заголовки глав, эпиграммы и номера строф;
3. исправлены штучные ошибки распознавания (сходные по написанию русские буквы вместо латинских в иностранных словах);
4. из полученного текста выделена начальная последовательность гласных и согласных длиной 20000 букв.
Последний шаг был выполнен с помощью следующего простого скрипта.
# вырезка из текста "Евгения Онегина" начальной последовательности
# гласных и согласных букв (кроме букв "Ь" и "Ъ") длиной 20000
[startEntity]
@regexp([ЁёА-ЩЫЭЮЯа-щыэюя]+)
[startMarkup]
@run(merge)
[Macros]
procedure initialize
f := open("eonegin.txt","w")
s := ""
N := 20000
end
procedure merge
s := s || upper(@start)
if length(s) >= N then eof()
end
procedure finalize
writes(f,substr(s,1,N))
close(f)
end
Оказалось, что в последовательность первых 20000 букв попадает практически вся 16-я строфа второй главы, кроме последней буквы ”л” из заключительной строчки ”Прилежно юноше внимал.”
С помощью простого алгоритма был произведен прямой подсчет числа гласных и согласных букв и их комбинаций. В качестве гласных принимались буквы А, Е, Ё, И, Й, О, У, Ы, Э, Ю, Я. Эта оговорка имеет смысл, так как букву Й (И краткое) можно считать гласной лишь условно. С точки зрения фонетки звук [й'] - это мягкий согласный звук, а буква Й (как и любая другая буква) только знак для обозначения этого звука.
Полученные результаты за редким исключением показали хорошее соответствие с результатами А.А. Маркова (числа в скобках):
Два последних значения в работе А.А. Маркова эмпирически не определялись, но их можно "вычислить" путем рассуждений, аналогичных тем, которые он использовал для подсчета числа сочетаний "гласная, согласная" и "согласная, согласная".
Число сочетаний “согласная, гласная, гласная” определяется разностью чисел сочетаний “гласная, гласная” и “гласная, гласная, гласная”, т.е. 1107-122=985. По данным А.А. Маркова получим 1104-115=989. Весьма близко!
Число сочетаний “гласная, согласная, гласная” с погрешностью ±1 определяется разностью чисел сочетаний "согласная, гласная" и "согласная, согласная", увеличенной на число сочетаний “согласная, согласная, согласная”, т.е. 7532-3829+537=4240 ~= 4239. По данным А.А. Маркова получим 7534-3827+505=4212. Близко, хотя и не очень!
Так как возможности компьютерного анализа ничем не ограничены, дополнительно были исследованы комбинации из 4-х и более букв. Обнаружилось, что в тексте в сорока шести случаях встречается 4-х буквенное сочетание согласных вида
ВЗГЛ, ВСТВ, ВСТР, ДСТВ, ЗНВС, КСКЛ, ЛГСВ, МВСТ, МСКР, МСТВ, МСТР, НВДВ, НВСТ, НСТР, РГСК, РСТВ, СВСВ, ССТВ, ТВСВ, ТСПЛ
В девяти случаях встречается 4-х буквенное сочетание гласных вида
АЙЕЙ, ИЙИО, ОЕЙИ, ОЕЙО, ОЕЙЯ, ОЙИУ, ОЙУЕ, ЫЙИУ.
Также в одном случае встречается 5-и буквенное сочетание согласных ”ЗНВСВ” из строки ”Судьба и жизнь в свою чреду”.
Целью настоящей заметки никоим образом не являлась проверка результатов основоположника теории цепей Маркова. Скорее, это "воспоминание" о 100-летней годовщине публикации найденных им теоретических закономерностей. Забавно, что для демонстрации своего метода он использовал текст “Евгения Онегина”. Возможно, это был не самый удачный пример, так как гениальное творение Пушкина нельзя рассматривать случайной последовательностью гласных и согласных букв. Однако, определенные статистические закономерности присущи даже такому не случайному тексту!
Закончить хочется фразой А.А.Маркова: ”Нельзя, конечно, утверждать, что наш пример удовлетворяет теоретическим условиям во всей полноте; но, с другой стороны, едва ли можно сомневаться, что отмеченное нами согласие чисел не случайно и связано с известной согласованностью теоретических предположений с условиями примера.”
Сергей Логичев, февраль 2013