Статьи и публикации / Papers and articles

× Чехов. Том 2

Статьи и публикации / Papers and articles

А.А. Марков. Примѣръ статистическаго изслѣдованiя надъ текстомъ “Евгенiя Онѣгина” иллюстрирующiй связь испытанiй въ цѣпь // Известия Императорской Академии Наук СПб., серия VI, том VII, 1913. С. 153—162. (pdf)
Описываются результаты статистического анализа частоты появления гласных и согласных букв и их сочетаний в тексте "романа в стихах" А. С. Пушкина "Евгений Онегин". Представленные эмпирические результаты сопоставляются с теоретическими зависимостями, полученными А. А. Марковым в своих более ранних работах. Позднее на основе этих работ была сформулирована всемирно известная теория марковских цепей.
А.А. Марков. Изслѣдованiе замѣчательнаго случая зависимыхъ испытанiй // Известия Императорской Академии Наук СПб., серия VI, том I, 1907. С. 61—80. (pdf)
Теоретическая работа Андрея Андреевича Маркова.
А.А. Марков. Объ одномъ случаѣ испытанiй, связанныхъ въ сложную цѣпь // Известия Императорской Академии Наук СПб., серия VI, том V, 1911. С. 171—186. (pdf)
Теоретическая работа Андрея Андреевича Маркова.
С.В. Логичев. К 100-летней годовщине одного замечательного исследования // Электронная публикация, РВБ, 2013. (текст)
Комментарий к статье А.А. Маркова Примѣръ статистическаго изслѣдованiя надъ текстомъ “Евгенiя Онѣгина”.
Й. Мистрик (Братислава). Математико-статистические методы в стилистике // журнал Вопросы языкознания, М.: Наука. Ном. 3, 1967. С. 42—52. (pdf)
Классическая работа, посвященная использованию математико-статистических методов в стилистике.
M. Koppel, N. Akiva, I. Dershowitz, N. Dershowitz. Unsupervised Decomposition of a Document into Authorial Components // The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, Proceedings of the Conference, 19-24 June, 2011, Portland, Oregon, USA. (pdf)
Автоматическое разделение документа на авторские компоненты. Чрезвычайно любопытная статья израильских исследователей, посвященная проблеме определения авторства скомипилированных текстов. Описан новый метод разделения составного документа на отличительные по авторству части. Показано, что с помощью предложенного метода можно практически идеально разделить библейский текст, искусственно скомпонованный из двух схожих по тематике текстов. Это позволяет осуществлять автоматический разбор Библии и получать результаты, на достижения которых у прежних исследователей уходили века. Одной из ключевых особенностей метода является использование эвристики, что разные авторы оперируют различными синонимами.
А.Е. Поляков. Проблемы и методы анализа русских текстов в дореформенной орфографии // Материалы международной научной конференции «Диалог-2012», Москва, 2012. Т. 1: 536. (pdf)
В данной статье рассматриваются проблемы, возникающие при анализе русских дореформенных текстов, и возможные пути их решения. Существующие лингвистические процессоры не пригодны для анализа текстов в дореформенной орфографии из-за многочисленных графических, морфологических и лексических отличий языка 18–19 века от современного языка. Автор разработал лемматизатор, который умеет правильно анализировать тексты в дореформенной орфографии, а также включает возможность гибкой настройки на другие орфографические системы (включая смешанную орфографию).
А.Е. Поляков. Лемматизатор для дореформенной русской орфографии // Доклад на международной научной конференции "Информационные технологии и письменное наследие (El'Manuscript12)", Петрозаводск, 2012. (текст)
Сообщение об авторской разработке лемматизатора, адаптированного к русскому языку и орфографии 18—19 века. Смотри статью в каталоге лингвистических программ.
Е.Р. Добрушина, А.Г. Кравецкий, А.Е. Поляков. Корпус и частотный грамматический корпусный словарь церковнославянского языка в составе Национального корпуса русского языка // Труды Института русского языка им. В.В. Виноградова. — 2015, вып. 6. — С. 116—141. (pdf)
Статья посвящена описанию современного состояния работы над церковнославянским подкорпусом Национального корпуса русского языка. Корпус отличается от собрания текстов наличием специальной разметки (грамматической, структурной, метатекстовой) и возможностью поиска по этой разметке. Рассмотрен состав, охарактеризованы основные жанровые рубрики, по которым распределяются включенные в корпус тексты, описаны принципы метаразметки, которые несколько отличаются от используемых в других корпусам, входящих в Национальный корпус русского языка. В необходимых случаях приводится историческая информация, на основе которой было принято то или иное решение. Поскольку для церковнославянских текстов ввод поисковых запросов с клавиатуры представляет определенные трудности, предлагается несколько вариантов упрощенной орфографической передачи, что позволяет ввести запрос, ограничиваясь возможностями стандартной клавиатуры. Наконец, в статье содержится описание созданного в рамках работы над проектом частотного грамматического словаря.