1. Программы анализа и лингвистической обработки текстов

Название Автор(ы), Организация Комментарий
word2vec © Tomas Mikolov, etc., Google, 2013. Исследовательский проект Google, принесший всем цифровым исследователям NLP чрезвычайную пользу. word2vec - это C++ программа, позволяющая построить векторные представления слов на заданных массивах текстовой информации. Использует в своей основе реализацию с помощью самообучающейся нейронной сети алгоритмов "Continuous Bag-of-Words" (CBOW) и "Skip-gram model" (SG). В итоге можно получить "словарь", однозначно характеризующий использование заданных слов в контексте. Чем больше массив обучения, тем лучше и устойчивее получаются результаты. И тут начинается волшебство,- ничего не понимая о предмете, программа может выдавать такие интеллектуальные прозрения, что диву даешься! Например, арифметическая операция над векторами слов vector('king') - vector('man') + vector('woman') дает очень близкое значение к vector('queen'). Или vector('Paris') - vector('France') + vector('Italy') практически совпадает с vector('Rome').
Существуют множественные клоны word2vec. Например, на github выложен общедоступный проект https://github.com/dav/word2vec.
Лемматизатор для дореформенной русской орфографии © А.Е. Поляков, 2012. Парсер, выполняющий грамматический разбор текста в дореформенной русской орфографии. Позволяет:
  • выделить токены и определить их тип (слово, знак препинания, число, тег разметки и т.д.);
  • выполнить морфологический анализ словарных слов;
  • построить гипотезы для нераспознанных слов;
  • выполнить анализ многословных сочетаний.
On-line версия лемматизатора на Javascript.
Apache OpenNLP The Apache Software Foundation, Incubator OpenNLP - это организационный центр "open source" проектов, связанных с машинной обработкой естественного языка под эгидой Apache. OpenNLP предлагает обширный Java-инструментарий обработки текстов на основе методов машинного обучения. Он включает средства токенизации, выделения предложений, разметки частей речи, выделения имен собственных, разбора текста и разрешения перекрестных ссылок. Имеется документация на английском языке. Для скачивания доступен исходный код и бинарные компоненты (для запуска требуется установка Java VM).
Link Grammar Parser John Lafferty
Daniel Sleator
Davy Temperley
Carnegi Melon University, USA
Link Grammar Parser – это синтаксический парсер английского языка. Работает со словарем, включающем около  60000 словарных форм. Реализован на C для Unix. Есть также версия для Windows API32. Имеет консольный интерфейс.
Исходные предложения для разбора могут вводиться вручную с клавиатуры или задаваться в ASCII-файле для пакетной обработки. Программа распространяется бесплатно.
Проекты Cíbola/Oleada Computing Research Laboratory (CLR)
New-Mexico State University, USA

Проекты Cíbola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode. Компоненты системы включают средства работы с мультиязыковыми текстами (MUTT), построения конкорданса (XConcord) для текстов на более чем 16 языках, статистического анализа, автоматического перевода, различные словари и тезаурусы. Некоторые версии этих компонентов доступны для бесплатной загрузки после процедуры формальной регистрации. Все компоненты реализованы в среде X11 Window System для SunOs и Solaris.

Russian Morphological Dictionary Sergey Sikorsky Программа для синтаксического и морфологического анализа русскоязычных текстов. Работает с входным ASCII-текстом. Используется морфологический словарь, включающий 120000 слов. Реализована на SWI-Prolog для Windows.
Программа распространяется бесплатно.
Mystem Илья Сегалович,
Виталий Титов
компания Яndex
Компактный, очень быстрый и бесплатный морфологический парсер русскоязычных текстов, реализованный на основе словаря Зализняка. Доступны для загрузки версии для Windows и Linux. Работает как консольное приложение и имеет различные режимы представления результатов.
Лингвоанализатор Д.В.Хмелев On-line версия программы математического анализа структуры текста. Целью анализа является определение близости любого из предлагаемых пользователем текстов к одному из авторских эталонов, определенных заранее. (Авторский эталон - это набор текстов данного автора, взятый из ресурсов Русской Фантастики). Программа анализирует входной текст и выдает имена трех писателей, которые могли бы быть его наиболее вероятными авторами. Кроме этого, программа находит три произведения каждого из авторов, которые наиболее близки данному тексту.
Программные продукты фирмы LingSoft LingSoft, Финляндия Компоненты грамматического разбора, морфологического анализа и лемматизации (нормализации) для английского, немецкого, финского, датского, норвежского, шведского, эстонского и русского языков. Это коммерческие продукты, которые могут быть использованы при разработке других систем.
Система StarLing С.А.Старостин СУБД StarLing, позволяющая работать с мультиязычными текстами большой длины, с транскрипционными знаками, с удобным поиском, с анализом и синтезом словоформ по словарю Зализняка, с переводом по словарю Мюллера. Есть функции для сравнительно-исторических исследований (глоттохронология). Для загрузки доступны полные DOS и Windows версии системы. Для обеих версий системы требуется предустановка системных фонтов, также доступных для загрузки (DOS, Windows).
Кроме этого можно загрузить словари Ожегова и Зализняка в DBF-формате.
В режиме on-line на сайте доступна этимологическая база для различных языков.
Морфологический анализатор С.А.Старостин On-line версия программы морофлогического анализа слов русского/английского языков. Позволяет получить для вводимого слова базовую форму и морфологическую информацию. Программа реализована на основе словарей Зализняка (рус.яз.) и Мюллера (англ.яз.).
MonoConc/ParaConc Michael Barlow
Dept of Linguistics, Rice University, Texas, USA
Коммерческие программы построения различных конкордансов, в том числе и мультиязычных. Имеется возможность загрузки бесплатных демо-версий, которые имеют ряд ограничений в сравнении с реальными версиями.
WordSmith Tools © Mike Scott 2010
School of English, University of Liverpool
WordSmith Tools - это многофункциональный программный комплекс для исследования поведения слов в текстах. Компонент WordList позволяет построить список отдельных слов или кластеров слов, упорядоченных по алфавиту или частоте. Компонент Concord используется для построения конкордансов. Компонент KeyWords позволяет построить список ключевых слов. Имеется настройка на тип языка в обрабатываемых текстах. Исходные тексты могут быть представлен в различных форматах, включая PDF, MS Word, HTML, XML или SGML.
Работает на платформах Windows 2K и старше, 32 или 64-битных версий. Для скачивания доступна бесплатная демо-версия.
TextAnalyst 2.0 Научно-производственный инновационный центр "МикроСистемы" Демо-версия очень интересного инструмента анализа символьных текстов. Позволяет построить семантическую сеть понятий, выделенных в обрабатываемом тексте, со ссылками на контекст. Имеется возможность смыслового поиска фрагментов текста с учетом скрытых в тексте смысловых связей со словами запроса. Позволяет анализировать текст путем построения иерархического дерева тем/подтем, затрагиваемых в тексте. Также имеется возможность реферирования текста.
Кроме отдельного продукта TextAnalyst также предлагается инструментарий разработчика TextAnalyst SDK, включающий функции лемматизации (приведения слов к нормальной форме) для русского и английского языков, построения частотных списков понятий, поиска слов в контексте и т.д.
Еще одна комонента, TextAnalyst Lib, может использоваться для пострения гипертекстовых электронных книг.
Все компоненты реализованы для Windows 95 и выше и доступны для бесплатной загрузки. Интересно отметить, что на американском рынке технологию TextAnalyst продвигает фирма Megaputer Intelligence Inc.
Galaktika-ZOOM корпорация Галактика, Москва Автоматизированная система поиска и аналитической обработки информации. Мощный инструмент анализа и обработки текста (Text Mining), позволяющий извлекать необходимые сведения из огромного объема данных. Это коммерческая система, имеющая клиентов в рекламе, органах управления и средствах массовой информации.
Лингвистические компоненты, словари и библиотеки классов Андрей Коваленко Авторская страничка ведущего разработчика компании Рэмблер А.Коваленко, на которой представлены его лингвистические разработки, реализованные в ряде существующих информационно-поисковых систем - Апорт!, Рэмблер, Мета, системе Пропись 4.0 и других. Можно скачать описания и демо-версии компонентов.
netXtract Relevant Software Inc. Замечательная компонента, подключаемая к Microsoft Internet Explorer (версии 5.0 и выше), которая позволяет в мгновение ока получить упорядоченный индекс слов в загруженном HTML документе. Индекс может быть упорядочен по алфавиту или частоте. Для каждого слова в индексе можно исследовать контекст, в котором это слово встречается. Выбранные слова по желанию заносятся в персональную базу знаний, которая позволяет систематизировать найденные документы удобным образом. Можно скачать бесплатную версию.
Textual Analysis Computing Tools (TACT) Library Electronic Text Resource Service
Indiana University, USA
Пакет программ обработки ASCII текстов, разработанный группой исследователей из Университета в Торонто. Пакет включает программы для автоматизированной разметки текста; построения упорядоченных списков слов; анализа распределения слов в тексте по длине и частоте; построения конкорданса и другие. К сожалению все программы старые и сделаны для DOS. Однако, имеется on-line версия пакета TACTWeb 1.0
Paai's text utilities Dr. J.J. Paijmans, Нидерланды Сборник различных утилит и Unix-скриптов для обработки ASCII-текстов. Все программы скомпилированы для использования в Linux.
WordTabulator Логичев С.В., 1997-2016 Программа анализа текстов в среде MS Windows. Позволяет построить упорядоченные индексы словоформ или словосочетаний заданной размерности для множества входных текстов в формате ANSI, UTF-8 или HTML. Поддерживает основные кириллические кодировки. Возможность поиска с использованием символов маскирования. Имеет встроенный морфологический модуль, позволяюший искать все видоизменения русских слов, заданных базовой формой. Позволяет осушествлять контекстный просмотр результатов, представленных в виде гипертекстового индекса. Возможность анализа двух текстовых корпусов на сходство или различие. Сайт разработчика: wordtabulator.sourceforge.net
Худломер Леонид Делицын Худломер - это метод автоматической классификации функционального стиля текста на основе спектров длин слов. Программа, реализующая классификацию, написана на языке JavaScript (первоначальная версия была на Perl) и доступна on-line. Программа определяет следующие стили: разговорный стиль, стиль художественной литературы, газетно-информационный стиль, научно-деловой стиль. Автор Худломера - президент конкурса русской сетевой литературы ТЕНЕТА-РИНЕТ'2000, Леонид Делицин.
Свежий взгляд/Fresh Eye
версия 1.21, 1995
Дмитрий Кирсанов DOS-утилита, реализующая стилистическую проверку русскоязычных текстов. Программа отыскивает в тексте места, где фонетически и морфологически схожие слова расположены в непосредственной близости, что порождает так называемую паронимию или "нечаянную тавтологию". Программа распространяется без каких-либо ограничений вместе с исходным текстом на C. Есть версия для OS/2.
URS версия 1.1
от 05.04.2001
М.А.Бендерский,
компания "НООЛаб", Новосибирск
Unique Record Set Management utility, Win9x/NT/2000. Утилита для построения и обработки словарных частотных индексов. Позволяет обрабатывать входные документы в форматах обычного текста, HTML и MS Word. Возможности анализа и обработки пар словарных индексов как двух множеств. Экспорт результатов в выходной файл.
WordStat Дубинский А.Г., 2001 Бесплатная утилита подсчета частоты встречаемости различных слов в текстовых или html-файлах. Понимает основные русские кодировки, игнорирует html-разметку.
Алгоритм сравнения текстов Владимир Чаплинский Описан простой алгоритм сравнения двух текстов и даны примеры программ на FoxPro. Автор использует данный алгоритм для поиска дубликатов анектодов в своей личной коллекции.
АОТ (автоматическая обработка текста) Алексей Сокирко Сайт, на котором представлены разработки рабочей группы специалистов в области автоматической обработки текста. Среди предлагаемых продуктов:
  • модуль графематического анализа текста;
  • компоненты морфологического анализа для русск., нем. и англ.яз.;
  • модуль автоматического уничтожения омонимии;
  • модуль семантического анализа текста;
  • система лингвистического поиска (конкорданс);
  • различные тезаурусы и словники.
Для загрузки доступны freeware версии для Linux и Windows. Исходные коды для Linux доступны на условиях лицензии LGPL.
Технологии анализа и поиска текстовой информации RCO Сайт, на котором представлены разработки московской компании Russian Context Optimizer ([email protected]). Cреди представленных технологий:
  • анализ и классификация текстов, автоматическое реферирование;
  • полнотекстовый поиск для Oracle и SQL Server;
  • морфологичекий, синтаксический и семантический анализ текста;
  • средства навигации по большим массивам текстов;
  • научные публикации авторов проекта.
Textarc © W. Bradford Paley, Digital Image Design Inc. 2002 Революционная программа для визуализации и исследования текстов, являющаяся настоящим произведением искусства. Текст воспроизводится на экране компьютера в виде галактики, в которой слова играют роль звезд. Часто встречающиеся слова светятся ярко, а редкие - вовсе не видны. Строки текста выводятся в виде закручивающейся спирали по границе "галактики" точечным шрифтом (высотой в один пиксель). Программа позволяет видеть структуру текста, взаимосвязи между словами и контекстом, просматривать частотный и алфавитный индекс слов и конкорданс. При движении курсора по галактике слова вспыхивают и загораются лучами (указателями на контекст) и еще звучат в разной тональности. Программа реализована как Java-апплет для броузера.
MCR DLL v2.0 Dim Морфологический модуль в виде DLL-библиотеки, позволяющий осуществлять лемматизацию и морфорлогический анализ для слов русского языка. Работает с морфологическим словарем, построенным на базе словаря Зализняка. Поддерживает функции создания, обновления и работы с дополнительными пользовательскими словарями. Модуль написан на MS Visual C++ и доступен для загрузки с авторского сайта. Freeware!
Ngram Statistics Package (NSP) Ted Pedersen
© 2000-2004
Пакет NSP позволяет идентифицировать в больших корпусах текстов словесные n-граммы с использованием стандартных статистических критериев, таких как тест Фишера на равенство, отношение логарифма вероятности и тест Пирсона хи-квадрат. Позволяет легко задавать дополнительные критерии проверки. NSP написан на языке Perl. Исходный текст распространяется на условиях GNU Copyleft.
Лемматизатор Мультитран Мультитран Лемматизатор, реализующий возможности морфологического модуля системы Мультитран. Загружаемый архив lemm.zip содержит исходный код проекта для MS Visual C++ и словарную базу системы, содержащую около 300.000 основ и 15.000 окончаний для русского языка. Позволяет искать все базовые формы введенного слова с показом его грамматических характеристик.
FRQDictW.exe Александр Челмодеев
http://ichip.chat.ru
fido: 2:5062/17.5
Программа построения частотного словаря для заданного текста. Теоретически может работать с любыми файлами, содержащими ASCII-текст в кодировке Win-1251. Работает в ОС Windows 9x/ME/NT/XP как консольное приложение.
Rhymes Николай Кецарис
© 2002-2003
Замечательная программа поиска рифм на основе "Грамматического словаря" А.А.Зализняка. При поиске выполняет фонетическое сравнение слов с учетом ударения. Позволяет находить для заданного слова синонимы и антонимы. Общий размер словарной базы Rhymes составляет 100 тыс. слов и 1.7 млн. словоформ. Версии для Windows и Pocket PC. Freeware!
Russian Link Grammar Parser Сергей Протасов On-line парсер русского языка, использующий при разборе предложений Грамматику Связей (Link Grammar). Результатом работы парсера является граф, в котором слова предложения связаны между собой связями. Эти связи позволяют корректно определить морфологические признаки слов в предложении и разрешить возникающую омонимию. Парсер реализован на C и Perl для Unix.
Синтаксический анализатор естественного текста на русском языке Ермолаев Дмитрий Сергеевич Синтаксический анализатор естественного текста на русском языке обрабатывает предложения с большим количеством слов (100 и более). При этом ошибочность разбора оценивается как 20% от общего числа связей, связываемость слов в предложении составляет около 70% от общего числа связей.
Склонятель Сергей Слепов Программа "Склонятель" предназначена для склонения слов и словосочетаний на русском языке. Она может быть использована для автоматизации делопроизводства, например, для склонения наименований должностей, предприятий, изделий, материалов и так далее. Программа реализована в виде модуля (библиотеки) для различных платформ - .NET, Win32, FreeBSD.
Forson, a sentence generation tool Alfonso Tarantini Программа генерации синтаксически корректных предложений. Программа управляется входным файлом правил на основе грамматики Bison, что обеспечивает выборочный илм полный контроль предложений. Программа может использоваться для тестирования компиляторов и парсеров или дидактических целей. Реализована для POSIX (Linux/BSD/UNIX-клоны) и Linux операционных систем.
LeoBilingua Леонид Бродский Бесплатная программа, позволяющая генерировать билингва-текст (текст из двух синхронных половинок на разных языках).
Инструментальные средства МедиаЛигва © МедиаЛингва, Москва Инструментальные средства московской компании МедиаЛингва, предназначенные для создания систем автоматического аннотирования, классифицирования, поиска и морфологической обработки текстовой информации.
Langsoft www.langsoft.ch Программное обеспечение для обработки естественного языка (английского, немецкого и некоторых других):
  • грамматического разбора предложений;
  • проверки орфографии и грамматики;
  • интеллектуального преобразования текста (автоматическая редакторская правка);
  • резюмирования содержания текста;
  • генерации ответов на вопросы;
  • логического вывода (извлечения из текста неявного смысла и знаний);
  • аудио-перевода текста (автоматического озвучивание текста перевода);
  • видео-перевода предложений (показ видео-клипов, соответствующих смыслу переводимых предложений).
Для ознакомления доступны демо-версии. Программы работают под Windows в режиме DOS-окна.


© Электронная публикация — РВБ, 2000—2024. Составитель С.В. Логичев. Версия 10.0 от 08.02.2017