Название |
Автор(ы), Организация |
Комментарий |
Link Grammar Parser
|
John Lafferty
Daniel Sleator
Davy Temperley
Carnegi Melon University, USA
|
Link Grammar Parser – это синтаксический парсер английского языка. Работает со словарем, включающем
около 60000 словарных форм. Реализован на C для Unix. Есть также версия для Windows API32.
Имеет консольный интерфейс.
Исходные предложения для разбора могут вводиться вручную с клавиатуры или задаваться в
ASCII-файле для пакетной обработки. Программа распространяется бесплатно.
|

Проекты Cíbola/Oleada |

Computing Research Laboratory (CLR) New-Mexico State University, USA |
Проекты Cíbola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode.
Компоненты системы включают средства работы с мультиязыковыми текстами (MUTT), построения конкорданса (XConcord) для текстов на более чем 16 языках, статистического анализа, автоматического перевода, различные словари и тезаурусы.
Некоторые версии этих компонентов доступны для бесплатной загрузки после процедуры формальной регистрации.
Все компоненты реализованы в среде X11 Window System для SunOs и Solaris.
|
Russian Morphological Dictionary
|
Sergey Sikorsky
|
Программа для синтаксического и морфологического анализа русскоязычных текстов. Работает с
входным ASCII-текстом. Используется морфологический словарь, включающий 120000 слов. Реализована на SWI-Prolog для Windows.
Программа распространяется бесплатно.
|
On-line морфологический парсер
|
Яndex
|
On-line версия морфологического парсера русскоязычных текстов, реализованного в поисковой системе Яndex.
В основе парсера - "Грамматический словарь русского языка" А.А.Зализняка (110 тыс.слов).
Для просмотра результатов морфологического анализа нужно выбрать режим "разбор запроса".
|
Mystem
|
Илья Сегалович,
Виталий Титов компания Яndex
|
Компактный, очень быстрый и бесплатный морфологический парсер русскоязычных текстов, реализованный на основе словаря Зализняка.
Доступны для загрузки версии для Windows и Linux. Работает как консольное приложение и имеет различные режимы представления результатов.
|
Лингвоанализатор |
Д.В.Хмелев |
On-line версия программы математического анализа структуры текста. Целью анализа является определение близости любого из предлагаемых пользователем текстов к одному из авторских эталонов, определенных заранее.
(Авторский эталон - это набор текстов данного автора, взятый из ресурсов Русской Фантастики).
Программа анализирует входной текст и выдает имена трех писателей, которые могли бы быть его наиболее вероятными авторами.
Кроме этого, программа находит три произведения каждого из авторов, которые наиболее близки данному тексту. |
Программные продукты фирмы LingSoft |
LingSoft, Финляндия |
Компоненты грамматического разбора, морфологического анализа и лемматизации (нормализации) для английского, немецкого, финского, датского, норвежского, шведского, эстонского и русского языков.
Это коммерческие продукты, которые могут быть использованы при разработке других систем. |
Рабочее Место Лингвиста |
компания Dialing Москва |
Анализ текстов для построения систем автоматического перевода с русского на английский язык (и наоборот).
Включает ряд автономных компонентов:
- синтаксический анализатор текстов на русском языке;
- морфологический анализатор текстов на русском и английском языках;
- построение конкордансов для заданной совокупности текстов.
Используются морфологические словари русского (80 тыс.слов) и английского (60 тыс.слов) языков.
Для каждого компонента разработан COM-интерфейс, который может использоваться при разработке других прикладных систем. Доступна для загрузки бесплатная демо-версия системы РМЛ-99 1.0, которая к сожалению осталась незавершенной (по всей видимости эта разработка почила в бозе).
Система написана на языке C++ и работает в среде Windows 9x/2000/NT.
|
Система StarLing |
С.А.Старостин |
СУБД StarLing, позволяющая работать с мультиязычными текстами большой длины,
с транскрипционными знаками, с удобным поиском, с анализом и синтезом словоформ по словарю Зализняка,
с переводом по словарю Мюллера. Есть функции для сравнительно-исторических исследований
(глоттохронология). Для загрузки доступны полные
DOS и Windows версии системы.
Для обеих версий системы требуется предустановка системных фонтов, также доступных для загрузки
(DOS, Windows).
Кроме этого можно загрузить словари Ожегова
и Зализняка в DBF-формате.
В режиме on-line на сайте доступна
этимологическая база для различных языков. |
Морфологический анализатор |
С.А.Старостин |
On-line версия программы морофлогического анализа слов русского/английского языков.
Позволяет получить для вводимого слова базовую форму и морфологическую информацию.
Программа реализована на основе словарей Зализняка (рус.яз.) и Мюллера (англ.яз.).
|
MonoConc |
Michael Barlow
Dept of Linguistics, Rice University, Texas, USA |
Две версии (MonoConc Pro 2.0 и MonoConc 1.5) программы построения конкорданса для заданного корпуса символьных (ASCII) текстов. Утверждается, что размер текстов может
достигать нескольких миллионов слов. Реализованы возможности различных режимов поиска: с помощью символов маскирования,
регулярных выражений, контекстно-чувствительного поиска. При обработке текстов c внутренней разметкой (HTML/SGML) теги включаются в состав конкорданса (это нехорошо).
Различные варианты сортировки. Функции частоты встречаемости слов и словосочетаний. Различные режимы вывода конкорданса. Есть возможность генерации индексов и словников.
Обе программы реализованы для Windows 95 и выше. MonoConc 1.5 имеет вариант реализации для Windows 3.1 (16-разрядная версия).
Версия MonoConc 1.5 является несколько облегченной в сравнении с MonoConc Pro. К сожалению обе эти программы не бесплатны.
Лицензия на использование MonoConc Pro в образовательных целях стоит $85.00; MonoConc 1.5 - $65.00.
Имеется возможность загрузки бесплатных демо-версий, которые имеют ряд ограничений в сравнении с реальными версиями. |
ParaConc 0.7beta
ParaConc 1.0beta |
Michael Barlow |
Две бесплатные beta-версии программы построения параллельного конкорданса, т.е. конкорданса, основанного на двух сравниваемых текстах.
Тексты должны быть выравнены по параграфам (предложениям), т.е. иметь одинаковое число этих элементов.
Как и в программах MonoConc обрабатываются символьные ASCII тексты. Программа ParaConc реализована для Windows 95 и выше.
Для установки версии 1.0 программы требуется загрузить файл Conc.exe
в отдельную директорию и создать в ней поддиректорию AligneImport, в которую сохранить два dll-файла из архива
paradll2.zip. |
WordSmith Tools
|
Mike Scott |
Бесплатная демо-версия программы WordSmith 3.0 для построения конкордансов.
Программа, очень похожая по функциональности на MonoConc.
Может обрабатывать корпус ASCII текстов, состоящий из множества отдельных файлов. Не понимает внутреннюю разметку.
Имеет досадное ограничение на длину выходного конкорданса.
Включает в свой состав несколько полезных утилит - генерации списка слов для заданной совокупности текстовых файлов;
разбиения больших текстов на совокупность фрагментов; пакетного редактирования множества текстов и другие.
Реализована для Windows 95 и выше.
Кроме программы WordSmith здесь же можно загрузить различные словари и словники. |
Concordance 2.0.0 |
© R.J.C. Watt, 2000 |
Коммерческая программа для построения конкордансов и частотных списков для Win9x/NT/2000 (регистрация 80$).
Обработка текстов в кодировках, поддерживаемых Windows, настройка на заданный алфавит. Сохранение результатов в виде HTML-файлов. Богатые средства анализа текстов.
Возможность бесплатной загрузки для пробного ознакомления. |
TextAnalyst 2.0 |
Научно-производственный инновационный центр "МикроСистемы"
|
Демо-версия очень интересного инструмента анализа символьных текстов.
Позволяет построить семантическую сеть понятий, выделенных в обрабатываемом тексте, со ссылками на контекст.
Имеется возможность смыслового поиска фрагментов текста с учетом скрытых в тексте смысловых связей со словами запроса.
Позволяет анализировать текст путем построения иерархического дерева тем/подтем, затрагиваемых в тексте.
Также имеется возможность реферирования текста.
Кроме отдельного продукта TextAnalyst также предлагается инструментарий разработчика TextAnalyst SDK,
включающий функции лемматизации (приведения слов к нормальной форме) для русского и английского языков,
построения частотных списков понятий,
поиска слов в контексте и т.д.
Еще одна комонента, TextAnalyst Lib, может использоваться для пострения гипертекстовых электронных книг.
Все компоненты реализованы для Windows 95 и выше и доступны для бесплатной загрузки. Интересно отметить, что на американском рынке технологию
TextAnalyst продвигает фирма Megaputer Intelligence Inc.
|
Galaktika-ZOOM |
корпорация Галактика, Москва |
Автоматизированная система поиска и аналитической обработки информации.
Мощный инструмент анализа и обработки текста (Text Mining), позволяющий извлекать необходимые сведения из огромного объема данных.
Это коммерческая система, имеющая клиентов в рекламе, органах управления и средствах массовой информации.
|
Система Пропись 4.0 |
АО Агама |
Набор средств для лингвистической обработки русскоязычных текстов:
- проверка орфографии;
- расстановка переносов;
- построение списка синонимов и антонимов слова;
- грамматическая и стилистическая проверка текста;
- толкование слова (по Толковому словарю);
- поиск и замена слов в тексте с учетом их форм;
- статистический анализ текстов.
Работает в старых Windows 3.1/95. Windows 2000 и MS Office 97 не поддерживает. Цена 10$. |
 |
АО Агама |
Словарно-справочная система по русскому языку для Microsoft Windows 3.1/95.
Включает в себя ряд словарей, в том числе морфологический, словообразовательный и синонимов/антонимов.
|
Лингвистические компоненты, словари и библиотеки классов |
Андрей Коваленко |
Авторская страничка ведущего разработчика компании Рэмблер А.Коваленко,
на которой представлены его лингвистические разработки, реализованные в ряде существующих информационно-поисковых систем - Апорт!,
Рэмблер, Мета,
системе Пропись 4.0 и других. Можно скачать описания и демо-версии компонентов.
|
netXtract |
© 2000 Relevant Software Inc. |
Замечательная компонента, подключаемая к Microsoft Internet Explorer (версии 5.0 и выше), которая позволяет
в мгновение ока получить упорядоченный индекс слов в загруженном HTML документе. Индекс может быть упорядочен по алфавиту или частоте.
Для каждого слова в индексе можно исследовать контекст, в котором это слово встречается.
Выбранные слова по желанию заносятся в персональную базу знаний, которая позволяет систематизировать найденные
документы удобным образом. Можно скачать бесплатную версию.
|
Textual Analysis Computing Tools (TACT) |
Library Electronic Text Resource Service Indiana University, USA |
Пакет программ обработки ASCII текстов, разработанный группой исследователей из Университета в Торонто.
Пакет включает программы для автоматизированной разметки текста; построения упорядоченных списков слов; анализа распределения слов в тексте по длине и частоте; построения конкорданса
и другие. К сожалению все программы старые и сделаны для DOS. Однако, имеется on-line версия пакета
TACTWeb 1.0 |
Paai's text utilities |
Dr. J.J. Paijmans, Нидерланды |
Сборник различных утилит и Unix-скриптов для обработки ASCII-текстов. Все программы скомпилированы для использования в Linux. |
WordTabulator v2.2 |
© Логичев С.В., 1997-2002 |
Новая версия программы, предназначенной для анализа текстов в среде Windows 9x/NT/2000/XP.
Позволяет построить упорядоченные индексы словоформ или словосочетаний заданной размерности
для множества входных текстов. Понимает тексты в основных русскоязычных кодировках и может
обрабатывать документы в формате HTML 4.01, игнорируя их разметку. Возможности поиска с помощью символов маскирования;
возможность поиска всех видоизменений словоформ, заданных базовой формой; контекстный просмотр результатов; сравнение двух совокупностей текстов.
Удобный графический интерфейс. Выходной индекс в форме гипертекста. Public domain.
|
Худломер |
Леонид Делицын |
Проект "Худломер" связан с задачей автоматической классификации стиля русскоязычных текстов.
Автором были собраны и проанализированы 4 корпуса текстов, взятых из русской сети. Сюда вошли художественные произведения, публицистика,
научные статьи и протоколы диалогов через ICQ и IRC. В результате были получены эмпирические кривые распределения длин слов в текстах, в зависимости от стиля.
Эти кривые используются в качестве эталонов при классификации. On-line версия Худломера (на основе Perl-скрипта) может быть опробована здесь.
Программа классифицирует стиль входного текста как: РАЗГОВОРНАЯ РЕЧЬ, ХУДЛО (худ.литература), ГАЗЕТНАЯ СТАТЬЯ или НАУЧНАЯ СТАТЬЯ.
На сайте есть статья с теоретическим описанием алгоритма классификации. Автор проекта широко известен как издатель литературного журнала DE-LIT-ZYNE, основатель сетевого конкурса ТЕНЕТА и энтузиаст русской сетературы.
Еще один проект автора, "Штампомер", связан с нахождением наиболее часто встречающихся фраз (штампов) в авторских текстах. К сожалению, этот проект в настоящее время заморожен. |
Свежий взгляд/Fresh Eye версия 1.21, 1995 |
Дмитрий Кирсанов |
DOS-утилита, реализующая стилистическую проверку русскоязычных текстов.
Программа отыскивает в тексте места, где фонетически и морфологически схожие слова расположены в непосредственной близости, что порождает
так называемую паронимию или "нечаянную тавтологию".
Программа распространяется без каких-либо ограничений вместе с исходным текстом на C. Есть версия для OS/2. |
URS версия 1.1 от 05.04.2001 |
М.А.Бендерский,
компания "НООЛаб", Новосибирск |
Unique Record Set Management utility, Win9x/NT/2000.
Утилита для построения и обработки словарных частотных индексов.
Позволяет обрабатывать входные документы в форматах обычного текста, HTML и MS Word.
Возможности анализа и обработки пар словарных индексов как двух множеств. Экспорт результатов в выходной файл.
|
Update! Машинный перевод |
© Серж Слепов, 1999-2002 |
Развивающийся проект программиста из Снежинска, посвященный проблемам исследования машинного перевода.
Один из разделов проекта связан с анализом морфологии русского языка. Описан ряд интересных программ, которые можно беспрепятственно скачать и испробовать.
|
WordStat |
© Дубинский А.Г., 2001 |
Бесплатная утилита подсчета частоты встречаемости различных слов в текстовых или html-файлах.
Понимает основные русские кодировки, игнорирует html-разметку.
|
Алгоритм сравнения текстов |
Владимир Чаплинский |
Описан простой алгоритм сравнения двух текстов и даны примеры программ на FoxPro.
Автор использует данный алгоритм для поиска дубликатов анектодов в своей личной коллекции. |
АОТ (автоматическая обработка текста) |
Алексей Сокирко и Co. |
Сайт, на котором представлены разработки бывших сотрудников компании Диалинг,
прекратившей свое существование в мае 2001г. Среди предлагаемых продуктов:
- модуль графематического анализа текста;
- компоненты морфологического анализа для русск. и англ.яз.;
- модуль автоматического уничтожения омонимии;
- модуль семантического анализа текста;
- различные тезаурусы.
Также опубликована диссертация А.Сокирко "Семантические словари в автоматической обработке текста" по теме
машинного перевода. |
Технологии поиска и анализа текстовой информации |
Гарант-Парк-Интернет |
Сайт, на котором представлены разработки известной компании Гарант-Парк-Интернет.
Cреди представленных технологий:
- анализ и классификация текстов, автоматическое реферирование;
- различные варианты поиска текста;
- морфологичекий, синтаксический и семантический анализ текста;
- средства навигации по большим массивам текстов;
- различные научные публикации авторов проекта.
|