Каталог лингвистических программ и ресурсов в Cети, ч.1 / Linguistics Software Catalogue, ch.1

1. Программы анализа и лингвистической обработки текстов

Название	Автор(ы), Организация	Комментарий
word2vec	© Tomas Mikolov, etc., Google, 2013.	Исследовательский проект Google, принесший всем цифровым исследователям NLP чрезвычайную пользу. word2vec - это C++ программа, позволяющая построить векторные представления слов на заданных массивах текстовой информации. Использует в своей основе реализацию с помощью самообучающейся нейронной сети алгоритмов "Continuous Bag-of-Words" (CBOW) и "Skip-gram model" (SG). В итоге можно получить "словарь", однозначно характеризующий использование заданных слов в контексте. Чем больше массив обучения, тем лучше и устойчивее получаются результаты. И тут начинается волшебство,- ничего не понимая о предмете, программа может выдавать такие интеллектуальные прозрения, что диву даешься! Например, арифметическая операция над векторами слов vector('king') - vector('man') + vector('woman') дает очень близкое значение к vector('queen'). Или vector('Paris') - vector('France') + vector('Italy') практически совпадает с vector('Rome'). Существуют множественные клоны word2vec. Например, на github выложен общедоступный проект https://github.com/dav/word2vec.
Лемматизатор для дореформенной русской орфографии	© А.Е. Поляков, 2012.	Парсер, выполняющий грамматический разбор текста в дореформенной русской орфографии. Позволяет: выделить токены и определить их тип (слово, знак препинания, число, тег разметки и т.д.); выполнить морфологический анализ словарных слов; построить гипотезы для нераспознанных слов; выполнить анализ многословных сочетаний. On-line версия лемматизатора на Javascript.
Apache OpenNLP	The Apache Software Foundation, Incubator	OpenNLP - это организационный центр "open source" проектов, связанных с машинной обработкой естественного языка под эгидой Apache. OpenNLP предлагает обширный Java-инструментарий обработки текстов на основе методов машинного обучения. Он включает средства токенизации, выделения предложений, разметки частей речи, выделения имен собственных, разбора текста и разрешения перекрестных ссылок. Имеется документация на английском языке. Для скачивания доступен исходный код и бинарные компоненты (для запуска требуется установка Java VM).
Link Grammar Parser †	John Lafferty Daniel Sleator Davy Temperley Carnegi Melon University, USA	Link Grammar Parser – это синтаксический парсер английского языка. Работает со словарем, включающем около 60000 словарных форм. Реализован на C для Unix. Есть также версия для Windows API32. Имеет консольный интерфейс. Исходные предложения для разбора могут вводиться вручную с клавиатуры или задаваться в ASCII-файле для пакетной обработки. Программа распространяется бесплатно.
Проекты Cíbola/Oleada †	Computing Research Laboratory (CLR) New-Mexico State University, USA	Проекты Cíbola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode. Компоненты системы включают средства работы с мультиязыковыми текстами (MUTT), построения конкорданса (XConcord) для текстов на более чем 16 языках, статистического анализа, автоматического перевода, различные словари и тезаурусы. Некоторые версии этих компонентов доступны для бесплатной загрузки после процедуры формальной регистрации. Все компоненты реализованы в среде X11 Window System для SunOs и Solaris.
Russian Morphological Dictionary †	Sergey Sikorsky	Программа для синтаксического и морфологического анализа русскоязычных текстов. Работает с входным ASCII-текстом. Используется морфологический словарь, включающий 120000 слов. Реализована на SWI-Prolog для Windows. Программа распространяется бесплатно.
Mystem	Илья Сегалович, Виталий Титов компания Яndex	Компактный, очень быстрый и бесплатный морфологический парсер русскоязычных текстов, реализованный на основе словаря Зализняка. Доступны для загрузки версии для Windows и Linux. Работает как консольное приложение и имеет различные режимы представления результатов.
Лингвоанализатор	Д.В.Хмелев	On-line версия программы математического анализа структуры текста. Целью анализа является определение близости любого из предлагаемых пользователем текстов к одному из авторских эталонов, определенных заранее. (Авторский эталон - это набор текстов данного автора, взятый из ресурсов Русской Фантастики). Программа анализирует входной текст и выдает имена трех писателей, которые могли бы быть его наиболее вероятными авторами. Кроме этого, программа находит три произведения каждого из авторов, которые наиболее близки данному тексту.
Программные продукты фирмы LingSoft	LingSoft, Финляндия	Компоненты грамматического разбора, морфологического анализа и лемматизации (нормализации) для английского, немецкого, финского, датского, норвежского, шведского, эстонского и русского языков. Это коммерческие продукты, которые могут быть использованы при разработке других систем.
Система StarLing	С.А.Старостин	СУБД StarLing, позволяющая работать с мультиязычными текстами большой длины, с транскрипционными знаками, с удобным поиском, с анализом и синтезом словоформ по словарю Зализняка, с переводом по словарю Мюллера. Есть функции для сравнительно-исторических исследований (глоттохронология). Для загрузки доступны полные DOS и Windows версии системы. Для обеих версий системы требуется предустановка системных фонтов, также доступных для загрузки (DOS, Windows). Кроме этого можно загрузить словари Ожегова и Зализняка в DBF-формате. В режиме on-line на сайте доступна этимологическая база для различных языков.
Морфологический анализатор	С.А.Старостин	On-line версия программы морофлогического анализа слов русского/английского языков. Позволяет получить для вводимого слова базовую форму и морфологическую информацию. Программа реализована на основе словарей Зализняка (рус.яз.) и Мюллера (англ.яз.).
MonoConc/ParaConc	Michael Barlow Dept of Linguistics, Rice University, Texas, USA	Коммерческие программы построения различных конкордансов, в том числе и мультиязычных. Имеется возможность загрузки бесплатных демо-версий, которые имеют ряд ограничений в сравнении с реальными версиями.
WordSmith Tools	© Mike Scott 2010 School of English, University of Liverpool	WordSmith Tools - это многофункциональный программный комплекс для исследования поведения слов в текстах. Компонент WordList позволяет построить список отдельных слов или кластеров слов, упорядоченных по алфавиту или частоте. Компонент Concord используется для построения конкордансов. Компонент KeyWords позволяет построить список ключевых слов. Имеется настройка на тип языка в обрабатываемых текстах. Исходные тексты могут быть представлен в различных форматах, включая PDF, MS Word, HTML, XML или SGML. Работает на платформах Windows 2K и старше, 32 или 64-битных версий. Для скачивания доступна бесплатная демо-версия.
TextAnalyst 2.0	Научно-производственный инновационный центр "МикроСистемы"	Демо-версия очень интересного инструмента анализа символьных текстов. Позволяет построить семантическую сеть понятий, выделенных в обрабатываемом тексте, со ссылками на контекст. Имеется возможность смыслового поиска фрагментов текста с учетом скрытых в тексте смысловых связей со словами запроса. Позволяет анализировать текст путем построения иерархического дерева тем/подтем, затрагиваемых в тексте. Также имеется возможность реферирования текста. Кроме отдельного продукта TextAnalyst также предлагается инструментарий разработчика TextAnalyst SDK, включающий функции лемматизации (приведения слов к нормальной форме) для русского и английского языков, построения частотных списков понятий, поиска слов в контексте и т.д. Еще одна комонента, TextAnalyst Lib, может использоваться для пострения гипертекстовых электронных книг. Все компоненты реализованы для Windows 95 и выше и доступны для бесплатной загрузки. Интересно отметить, что на американском рынке технологию TextAnalyst продвигает фирма Megaputer Intelligence Inc.
Galaktika-ZOOM	корпорация Галактика, Москва	Автоматизированная система поиска и аналитической обработки информации. Мощный инструмент анализа и обработки текста (Text Mining), позволяющий извлекать необходимые сведения из огромного объема данных. Это коммерческая система, имеющая клиентов в рекламе, органах управления и средствах массовой информации.
Лингвистические компоненты, словари и библиотеки классов	Андрей Коваленко	Авторская страничка ведущего разработчика компании Рэмблер А.Коваленко, на которой представлены его лингвистические разработки, реализованные в ряде существующих информационно-поисковых систем - Апорт!, Рэмблер, Мета, системе Пропись 4.0 и других. Можно скачать описания и демо-версии компонентов.
netXtract	Relevant Software Inc.	Замечательная компонента, подключаемая к Microsoft Internet Explorer (версии 5.0 и выше), которая позволяет в мгновение ока получить упорядоченный индекс слов в загруженном HTML документе. Индекс может быть упорядочен по алфавиту или частоте. Для каждого слова в индексе можно исследовать контекст, в котором это слово встречается. Выбранные слова по желанию заносятся в персональную базу знаний, которая позволяет систематизировать найденные документы удобным образом. Можно скачать бесплатную версию.
Textual Analysis Computing Tools (TACT)	Library Electronic Text Resource Service Indiana University, USA	Пакет программ обработки ASCII текстов, разработанный группой исследователей из Университета в Торонто. Пакет включает программы для автоматизированной разметки текста; построения упорядоченных списков слов; анализа распределения слов в тексте по длине и частоте; построения конкорданса и другие. К сожалению все программы старые и сделаны для DOS. Однако, имеется on-line версия пакета TACTWeb 1.0
Paai's text utilities	Dr. J.J. Paijmans, Нидерланды	Сборник различных утилит и Unix-скриптов для обработки ASCII-текстов. Все программы скомпилированы для использования в Linux.
WordTabulator	Логичев С.В., 1997-2016	Программа анализа текстов в среде MS Windows. Позволяет построить упорядоченные индексы словоформ или словосочетаний заданной размерности для множества входных текстов в формате ANSI, UTF-8 или HTML. Поддерживает основные кириллические кодировки. Возможность поиска с использованием символов маскирования. Имеет встроенный морфологический модуль, позволяюший искать все видоизменения русских слов, заданных базовой формой. Позволяет осушествлять контекстный просмотр результатов, представленных в виде гипертекстового индекса. Возможность анализа двух текстовых корпусов на сходство или различие. Сайт разработчика: wordtabulator.sourceforge.net
Худломер	Леонид Делицын	Худломер - это метод автоматической классификации функционального стиля текста на основе спектров длин слов. Программа, реализующая классификацию, написана на языке JavaScript (первоначальная версия была на Perl) и доступна on-line. Программа определяет следующие стили: разговорный стиль, стиль художественной литературы, газетно-информационный стиль, научно-деловой стиль. Автор Худломера - президент конкурса русской сетевой литературы ТЕНЕТА-РИНЕТ'2000, Леонид Делицин.
Свежий взгляд/Fresh Eye версия 1.21, 1995	Дмитрий Кирсанов	DOS-утилита, реализующая стилистическую проверку русскоязычных текстов. Программа отыскивает в тексте места, где фонетически и морфологически схожие слова расположены в непосредственной близости, что порождает так называемую паронимию или "нечаянную тавтологию". Программа распространяется без каких-либо ограничений вместе с исходным текстом на C. Есть версия для OS/2.
URS версия 1.1 от 05.04.2001	М.А.Бендерский, компания "НООЛаб", Новосибирск	Unique Record Set Management utility, Win9x/NT/2000. Утилита для построения и обработки словарных частотных индексов. Позволяет обрабатывать входные документы в форматах обычного текста, HTML и MS Word. Возможности анализа и обработки пар словарных индексов как двух множеств. Экспорт результатов в выходной файл.
WordStat	Дубинский А.Г., 2001	Бесплатная утилита подсчета частоты встречаемости различных слов в текстовых или html-файлах. Понимает основные русские кодировки, игнорирует html-разметку.
Алгоритм сравнения текстов	Владимир Чаплинский	Описан простой алгоритм сравнения двух текстов и даны примеры программ на FoxPro. Автор использует данный алгоритм для поиска дубликатов анектодов в своей личной коллекции.
АОТ (автоматическая обработка текста)	Алексей Сокирко	Сайт, на котором представлены разработки рабочей группы специалистов в области автоматической обработки текста. Среди предлагаемых продуктов: модуль графематического анализа текста; компоненты морфологического анализа для русск., нем. и англ.яз.; модуль автоматического уничтожения омонимии; модуль семантического анализа текста; система лингвистического поиска (конкорданс); различные тезаурусы и словники. Для загрузки доступны freeware версии для Linux и Windows. Исходные коды для Linux доступны на условиях лицензии LGPL.
Технологии анализа и поиска текстовой информации	RCO	Сайт, на котором представлены разработки московской компании Russian Context Optimizer ([email protected]). Cреди представленных технологий: анализ и классификация текстов, автоматическое реферирование; полнотекстовый поиск для Oracle и SQL Server; морфологичекий, синтаксический и семантический анализ текста; средства навигации по большим массивам текстов; научные публикации авторов проекта.
Textarc	© W. Bradford Paley, Digital Image Design Inc. 2002	Революционная программа для визуализации и исследования текстов, являющаяся настоящим произведением искусства. Текст воспроизводится на экране компьютера в виде галактики, в которой слова играют роль звезд. Часто встречающиеся слова светятся ярко, а редкие - вовсе не видны. Строки текста выводятся в виде закручивающейся спирали по границе "галактики" точечным шрифтом (высотой в один пиксель). Программа позволяет видеть структуру текста, взаимосвязи между словами и контекстом, просматривать частотный и алфавитный индекс слов и конкорданс. При движении курсора по галактике слова вспыхивают и загораются лучами (указателями на контекст) и еще звучат в разной тональности. Программа реализована как Java-апплет для броузера.
MCR DLL v2.0	Dim	Морфологический модуль в виде DLL-библиотеки, позволяющий осуществлять лемматизацию и морфорлогический анализ для слов русского языка. Работает с морфологическим словарем, построенным на базе словаря Зализняка. Поддерживает функции создания, обновления и работы с дополнительными пользовательскими словарями. Модуль написан на MS Visual C++ и доступен для загрузки с авторского сайта. Freeware!
Ngram Statistics Package (NSP)	Ted Pedersen © 2000-2004	Пакет NSP позволяет идентифицировать в больших корпусах текстов словесные n-граммы с использованием стандартных статистических критериев, таких как тест Фишера на равенство, отношение логарифма вероятности и тест Пирсона хи-квадрат. Позволяет легко задавать дополнительные критерии проверки. NSP написан на языке Perl. Исходный текст распространяется на условиях GNU Copyleft.
Лемматизатор Мультитран	Мультитран	Лемматизатор, реализующий возможности морфологического модуля системы Мультитран. Загружаемый архив lemm.zip содержит исходный код проекта для MS Visual C++ и словарную базу системы, содержащую около 300.000 основ и 15.000 окончаний для русского языка. Позволяет искать все базовые формы введенного слова с показом его грамматических характеристик.
FRQDictW.exe	Александр Челмодеев http://ichip.chat.ru fido: 2:5062/17.5	Программа построения частотного словаря для заданного текста. Теоретически может работать с любыми файлами, содержащими ASCII-текст в кодировке Win-1251. Работает в ОС Windows 9x/ME/NT/XP как консольное приложение.
Rhymes	Николай Кецарис © 2002-2003	Замечательная программа поиска рифм на основе "Грамматического словаря" А.А.Зализняка. При поиске выполняет фонетическое сравнение слов с учетом ударения. Позволяет находить для заданного слова синонимы и антонимы. Общий размер словарной базы Rhymes составляет 100 тыс. слов и 1.7 млн. словоформ. Версии для Windows и Pocket PC. Freeware!
Russian Link Grammar Parser	Сергей Протасов	On-line парсер русского языка, использующий при разборе предложений Грамматику Связей (Link Grammar). Результатом работы парсера является граф, в котором слова предложения связаны между собой связями. Эти связи позволяют корректно определить морфологические признаки слов в предложении и разрешить возникающую омонимию. Парсер реализован на C и Perl для Unix.
Синтаксический анализатор естественного текста на русском языке	Ермолаев Дмитрий Сергеевич	Синтаксический анализатор естественного текста на русском языке обрабатывает предложения с большим количеством слов (100 и более). При этом ошибочность разбора оценивается как 20% от общего числа связей, связываемость слов в предложении составляет около 70% от общего числа связей.
Склонятель	Сергей Слепов	Программа "Склонятель" предназначена для склонения слов и словосочетаний на русском языке. Она может быть использована для автоматизации делопроизводства, например, для склонения наименований должностей, предприятий, изделий, материалов и так далее. Программа реализована в виде модуля (библиотеки) для различных платформ - .NET, Win32, FreeBSD.
Forson, a sentence generation tool	Alfonso Tarantini	Программа генерации синтаксически корректных предложений. Программа управляется входным файлом правил на основе грамматики Bison, что обеспечивает выборочный илм полный контроль предложений. Программа может использоваться для тестирования компиляторов и парсеров или дидактических целей. Реализована для POSIX (Linux/BSD/UNIX-клоны) и Linux операционных систем.
LeoBilingua	Леонид Бродский	Бесплатная программа, позволяющая генерировать билингва-текст (текст из двух синхронных половинок на разных языках).
Инструментальные средства МедиаЛигва †	© МедиаЛингва, Москва	Инструментальные средства московской компании МедиаЛингва, предназначенные для создания систем автоматического аннотирования, классифицирования, поиска и морфологической обработки текстовой информации.
Langsoft	www.langsoft.ch	Программное обеспечение для обработки естественного языка (английского, немецкого и некоторых других): грамматического разбора предложений; проверки орфографии и грамматики; интеллектуального преобразования текста (автоматическая редакторская правка); резюмирования содержания текста; генерации ответов на вопросы; логического вывода (извлечения из текста неявного смысла и знаний); аудио-перевода текста (автоматического озвучивание текста перевода); видео-перевода предложений (показ видео-клипов, соответствующих смыслу переводимых предложений). Для ознакомления доступны демо-версии. Программы работают под Windows в режиме DOS-окна.

кондиционер denko das 09hr купить