РВБ лого
Русская виртуальная библиотека
Основана 1 декабря 1999 г.
Последнее обновление: 10.10.2016 15:10

Программное обеспечение

Сделайте пожертвование!

В этом разделе представлены программы и ресурсы, связанные с анализом и обработкой текста.

НаименованиеОписание
Утилита преобразования текста xMarkup

32-бит приложение для MS Windows. Утилита xMarkup предназначена для выполнение процедур строковых преобразований в множестве текстовых файлов. Вот наиболее употребимые варианты её использования:

  • генерация или редактирование навигационных гиперссылок в совокупности HTML-документов;
  • анализ и преобразование структуры и/или содержимого SGML/XML/HTML документов;
  • автоматическое редактирование текстовых файлов по заданному сценарию;
  • анализ и обработка текстов: выделение и преобразование его элементов;
  • графическая визуализация элементов текста;
  • прикладные задачи анализа, обработки и визуализации символьных данных.

Поддерживает кодировки текста ANSI и UTF-8. Процесс обработки данных может быть реализован как в виде одного шага (скрипта), так и последовательности нескольких шагов (совокупностии взаимосвязанных скриптов). Для ускорения производительности скрипт обработки всегда может быть собран в виде исполнимого exe-файла.

xMarkup принадлежит к категории бесплатного программного обеспечения с открытым кодом. Консольный модуль обработки написан на языке Unicon (дальнейшее развитие языка Icon), графический интерфейс реализован в открытой среде Lazarus (первоначально в Delphi 7). Возможна сборка утилиты (интерфейс командной строки) для UNIX-подобных систем из исходного кода.

Последний выпуск: v4.0 (15.08.2016). Скачать

Документация:

Начиная с версии 4.0 xMarkup был "скрещен" с программой анализа текстов wordTabulator (на уровне консольного ядра обработки). Благодаря этому у табулятора появляется масса возможностей по пре/пост обработке данных и визуализации результатов (в следующем релизе).

Программа анализа текста wordTabulator

32-бит приложение для MS Windows. С помощью wordTabulator вы можете сформировать индекс элементов, встречающихся в заданном множестве текстов. В качестве искомых элементов могут быть словоформы, N-граммы (словосочетания заданной размерности) или фразы (синтагмы). Программа может обрабатывать тексты как в обычной 1-байтовой ANSI кодировке, так и в многобайтовой UTF-8. Изначально программа разрабатывалась исключительно для русскоязычных текстов, однако может быть успешно использована и для других языков (например, украинского, исландского, шведского и др.).

Программа правильно обрабатывает кириллицу с учетом упраздненных букв русского языка І, Ї (и), Ѣ (ять), Ѳ (фита), Ѵ (ижица), выстраивая словоформы в алфавитном порядке, который был принят до реформы 1918 г. Программа правильно обрабатывает и сортирует диакритические символы западноевропейского и восточноевропейского диапазонов. А текст в UTF-8 может содержать вообще любые разрешенные символы (хоть арабскую вязь или китайские иероглифы; однако эти символы сортируются только по значению уникода).

Входные тексты задаются совокупностью обычных текстовых файлов или документов в формате HTML/XML/SGML. В последнем случае программа умеет отделять полезный контент от используемой разметки. Более того, можно обработать только определенный контент, находящийся внутри заданных тегов. Или наоборот пропустить этот контент при обработке.

Дополнительной возможностью является анализ двух совокупностей текстов, которые можно сравнивать на общность или различие по составу исследуемых элементов.

Для русскоязычных текстов анализ может быть ограничен заданным списком слов в нормальной форме, которые ищутся с учетом морфологии русского языка во всех падежных окончаниях. Поиск необходимых элементов может также задаваться с помощью регулярных выражений.

Выходным результатом программы является файл (или файлы), содержащий индекс найденных текстовых элементов. Этот индекс может быть в формате HTML, с указанием для каждого элемента частоты встречаемости и ссылок на исходный контекст, или в виде простого списка в обычном текстовом файле. Список может быть упорядочен в алфавитном порядке, по значению или по частоте встречаемости элементов.

Последний выпуск: v3.6 (10 октября 2016 г.). Скачать MD5: d1e8e8388e38955280d075165cf98b0d

Предыдущий выпуск: v3.5 (28 марта 2012 г.). Скачать

Документация: Программа WordTabulator. Руководство пользователя

Каталог лингвистических программ и ресурсов в Cети Содержит описание различных программ, связанных с анализом текстов и вычислительной лингвистикой, а также соответствующих интернет-ресурсов. Последний релиз: выпуск №9 (10.10.2006).

Содержимое каталога время от времени уточняется и дополняется, дата последнего обновления: 28.05.2014.

Статьи и публикации Разные статьи и публикации, связанные с задачами лингвистической обработки и анализа текстов.

 


Главная | Новости | Публикации | Авторы | Ссылки | Программы | Друзья | Вокруг РВБ | Сотрудники | О проекте | Карта сайта

© Русская виртуальная библиотека, 1999—2017. РВБ
Загрузка...