Программа «Частотный словарь» («freqdic.exe») предназначена для анализа частоты и порядка встречаемости слов, написанного кириллицей и латиницей, в проверяемом тексте (в формате text/plain и других текстовых форматах) в каждой из словоформ.
Она позволяет:
Все указанное выше предполагает рекомендовать эту программу для иллюстрации процесса создания программного продукта для целей датамайнинга.
Программа работает в командном интерфейсе с технологией командной строки. Это значит, что при ее применении пользователь должен открыть окно терминала и набрать имя программы и параметры в командной строке.
Данная реализация программы основана на идее алгоритма, приведенной в работе «128 советов начинающему программисту» (авторы: Очков В.Ф., Пухначев Ю.В.), которая переработана авторам, и адаптирована для языка Си.
Хотя на рынке находится много программ – частотных словарей, эта программа имеет следующие преимущества:
Программа работает с текстами, представленными в кодировке text/plain. Поддержка формата text/html не корректна. Другие форматы текстовых процессоров (Word, Writer, AbiWord и т.п.) не поддерживаются.
Программа «частотный словарь» анализирует текст в кодировке ASCII и в любой 8-ми битной кодировке, включая кодировки MS-DOS OEM 866, Windows ANSI cp 1251, UNIX KOI8-R. Кодировки Unicode и UTF-8 пока не поддерживаются, что делает программу («теоретически», на практике не применял) не переносимой на Linux.
Программа может анализировать тексты: text/plain, text/html, исходные файлы программ на языке Assembler и на языках высокого уровня, скриптов и макросов на любых языках, файлы с разметкой на основе xml и SGML.
Эта программа на выходе выводит на экран дисплея таблицу, содержащие следующие элементы:
Программа на входе распознает любые кодировки файлов. Только необходимо, чтобы они были текстовыми файлами.
На выходе также можно задавать также любые файлы. Однако для работы программы «в связке» с Excel расширение файлов должно быть .txt .
Программа работает с 8-ми битными кодировками символов, характерные для текстов в операционных системах корпорации Microsoft.
Для анализа слов текстовый файл должен представлять либо «чисто текстовый файл» с кодами ASCII 32 – ASCII 126 (для текстов на английском языке), либо файл в расширенной ASCII-кодировке с кодами ASCII 32 - ASCII 255, в котором могут быть представлены и кириллические символы. Поддержка символов в формате UNICODE, UTF-8, UTF-16 (пока) не предусмотрена.
Программа не требует установки. Просто скопируйте файл с программой в каталог, указанный в переменной окружения «PATH» (например: C:\WINDOWS). Далее Вы будете вызывать программу из командной строки.
Данная программа предназначена для работы в командной строке Microsoft Windows.
Для запуска программы необходимо:
freqdic «имя анализируемого файла» > «имя файла со списком слов»
где «имя анализируемого файла» – исходный текстовый файл (с любым расширением);
«имя файла со списком слов» – файл со списком слов частотного словаря (желательно с разрешением .TXT);
> знак перенаправления вывода на экран в файл.
Если не указан результирующий файл и символ перенаправления, список слов частотного словаря будет выведен на экран дисплея.
Примечание: «имя файла со списком слов» должно быть уникальным именем. При записи в него результатов работы программы «частотный словарь» его прежнее содержимое теряется безвозвратно!
Имена файлов для программы freqdic для MS-DOS должны быть в формате 8.3, для Win32 версии – в оригинальном формате. Желательно длинные имена файлов с расширением заключать в двойные кавычки.
После формирования таблицы программой freqdic с ней для ее дальнейшей обработки необходимо выполнить следующие действия:
В качестве выходного файла программа выдает список встречающихся в документе слов в следующем формате:
1-ый столбец. Порядок первого появления слова в тексте;
2-ой столбец. Найденное слово (в оригинальной словоформе).
Внимание! Слова в разных словоформах являются отдельными словами (иначе говоря, словоформы не обрабатываются и не объединяются в одно слово).
3-ий столбец. Частота встречаемости слова в данной словоформе в тексте.
4-ый столбец. Часть речи слова.
В настоящее время в 4-ом столбце присутствует только два значения:
В качестве первой строки выводится заголовок списка слов (на английском языке).
Данный формат файла легко импортируется в программу Microsoft Excel 2003 для последующей обработки (с помощью мастера импорта текстовых документов).
Скачать программу freqdic.exe (версия MS-DOS);
Скачать программу freqdic.exe (версия Win32);
Скачать исходные тексты программ и документацию (файл source-freqdic-0.1.zip);
Скачать программу freqdic.exe с макросом VBScript для получения частотных словарей (билингвы и «чисто английского текста», в формате Excel) из текстовой билингвы (файл bin-freqdic-0.1.zip, 43 395 байтов, 17.04.2012 11:30);
На взгляд автора, разработанная программа является полезным инструментом для анализа текста и может применяться в целях обучения программированию гуманитариев.
Данная программа является прекрасным учебным примером построения на языке Си интеллектуальной системы поиска слов и словоформ – «частотный словарь». Автор понимает, что его функциональности не достаточно для того, чтобы на его основе создать полноценную интеллектуальную систему. Однако гибкость алгоритма, использованного в программе, позволяет использовать эту программу в качестве инструмента в создании более сложных систем интеллектуального поиска.