Исходные коды | |
Программа построениячастотного словаря в операционных системах MicrosoftI. Назначение программыПрограмма «Частотный словарь» («freqdic.exe») предназначена для анализа частоты и порядка встречаемости слов, написанного кириллицей и латиницей, в проверяемом тексте (в формате text/plain и других текстовых форматах) в каждой из словоформ. Она позволяет:
Все указанное выше предполагает рекомендовать эту программу для иллюстрации процесса создания программного продукта для целей датамайнинга. Программа работает в командном интерфейсе с технологией командной строки. Это значит, что при ее применении пользователь должен открыть окно терминала и набрать имя программы и параметры в командной строке. II. Преимущества и новизна данной программыДанная реализация программы основана на идее алгоритма, приведенной в работе «128 советов начинающему программисту» (авторы: Очков В.Ф., Пухначев Ю.В.), которая переработана авторам, и адаптирована для языка Си. Хотя на рынке находится много программ – частотных словарей, эта программа имеет следующие преимущества:
III. Краткие сведения о формате файлов программы «Частотный словарь»Программа работает с текстами, представленными в кодировке text/plain. Поддержка формата text/html не корректна. Другие форматы текстовых процессоров (Word, Writer, AbiWord и т.п.) не поддерживаются. Программа «частотный словарь» анализирует текст в кодировке ASCII и в любой 8-ми битной кодировке, включая кодировки MS-DOS OEM 866, Windows ANSI cp 1251, UNIX KOI8-R. Кодировки Unicode и UTF-8 пока не поддерживаются, что делает программу («теоретически», на практике не применял) не переносимой на Linux. Программа может анализировать тексты: text/plain, text/html, исходные файлы программ на языке Assembler и на языках высокого уровня, скриптов и макросов на любых языках, файлы с разметкой на основе xml и SGML. Эта программа на выходе выводит на экран дисплея таблицу, содержащие следующие элементы:
IV. Стандартные расширения файловПрограмма на входе распознает любые кодировки файлов. Только необходимо, чтобы они были текстовыми файлами. На выходе также можно задавать также любые файлы. Однако для работы программы «в связке» с Excel расширение файлов должно быть .txt . V. Кодировки текстовых файловПрограмма работает с 8-ми битными кодировками символов, характерные для текстов в операционных системах корпорации Microsoft. Для анализа слов текстовый файл должен представлять либо «чисто текстовый файл» с кодами ASCII 32 – ASCII 126 (для текстов на английском языке), либо файл в расширенной ASCII-кодировке с кодами ASCII 32 - ASCII 255, в котором могут быть представлены и кириллические символы. Поддержка символов в формате UNICODE, UTF-8, UTF-16 (пока) не предусмотрена. VI. Установка программы: freqdicПрограмма не требует установки. Просто скопируйте файл с программой в каталог, указанный в переменной окружения «PATH» (например: C:\WINDOWS). Далее Вы будете вызывать программу из командной строки. VII. Синтаксис программы freqdic.exeДанная программа предназначена для работы в командной строке Microsoft Windows. Для запуска программы необходимо:
freqdic «имя анализируемого файла» > «имя файла со списком слов» где «имя анализируемого файла» – исходный текстовый файл (с любым расширением); «имя файла со списком слов» – файл со списком слов частотного словаря (желательно с разрешением .TXT); > знак перенаправления вывода на экран в файл. Если не указан результирующий файл и символ перенаправления, список слов частотного словаря будет выведен на экран дисплея. Примечание: «имя файла со списком слов» должно быть уникальным именем. При записи в него результатов работы программы «частотный словарь» его прежнее содержимое теряется безвозвратно! Имена файлов для программы freqdic для MS-DOS должны быть в формате 8.3, для Win32 версии – в оригинальном формате. Желательно длинные имена файлов с расширением заключать в двойные кавычки. После формирования таблицы программой freqdic с ней для ее дальнейшей обработки необходимо выполнить следующие действия:
VIII. Формат результирующего файлаВ качестве выходного файла программа выдает список встречающихся в документе слов в следующем формате: 1-ый столбец. Порядок первого появления слова в тексте; 2-ой столбец. Найденное слово (в оригинальной словоформе). Внимание! Слова в разных словоформах являются отдельными словами (иначе говоря, словоформы не обрабатываются и не объединяются в одно слово). 3-ий столбец. Частота встречаемости слова в данной словоформе в тексте. 4-ый столбец. Часть речи слова. В настоящее время в 4-ом столбце присутствует только два значения:
В качестве первой строки выводится заголовок списка слов (на английском языке). Данный формат файла легко импортируется в программу Microsoft Excel 2003 для последующей обработки (с помощью мастера импорта текстовых документов). IX. DownloadСкачать программу freqdic.exe (версия MS-DOS); Скачать программу freqdic.exe (версия Win32); Скачать исходные тексты программ и документацию (файл source-freqdic-0.1.zip); Скачать программу freqdic.exe с макросом VBScript для получения частотных словарей (билингвы и «чисто английского текста», в формате Excel) из текстовой билингвы (файл bin-freqdic-0.1.zip, 43 395 байтов, 17.04.2012 11:30); X. ЗаключениеНа взгляд автора, разработанная программа является полезным инструментом для анализа текста и может применяться в целях обучения программированию гуманитариев. Данная программа является прекрасным учебным примером построения на языке Си интеллектуальной системы поиска слов и словоформ – «частотный словарь». Автор понимает, что его функциональности не достаточно для того, чтобы на его основе создать полноценную интеллектуальную систему. Однако гибкость алгоритма, использованного в программе, позволяет использовать эту программу в качестве инструмента в создании более сложных систем интеллектуального поиска. Успехов Вам в использование программы! Good Luck! Dankon!
Copyright © Юрий А. Денисов Версия 0.2. Alpha от 19.04.2012 |
|
CopyLeft (L) by Юрий А. Денисов |