Банк Рефератов - Автоматизированная интеллектуальная система классификации информационных сообщений средств массовой информации

Рефераты. Автоматизированная интеллектуальная система классификации информационных сообщений средств массовой информации

Метод ранжирования заключается в следующем:

где границы интервалов по тексту i-ой статьи;

границы интервалов по строке ключевых слов i-ой статьи;

границы интервалов по названию i-ой статьи.

4.2 Описание метода нечеткого поиска

Для нечеткого поиска информации используется алгоритм, основанный на процентном отношении совпадения двух строк. Процесс поиска начинается со сравнения каждого элемента одной строки с каждым элементом другой и заканчивается сравнением строк целиком. Эта процедура повторяется дважды для одной и той же пары строк. В первом случае первая строка принимается за эталон, во втором - вторая. В процессе сравнения подсчитывается число совпадений и общее число рассматриваемых случаев, после чего вычисляется их процентное соотношение. На основе этого соотношения принимается решение - считать найденную информацию удовлетворяющей условиям поиска или нет. Описанная процедура применяется ко всем записям информационной базы, в результате пользователь получает всю информацию, удовлетворяющую запросу.

Изменяя минимальный процент совпадения можно уменьшать или увеличивать точность соответствия найденной информации искомой. В данной системе используется 50% совпадения, так как (из практики) этого достаточно для нахождения информации. Схема программы поиска данных по алгоритму нечеткого поиска приведена на рисунке 4.2.1, схема программы сравнения строк приведена на рисунке 4.2.2.

Рисунок 4.2.1 - Схема программы поиска данных по алгоритму нечеткого поиска

Рисунок 4.2.2 - Схема программы сравнения строк «Matching»4.3 Описание запросов

Для данной работы необходимо создать следующие запросы: «Рубрикатор», «Классификация 3-го уровня», «Классификация 4-го уровня», «Классифицированные сообщения», «Обработанные сообщения 3-го уровня», «Обработанные сообщения 4-го уровня».

Запрос «Рубрикатор» необходим для вывода всей информации по всем уровням рубрикатора и словарям 3-го и 4-го уровней. Структура запроса «Рубрикатор» в режиме SQL:

SELECTРубрикатор_1.Индекс_1,Рубрикатор_2.Индекс_2,Рубрикатор_3.Индекс_3, IIf(IsNull([Индекс_4]),0,[Индекс_4])ASИндекс_4,Trim(Str([Рубрикатор_1].[Индекс_1]))+"."+Trim(Str([Рубрикатор_2]

[Индекс_2]))+"."+Trim(Str([Рубрикатор_3].[Индекс_3]))+"."+Trim(Str(IIf(IsNull([Индекс_4]),0,[Индекс_4])))+"."AS Индекс, Рубрикатор_1.Наименование_1,Рубрикатор_2.Наименование_2,Рубрикатор_3.Наименование_3, Рубрикатор_4. Наименование_4, Рубрикатор_1.Код_1, Рубрикатор_2.Код_2, Рубрикатор_3.Код_3, Рубрикатор

_4.Код_4

FROM ((Рубрикатор_1 LEFT JOIN Рубрикатор_2 ON Рубрикатор_1.Код_1= Рубрикатор_2.Код_1) LEFT JOIN Рубрикатор_3 ON Рубрикатор_2.Код_2 = Рубрикатор_3.Код_2) LEFT JOIN Рубрикатор_4 ON Рубрикатор_3.

Код_3 = Рубрикатор_4.Код_3

ORDER BY Рубрикатор_1.Индекс_1,Рубрикатор_2.Индекс_2,Рубрикатор_3.Индекс_3, IIf(IsNull ([Индекс_4]), 0,[Индекс_4]);

Запрос «Классификация 3-го уровня» необходим для вывода информации по результатам классификации по 3-му уровню рубрикатора. Структура запроса «Классификация 3-го уровня» в режиме SQL:

SELECT Trim(Str([Рубрикатор_1].[Индекс_1]))+"."+Trim(Str([Рубрикатор_2].[Индекс_2]))+"."+Trim(Str([Рубрикатор_

3].[Индекс_3]))+"."ASИндекс,[Рубрикатор_1].[Наименование_1]+"."+[Рубрикатор_2].[Наименование_2]+"."+[Рубрикатор_3].[Наименование_3]ASНаименованиерубрики,[Классификация].[Уровеньрубрики], [Классификация].

[Наименование статьи], [Классификация].[Текст статьи], [Классификация].[Ключевые слова], [Классификация]. [Результат], [Классификация].[Код статьи], [Рубрикатор_3].[Код_3] AS Код статьи

FROM (Рубрикатор_1 INNER JOIN Рубрикатор_2 ON [Рубрикатор_1].[Код_1]=[Рубрикатор_2].[Код_1]) INNER JOIN (Рубрикатор_3 INNER JOIN Классификация ON [Рубрикатор_3].[Код_3]=[Классификация].[Код рубрики]) ON [Рубрикатор_2].[Код_2]=[Рубрикатор_3].[Код_2]

WHERE ((([Классификация].[Уровень рубрики])=3));

Запрос «Классификация 4-го уровня» необходим для вывода информации по результатам классификации по 4-му уровню рубрикатора. Структура запроса «Классификация 4-го уровня» в режиме SQL:

SELECT Trim(Str(Рубрикатор_1.Индекс_1))+"."+Trim(Str(Рубрикатор_2.Индекс_2))+"."+Trim(Str(Рубрикатор_3.

Индекс_3))+"."+Trim(Str(Рубрикатор_4.Индекс_4))+"."ASИндекс,Рубрикатор_1.Наименование_1+". "+Рубрикатор

_2.Наименование_2+". "+Рубрикатор_3.Наименование_3+"."+Рубрикатор_4.Наименование_4 AS Наименование рубрики, Классификация.Уровень рубрики, Классификация.Наименование статьи, Классификация.Текст статьи, Классификация.Ключевые слова, Классификация.Результат, Классификация.Код рубрики, Рубрикатор_4.Код_4 AS Код статьи FROM ((Рубрикатор_1 INNER JOIN Рубрикатор_2 ON Рубрикатор_1.Код_1=Рубрикатор_2.Код_1) INNER JOIN Рубрикатор_3 ON Рубрикатор_2.Код_2=Рубрикатор_3.Код_2) INNER JOIN (Рубрикатор_4 INNER JOIN Классификация ON Рубрикатор_4.Код_4=Классификация.Код рубрики) ON Рубрикатор_3.Код_3=

Рубрикатор_4.Код_3 WHERE (((Классификация.Уровень рубрики)=4));

Запрос «Классифицированные сообщения» необходим для создания отчета по результатам классификации. Структура запроса «Обработанные сообщения» в режиме SQL:

SELECT DISTINCT Статьи.Код статьи

FROM Статьи INNER JOIN Рубрики ON Статьи.Код статьи = Рубрики.Код рубрики;

Запрос «Обработанные сообщения 3-го уровня» необходим для вывода информации по обработанным сообщениям СМИ, отнесенным к 3-му уровню рубрикатора. Структура запроса «Обработанные сообщения 3-го уровня» в режиме SQL:

SELECT Trim(Str(Рубрикатор_1.Индекс_1))+"."+Trim(Str(Рубрикатор_2.Индекс_2))+"."+Trim(Str(Рубрикатор_3

.Индекс_3))+"." AS Индекс, Статьи.Файл, Статьи.Код газеты, Статьи.Код региона, Статьи.Код статьи, Статьи.Наименование статьи, Статьи.Ключевые слова, Статьи.Текст статьи, Статьи.Дата, Статьи.автор, Статьи.Код рубрики, Статьи.Уровень рубрики, Рубрикатор_1.Наименование_1+"."+Рубрикатор_2.Наименование

_2+". "+Рубрикатор_3. Наименование_3 AS Наименование рубрики

FROM (Рубрикатор_1 INNER JOIN Рубрикатор_2 ON Рубрикатор_1.Код_1 = Рубрикатор_2.Код_1) INNER JOIN (Рубрикатор_3 INNER JOIN Стать ON Рубрикатор_3.Код_3 = Статьи.Код рубрики) ON Рубрикатор_2.Код_2 = Рубрикатор_3.Код_2

WHERE (((Статьи.Уровень рубрики)=3));

Запрос «Обработанные сообщения 4-го уровня» необходим для вывода информации по обработанным сообщениям СМИ, отнесенным к 4-му уровню рубрикатора. Структура запроса «Обработанные сообщения 4-го уровня» в режиме SQL:

SELECT Trim(Str(Рубрикатор_1.Индекс_1))+"."+Trim(Str(Рубрикатор_2.Индекс_2))+"."+Trim(Str(Рубрикатор_3.

Индекс_3))+"."+Trim(Str(Рубрикатор_4.Индекс_4))+"." AS Индекс, Статьи.Файл, Статьи.Код газеты, Статьи.Код региона, Статьи.Код рубрики, Статьи.Наименование статьи, Статьи.Ключевые слова, Статьи.Текст статьи, Статьи.Дата, Статьи.автор, Статьи.Код рубрики, Статьи.Уровень рубрики, Рубрикатор_1.Наименование_1+". "+Рубрикатор_2.Наименование_2+". "+Рубрикатор_3.Наименование_3+"."+Рубрикатор_4.Наименование_4 AS Наименование рубрики

FROM ((Рубрикатор_1 INNER JOIN Рубрикатор_2 ON Рубрикатор_1.Код_1=Рубрикатор_2.Код_1) INNER JOIN Рубрикатор_3 ON Рубрикатор_2.Код_2=Рубрикатор_3.Код_2) INNER JOIN (Рубрикатор_4 INNER JOIN Статьи ON Рубрикатор_4.Код_4=Статьи.Код рубрики) ON Рубрикатор_3.Код_3=Рубрикатор_4.Код_3

WHERE (((Статьи.Уровень рубрики)=4));

4.4 Описание схемы работы системы

Схема работы системы представляет собой последовательность этапов, которую необходимо выполнить для классификации информационных сообщений СМИ.

Работу необходимо начать с загрузки информационных сообщений СМИ

в базу системы, на основе которых будет проводиться классификация. Для загрузки сообщений определяется местоположение каталога с файлами с заданием расширения с исходными информационными сообщениями.

При переходе ко второму этапу необходимо настроить параметры классификации, которые заключаются в определении количества совпадений по названию статьи, по тексту статьи, по ключевым словам статьи. Также необходимо задать порог нечеткого поиска.

На этапе классификации в первую очередь выполняется поиск записей по различным ключам словаря с помощью алгоритма нечеткого поиска. Далее выполняется классификация информационных сообщений СМИ с помощью метода ранжирования, заключающегося в автоматическом распределении поступающих в систему информационных сообщений СМИ в зависимости от их типа и содержания по рубрикам. Результаты классификации выводятся на экран.

По результатам классификации формируются рекомендации для принятия решений и отчеты. Отчеты сохраняются в текстовом файле формата doc.

При выборе завершающего режима работы системы произойдет выход из нее.

Схема работы системы представлена на рисунке 4.4.1.

Текст программы представлен в приложении Е.

Рисунок 4.4.1 - Схема работы системы

5 ТЕХНИЧЕСКОЕ ОБЕСПЕЧЕНИЕ АИС «КЛАССИФИКАТОР»

5.1 Описание комплекса технических средств

АИС «Классификатор» реализована на базе ПЭВМ. ПЭВМ позволяет существенно повысить эффективность работы пользователя архитектурными и техническими возможностями. Решено использовать базовый комплект ПЭВМ типа IBM PC, технические характеристики которого позволяют решать все поставленные задачи.

При проектировании и функционировании системы используется базовый комплект ПЭВМ IBM PC, включающий следующие устройства:

- процессор Intel Seleron с тактовой частотой 2 ГГц;

- 256 Мбайт оперативной памяти;

- жесткий диск не менее 2 Гбайт;

- операционная система - Windows Me, 2000, XP;

- монитор SVGA;

- клавиатура стандартная русифицированная;

- мышь.

При эксплуатации оборудования пользователи должны руководствоваться следующими документами:

- инструкция по технике безопасности;

- руководство пользователя.

Необходимо соблюдать требования техники безопасности и следующие меры предосторожности:

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9