Банк Рефератов - Автоматизированная интеллектуальная система классификации информационных сообщений средств массовой информации

Рефераты. Автоматизированная интеллектуальная система классификации информационных сообщений средств массовой информации

Таблица 3.7 - Таблица «Классификация»

Первичный ключ	Атрибуты	Тип данных	Описание
Уникальный ключ	Код статьи	Числовой	Длинное целое
	Код рубрики	Числовой	Длинное целое
	Уровень рубрики	Числовой	Длинное целое
	По названию статьи	Числовой	Длинное целое
	По ключевым словам	Числовой	Длинное целое
	По тексту статьи	Числовой	Длинное целое
	Результат	Текстовый	Длина 50 символов

Таблица 3.8 - Таблица «Рубрикатор 1»

Первичный ключ	Атрибуты	Тип данных	Описание
Уникальный ключ	Код_1	Счетчик	Последовательное значение
	Индекс_1	Числовой	Длинное целое
	Наименование_1	Текстовый	Длина 150 символов

Таблица 3.9 - Таблица «Рубрикатор 2»

Первичный ключ	Атрибуты	Тип данных	Описание
Уникальный ключ	Код_2	Счетчик	Последовательное значение
	Индекс_2	Числовой	Длинное целое
	Наименование_2	Текстовый	Длина 150 символов
	Код_1	Числовой	Длинное целое

Таблица 3.10 - Таблица «Рубрикатор 3»

Первичный ключ	Атрибуты	Тип данных	Описание
Уникальный ключ	Код_3	Счетчик	Последовательное значение
	Индекс_3	Числовой	Длинное целое
	Наименование_3	Текстовый	Длина 150 символов
	Код_2	Числовой	Длинное целое

Таблица 3.11 - Таблица «Рубрикатор 4»

Первичный ключ	Атрибуты	Тип данных	Описание
Уникальный ключ	Код_4	Счетчик	Последовательное значение
	Индекс_4	Числовой	Длинное целое
	Наименование_4	Текстовый	Длина 150 символов
	Код_3	Числовой	Длинное целое

Таблица 3.12 - Таблица «Словарь рубрикатора 3»

Первичный ключ	Атрибуты	Тип данных	Описание
Уникальный ключ	Код_3	Числовой	Длинное целое
	Слова	Текстовый	Длина 255 символов

Таблица 3.13 - Таблица «Словарь рубрикатора 4»

Первичный ключ	Атрибуты	Тип данных	Описание
Уникальный ключ	Код_4	Числовой	Длинное целое
	Слова	Текстовый	Длина 255 символов

Данные таблицы объединены в инфологическую модель, схема которой представлена на рисунке 3.4.1.

Рисунок 3.4.1 - Инфологическая модель базы

Иерархия заполнения таблиц базы представлена на рисунке 3.4.2.

Рисунок 3.4.2 - Иерархия заполнения таблиц базы

4 МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ

4.1 Математическая постановка задачи классификации информационных сообщений СМИ

Пусть дано множество статей Х, множество ключевых слов статьи W и множество названий статей A. Каждое множество описывается своим набором элементов:

X = {x1, x2, …, xc},

где xi - i- я статья;

c - количество статей;

W = {w1, w2, …, wc},

где wi - строка ключевых слов i-ой статьи, ;

A = {a1, a2, … ac},

где ai - название i-ой статьи, .

Имеется рубрикатор, состоящий из четырех уровней:

R1 = {r11, r12, … r1k},

где k - количество элементов рубрикатора 1;

R2 = {r21, r22, … r2l},

где l - количество элементов рубрикатора 2;

R3 = {r31, r32, … r3m},

где m - количество элементов рубрикатора 3;

R4 = {r41, r42, … r4n},

где n - количество элементов рубрикатора 4.

К каждому элементу рубрикаторов 3-го и 4-го уровней привязаны словари со своими множествами:

D3j = {d31j, d32j, … d3yj}, ;

D4j = {d41j, d42j, … d4zj}, ,

где j - индекс элемента рубрики;

y, z - количество элементов в словаре для конкретной рубрики.

Функция нечеткого поиска задается следующим образом:

здесь U = {{X},{W},{A}};

dpqj - ключевое слово,

где j - индекс элемента рубрики, или ;

p - уровень рубрикатора 3-й или 4-й;

q - индекс элементов в словарях D3j и D4j;

или ;

pн.п - порог нечеткого поиска.

Далее для каждой статьи применяем функцию нечеткого поиска:

где - общее количество совпадений по i-ой статье из словаря 3-го и 4-го уровней;

;

Затем для ключевых слов статьи также применяем функцию нечеткого поиска:

где общее количество совпадений по строке ключевых слов i-ой статьи из словаря 3-го и 4-го уровней;

;

Для названий статей тоже применяем функцию нечеткого поиска:

где - общее количество совпадений по названию i-ой статьи из словаря 3-го и 4-го уровней;

;

Далее для отнесения каждой статьи к той или иной рубрике используется метод ранжирования. Для этого определяются границы трех интервалов:

1) статью однозначно нельзя отнести к рубрике;

2) консультант ОТОИ принимает решение о принадлежности статьи к данной рубрике;

3) статья с заданной вероятностью относится к данной рубрике.

Границей является количество слов, которые должны встретиться в тексте, названии статьи или в списке ключевых слов, относящихся к этой статье.

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9