Таблица 3.7 - Таблица «Классификация»
Первичный ключ
Атрибуты
Тип данных
Описание
Уникальный ключ
Код статьи
Числовой
Длинное целое
Код рубрики
Уровень рубрики
По названию статьи
По ключевым словам
По тексту статьи
Результат
Текстовый
Длина 50 символов
Таблица 3.8 - Таблица «Рубрикатор 1»
Код_1
Счетчик
Последовательное значение
Индекс_1
Наименование_1
Длина 150 символов
Таблица 3.9 - Таблица «Рубрикатор 2»
Код_2
Индекс_2
Наименование_2
Таблица 3.10 - Таблица «Рубрикатор 3»
Код_3
Индекс_3
Наименование_3
Таблица 3.11 - Таблица «Рубрикатор 4»
Код_4
Индекс_4
Наименование_4
Таблица 3.12 - Таблица «Словарь рубрикатора 3»
Слова
Длина 255 символов
Таблица 3.13 - Таблица «Словарь рубрикатора 4»
Данные таблицы объединены в инфологическую модель, схема которой представлена на рисунке 3.4.1.
Рисунок 3.4.1 - Инфологическая модель базы
Иерархия заполнения таблиц базы представлена на рисунке 3.4.2.
Рисунок 3.4.2 - Иерархия заполнения таблиц базы
4 МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ
4.1 Математическая постановка задачи классификации информационных сообщений СМИ
Пусть дано множество статей Х, множество ключевых слов статьи W и множество названий статей A. Каждое множество описывается своим набором элементов:
X = {x1, x2, …, xc},
где xi - i- я статья;
c - количество статей;
W = {w1, w2, …, wc},
где wi - строка ключевых слов i-ой статьи, ;
A = {a1, a2, … ac},
где ai - название i-ой статьи, .
Имеется рубрикатор, состоящий из четырех уровней:
R1 = {r11, r12, … r1k},
где k - количество элементов рубрикатора 1;
R2 = {r21, r22, … r2l},
где l - количество элементов рубрикатора 2;
R3 = {r31, r32, … r3m},
где m - количество элементов рубрикатора 3;
R4 = {r41, r42, … r4n},
где n - количество элементов рубрикатора 4.
К каждому элементу рубрикаторов 3-го и 4-го уровней привязаны словари со своими множествами:
D3j = {d31j, d32j, … d3yj}, ;
D4j = {d41j, d42j, … d4zj}, ,
где j - индекс элемента рубрики;
y, z - количество элементов в словаре для конкретной рубрики.
Функция нечеткого поиска задается следующим образом:
здесь U = {{X},{W},{A}};
dpqj - ключевое слово,
где j - индекс элемента рубрики, или ;
p - уровень рубрикатора 3-й или 4-й;
q - индекс элементов в словарях D3j и D4j;
или ;
pн.п - порог нечеткого поиска.
Далее для каждой статьи применяем функцию нечеткого поиска:
где - общее количество совпадений по i-ой статье из словаря 3-го и 4-го уровней;
;
.
Затем для ключевых слов статьи также применяем функцию нечеткого поиска:
где общее количество совпадений по строке ключевых слов i-ой статьи из словаря 3-го и 4-го уровней;
Для названий статей тоже применяем функцию нечеткого поиска:
где - общее количество совпадений по названию i-ой статьи из словаря 3-го и 4-го уровней;
Далее для отнесения каждой статьи к той или иной рубрике используется метод ранжирования. Для этого определяются границы трех интервалов:
1) статью однозначно нельзя отнести к рубрике;
2) консультант ОТОИ принимает решение о принадлежности статьи к данной рубрике;
3) статья с заданной вероятностью относится к данной рубрике.
Границей является количество слов, которые должны встретиться в тексте, названии статьи или в списке ключевых слов, относящихся к этой статье.
Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9