Рефераты. Автоматизированная интеллектуальная система классификации информационных сообщений средств массовой информации

Комментарий (фамилия автора).

11. Фамилия от инициалов отделяется пробелом.

12. Слова текста, напечатанные в разрядку (через пробел) вводятся слитно. Ключевые слова в тексте должны быть полными без разрывов и сокращения.

13. Аббревиатуры вводятся без точек и разрядки.

14. Сокращения типа: т.д., т.п., с.г., т.г. вводятся без разрядки.

15. В числах между цифрами не должно быть пробелов.

16. Римские цифры вводить на латинском регистре большими буквами. Например: XXIV.

17. Спецсимволы, встречающиеся в математических формулах, должны быть заменены на буквы русского или латинского алфавита.

18. Химические элементы, единицы измерения, математические выражения и прочая информация вводится в текстовый файл в соответствии с таблицей значений (приложение Г).

19. Примечание (сноска) вводится в текстовый файл с красной строки после текста, отделяется чертой. Например:

_________________

(прим.2) - ...

*) ....

20. Если в газете под одним наименованием несколько сообщений из разных регионов, то каждое сообщение оформляется отдельным текстовым файлом.

21. Если статья газеты имеет продолжение в следующем номере газеты, то ее текстовый файл готовится обычным способом, а в конце текста с красной строки вводится: «Продолжение в N ». Если статья является продолжением предыдущего номера газеты, то в начале текста вводится: «Начало в N ».

22. Текст сообщения должен быть отредактирован. Все спецсимволы в

тексте должны быть заменены следующим образом:

- кавычки («») на кавычки (" ");

- номер (№) на номер (латинская буква N);

- длинное тире () на тире (-);

- буква (ё) на букву (е);

- апостроф (') на твердый знак.

Характерными ошибками в текстовых файлах являются:

- орфографические ошибки в русских словах: пропуск букв(ы), лишняя(ие) буква(ы), замена букв(ы), латинская(ие) буква(ы);

- слова написаны слитно без пробела;

- в сложных словосочетаниях пропуск дефиса;

- после сокращения и знаков препинания отсутствует пробел;

- пропуск точки в сокращении и в единицах измерения;

- вместо запятой стоит точка и наоборот;

- вместо номера (латинской буквы N) стоит другой символ.

Параметры классификации включают в себя задание количества совпадений по названию статьи, по тексту статьи и по ключевым словам текста статьи. Здесь же задается порог нечеткого поиска в процентах от 40 до 100. Чем выше процент, тем четче поиск.

Рубрикатор тем представляет собой перечень рубрик на бумажных носителях и имеет следующую структуру:

- рубрики 1-го уровня;

- рубрики 2-го уровня, раскрывающие суть рубрик 1-го уровня;

- рубрики 3-го уровня, раскрывающие суть рубрик 2-го уровня;

- рубрики 4-го уровня, раскрывающие суть рубрик 3-го уровня.

Рубрикам 3-го и 4-го уровней соответствуют свои словари, представляющие собой перечень ключевых слов. Рубрикатор тем и словарь приведены в приложении Д.

Результаты классификации информационных сообщений СМИ содержат код рубрики, наименование рубрики, количество совпадений по названию, тексту, ключевым словам статьи, и окончательный результат

классификации.

Отчет по результатам классификации содержит данные по каждой статье: дату, выбранный файл, название статьи, ключевые слова статьи, автора, текст статьи, количество совпадений по названию, тексту и ключевым словам статьи.

Отчет по обработанным сообщениям СМИ содержит результаты классификации по каждому файлу и включает: дату, название статьи, ключевые слова статьи, автора, текст статьи и сопоставленные рубрики.

Структура выходных данных и документов представлена в приложении Е.

3.4 Описание организации информационной базы

3.4.1 Описание организации внутримашинной базы

Все сведения о сообщениях СМИ хранятся в базе данных, которая состоит из следующих таблиц:

- статьи;

- газета;

- регион;

- отрасль;

- справочник отраслей;

- рубрики;

- классификация;

- рубрикатор 1;

- рубрикатор 2;

- рубрикатор 3;

- рубрикатор 4;

- словарь рубрикатора 3;

- словарь рубрикатора 4.

Их описание представлено в таблицах 3.1 - 3.13 соответственно.

Таблица 3.1 - Таблица «Статьи»

Первичный ключ

Атрибуты

Тип данных

Описание

Код газеты

Числовой

Длина 2 символа

Код региона

Числовой

Длина 8 символов

Код статьи

Счетчик

Последовательное значение

Уникальный ключ

Наименование

Текстовый

Длина 150 символов

Ключевые слова

Текстовый

Длина 255 символов

Текст

Поле MEMO

Дата

Дата/время

Краткий формат даты

Автор

Текстовый

Длина 150 символов

Файл

Текстовый

Длина 255 символов

Классифицировано

Логический

Истина/ложь

Таблица 3.2 - Таблица «Газета»

Первичный ключ

Атрибуты

Тип данных

Описание

Уникальный ключ

Код газеты

Числовой

Длина 2 символа

Наименование

Текстовый

Длина 150 символов

Таблица 3.3 - Таблица «Регион»

Первичный ключ

Атрибуты

Тип данных

Описание

Уникальный ключ

Код региона

Числовой

Длина 8 символов

Наименование региона

Текстовый

Длина 150 символов

Таблица 3.4 - Таблица «Отрасль»

Первичный ключ

Атрибуты

Тип данных

Описание

Составной ключ

Код статьи

Числовой

Длинное целое

Код отрасли

Числовой

Длинное целое

Таблица 3.5 - Таблица «Справочник отраслей»

Первичный ключ

Атрибуты

Тип данных

Описание

Уникальный ключ

Код отрасли

Числовой

Длинное целое

Наименование

Текстовый

Длина 150 символов

Таблица 3.6 - Таблица «Рубрики»

Первичный ключ

Атрибуты

Тип данных

Описание

Составной ключ

Код рубрики

Числовой

Длинное целое

Код статьи

Числовой

Длинное целое

Уровень рубрики

Числовой

Длинное целое

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.