Рефераты. Анализ текстов на заимствование методом построения семантических моделей

o       Технология компиляции “на лету” – Just in time (JIT). Данная технология позволяет разрабатывать код для виртуальной машины, а выполняться он будет с производительностью, близкой к выполнению native-кода;

o       Данная технология позволяет использовать прозрачную связь между .NET-языками программирования;

o       .NET является кроссплатформенной технологией, несмотря на то, что в настоящее время существует официальная реализация только для платформ Windows.

·        Для C# существуют стандарты языка – ECMA-334 и ISO (ISO/IEC 23270:2003). Разрабатывая приложения, используя данные стандарты можно быть уверенным за то, что не возникнет проблем при компиляции и исполнении приложения;

В качестве хранилища данных в данной работе используется СУБД MS SQL Server 2005, поскольку эта СУБД оптимальным образом может использоваться совместно со средствами разработки Microsoft, а также позволяет работать с базами данных очень большого объема.

Также, одним из аргументов в пользу MS SQL Server 2005 в рамках данной работы является то, что данная СУБД поддерживает использование XML-схем данных, а значит, информация, представленная в виде RDF (формат RDF базируется на XML) может быть успешно интерпретирована средствами СУБД MS SQL Server 2005.

4.2. Программный комплекс


Информационная система представляет собой набор приложений, предназначенных для выполнения анализа текстов на заимствование, а также схем хранение об обработки данных.


4.2.1. Хранение данных.


         Данные, представляющие собой семантические модели, хранятся в базе данных adb на базе сервера MS SQL Server 2005.


         Схема данных представлена на рис. 4.1


Рис. 4.1. Схема хранения базы данных adb


Информация хранится в 5 таблицах, назначение которых приведено в таблице 4.1

Таблица 4.1

Назначение таблиц и полей в БД


N п/п

Таблица

Назначение таблицы

Поля

Назначение полей

1.

texts

Хранение информации о проанализированных текстах

text_id

Уникальный идентификатор текста в таблице

text

Либо текст (если его объем не слишком большой), либо ссылка на место хранения текста

text_caption

Заголовок текста

2.

identities

Сущности – семантические лексемы

identity_id

Уникальный номер семантической лексемы

identity_name

Семантическая лексема

identity_weight

Вес лексемы

3.

link_types

Типы связей между семантическими лексемами

link_id

Уникальный номер типа семантической связи

link_name

Имя семантической связи


Продолжение таблицы 4.1

4.

links

Семантические связи

link_from

Исходная семантическая лексема

link_to

Связанная семантическая лексема

link_weight

Вес связи между двумя семантическими лексемами

link_type

Тип семантической связи

5.

text_identities

Связи между текстами и семантическими лексемами

text_id

Ссылка на текст

identity_id

Ссылка на семантическую лексему


В базе данных проставлены индексы по всем ключевым полям.

Предполагается, что сами тексты, анализ которых уже был выполнен, будут сохранены в отдельные файлы, а на эти файлы будут установлены связи со всеми семантическими лексемами, что позволит потом определить – из какого именно текста было выполнено заимствование.

         Сама программная система состоит из нескольких независимых блоков:

·       Система сбора информации с сервера Википедии с целью формирования стартового семантического словаря.
Предполагается, что операция пополнения словаря будет выполняться регулярно. Это возможно сделать с использованием планировщика задач (например, Microsoft Scheduler) путем планирования запуска системы сбора информации.
Система спроектирована в виде консольного приложения, что позволит пользоваться ей в автоматическом режиме;

·       Система построения, анализа и редактирования семантических моделей. Данная система выполнена в виде приложения, позволяющего выполнять следующие действия:

o      Выполнять анализ характеристик графа: связности, регулярности, средним величинам по весам из куба, характеризующим граф;

o      Выполнять изменение характеристик семантических лексем – изменять показатели, поставленные в соответствие лексеме, изменять веса показателей, изменять значение семантических лексем;

o      Создавать новые семантические лексемы, указав соответствующие характеристики;

o      Выполнять изменение характеристик семантических связей – изменять показатели, поставленные в соответствие семантической связи, изменять веса и т.д.;

o      Создавать новые семантические связи, определяя отношения между семантическими лексемами.

·       Система анализа текстов на заимствование, позволяющая выполнять анализ на базе семантических технологий.


4.3 Система анализа текстов на заимствование


Данная система выполнена в виде набора классов, диаграмма которых представлена на рис. 4.2.


Рис. 4.2. Диаграмма классов системы анализа на заимствование


Описание классов системы представлено в таблице 4.2.


Таблица 4.2.

Описание классов системы выявления заимствований

N п/п

Имя класса

Назначение

1.

adbDataSet

Средство для доступа к базе данных adb.

2.

CfileReader

Класс для выполнения чтения данных из текстовых файлов

3.

CfileWriter

Класс для выполнения записи данных в текстовые файлы

4.

Fmain

Класс, в котором описаны характеристики и поведение элементов интерфейса, а также прописана логика работы системы


Продолжение таблицы 4.2

5.

identitiesTableAdapter

Средство типа TableAdapter для доступа данным семантических лексем

6.

linksTableAdapter

Средство типа TableAdapter для доступа к данным семантических связей

7.

Program

Элемент, с которого начинается выполнение приложение. Содержит инструкции по созданию элементов интерфейса и инициализации системы

8.

QueriesTableAdapter

Средство типа TableAdapter, позволяющее выполнять запросы к данным семантических моделей

9.

Resources

Класс, содержащий идентификацию ресурсов, используемых в системе

10.

Settings

Класс, содержащий информацию о конфигурации системы

11.

Text_identitiesTableAdapter

Средство типа TableAdapter для доступа к данным связей тестов и принадлежащих им семантическим лексемам

12.

TextsTableAdapter

Средство типа TableAdapter для доступа к данным о проанализированных текстах


Продолжение таблицы 4.2

13.

Link_typesTableAdapter

Средство типа TableAdapter для доступа к данным о типах семантических связей

14.

CStatistics

Класс содержит только публичные поля (фактически является структурой), которые хранят данные о статистике ведения вычислений


Все классы объявлены в рамках пространства имен app.

         Классы CfileReader и CfileWriter являются статическими.


4.4 Тестирование системы


Тестирование системы выполнялось в соответствии с двумя подходами:

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.