Рефераты. Анализ текстов на заимствование методом построения семантических моделей

С точки зрения алгоритмов семантического анализа текстов, представленных на естественном языке, наиболее критичным ресурсом является процессорное время.

Классическое алгоритмы анализа изоморфности имеют оценку алгоритма, представленную в виде очень быстрорастущих функций, что в значительной степени ограничивает возможность их применения при анализе данных большого объема.

Существуют определенные улучшения данного алгоритма, которые позволят оптимизировать его, если заранее известен характер анализируемых данных, однако в общем случае сложность алгоритма все равно эквивалентна сложности алгоритмов полного перебора.

В рамках данной работы существенно уменьшить время, требуемое на выполнения анализа возможно путем реализации проблемно-ориентированных оптимизаций, описанных в разделе, посвященном анализу изоморфности графов данной работы.

Наиболее оптимальный выигрыш в производительности возможно получить на базе алгоритма внедрения нитей в граф, однако разработка и реализация данного алгоритма представляет собой составной процесс и может рассматриваться в рамках отдельного исследования.

5.4. Оптимизация хранилищ данных

Поскольку работа предполагает использование достаточно больших объемов данных, то возможно выполнить значительную оптимизацию, если эффективно организовать процессы обмена данными между СУБД и приложением.

Одним из перспективных направлений в рамках данной работы может считаться использование средств XML-схем на базе системы управления базами данных Microsoft SQL Server 2005.

5.5. Параллелизация вычислительных процессов

Под параллелизаций в данной работе понимается возможность распределения ряда наиболее требовательных алгоритмов на несколько вычислительных узлов таким образом, чтобы процесс вычислений выполнялся одновременно на нескольких вычислительных узлах.

Среди основных вычислительных процессов, которые могут поддаваться эффективной параллелизации, можно выделить следующие:

1. Параллелизация хранилищ данных и средств их обработки. Предполагается, что информация, представленная в виде семантических моделей, и представляющая собой образцы предположительно оригинальных источников может быть разделена в рамках предметных областей. Информация, соответствующая определенной предметной области должна помещаться и обрабатываться на базе отдельного вычислительного узла;

2. Алгоритмы нечеткого выделения компонент графа могут быть рекурсивно распределены на несколько вычислительных узлов поблочно. Если одно из измерений куба, представляющего собой модель семантического характера, будет выделено для хранения информации о достижимости других узлов, то в таком случае процессы выделения максимальных компонент возможно запускать независимо друг от друга от вершин, имеющих разное значение индекса связности.

3. Алгоритмы определения изоморфности графов.
Параллелизация данных алгоритмов возможна путем разделения вычислительных поток на несколько логических блоков:

a. Вычислительные блоки;

b. Блоки опережающего анализа

Вычислительные блоки разделяются по применяемым алгоритмам и выполняются, по возможности, параллельно на нескольких вычислительных узлах, а блоки опережающего анализа выполняют анализ характеристик фрагментов графов, которые должны быть рассмотрены в ближайшее время, выполняют их анализ с целью определения наиболее подходящей для данного фрагмента оптимизации алгоритма.

4. Формирование оптимальных схем анализа характеристик графа и выделения информации, используемой для выбора наиболее подходящих оптимизаций алгоритма.

5. Алгоритмы синтаксического и лексического разбора.
Данная задача является очень хорошо параллезируемой, поскольку может быть разбита на несколько независимых блоков, анализ которых может выполняться параллельно на нескольких вычислительных узлах. В качестве таких блоков могут использоваться, например, предложения или абзацы исходного текста.

5.6. Выводы

В качестве основных возможностей развития проекта в данной работе выделяются исследования, направленные на оптимизацию алгоритмов, требующих наибольшее количество вычислительных ресурсов, а также расширение функциональности системы

ВЫВОДЫ

В ходе выполнения аттестационной работы магистра была исследована различные подходы к решению задачи анализа текстов на наличие заимствований, цитирований и плагиата. средства, позволяющие вести рассмотрение текста на базе моделей, представляющих собой форматизированные представления исходных текстов.

Среди рассмотренных методов были выделены:

1. Анализ экспертом в предметной области;

2. Анализ на базе релевантностей;

3. Анализ на базе систем семантического анализа

Было установлено, что метод поиска ключевых слов (метод релевантностей) является весьма эффективным, если предполагается, что текст, представленный на естественном языке, содержит фрагменты полного заимствования (т.е. элементы, которые были целиком скопированы из публичных источников).

Однако, если предполагается, что текст содержит элементы заимствования, но оригинал был модифицирован некоторым образом, и при этом смысловая нагрузка текста осталась неизменной или менялась незначительно, то в таком случае качество результатов, полученных после анализа на базе релевантностей, может оказаться неудовлетворительным.

В таком случае в данной работе предлагается использовать технологии, основанные на базе систем осмысленного анализа.

В системах осмысленного анализа предлагается перед выполнением анализа текстов предварительно формировать некоторую формальную модель этих текстов, отражающую их смысловую нагрузку, затем выделять основной смысл текстов, а затем выполнять сравнение этих моделей.

Для формализации текстов, представленных на естественном языке, используется лексический и синтаксический разбор по набору правил из теории разбора славянских языков Карпова.

Для получения основного смысла текста, представленного на естественном языке, используется механизм нечеткого выделения компонент графа, модифицированный с учетом особенностей решаемой проблемы.

Для установления факта заимствований используется модифицированный алгоритм установления изоморфности графов, для которого предполагается выполнять проблемно-ориентированные оптимизации.

В процессе выполнения работы был определен ряд правил и определений, применимых для оперирования с семантическими моделями. Совокупность этих правил и определений в данной работе было предложено назвать элементами семантической алгебры.

ПЕРЕЧЕНЬ ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1. Лебедев И. С. Принципы обработки естественно-языковых запросов в системах лингвистического обеспечения //Электронный журнал «Исследовано в России» #"#">#"#">#"#">#"#">#"#">#"#">#"#">#"#">#"#">#"#">#"#">#"#">#"#">#"#">#"#">#"#">#"#">#"#">#"#">#"#">#"#">#"#">#"#">#"#">#"#">#"#">#"#">#"_Toc170623486">ПРИЛОЖЕНИЯ

ПРИЛОЖЕНИЕ А

Исходный текст CDocumentParser.cs

using System;

using System.Collections.Generic;

using System.Text;

namespace parser

{

abstract class CDocumentParser

{

/// <summary>

/// Определяет, совместим ли формат данного файла

/// для разбора данным парсером

/// </summary>

/// <param name="filename">Имя проверяемого файла</param>

/// <returns></returns>

public abstract bool is_format_compatible(string filename);

/// <summary>

/// Разобранный текст

/// </summary>

public string text = null;

/// <summary>

/// Выполняет разбор файла. Результат помещает в this.text

/// </summary>

/// <param name="filename">Имя файла для разбора</param>

public abstract void parse_file(string filename);

/// <summary>

/// Готовит sql-скрипт для вставки разобранной информации в БД

/// </summary>

/// <returns>SQL-скрипт</returns>

public abstract string generate_sql_script();

}

Приложение Б

Исходный текст CWordDocumentParser.cs

using System;

using System.Collections.Generic;

using System.Text;

using Microsoft.Office;

using System.IO;

using System.Reflection;

namespace parser

{

class CWordDocumentParser : CDocumentParser

{

public override void parse_file(string filename)

{

//проверяем, существует ли файл и соотвевтвует ли он формату

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42

5.4. Оптимизация хранилищ данных

5.5. Параллелизация вычислительных процессов

5.6. Выводы

ВЫВОДЫ

РЕКОМЕНДАЦИИ

ПЕРЕЧЕНЬ ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ