Рефераты. Анализ текстов на заимствование методом построения семантических моделей

·        Тестирование корректности работы логики работы системы;

·        Нагрузочное тестирование;

·        Тестирование модулей системы


4.4.1. Тестирование модулей системы (модульное тестирование)


Тестирование модулей системы выполнялось следующим образом:

·        Для каждого метода класса, который потенциально может иметь блоки, работающее некорректно либо не соответствующие логике работы системы, формировался набор тестов, имеющих характер наиболее вероятных значений параметров, при  которых будет работать система, а также набор граничных тестовых данных.

·        Создавался экземпляр класса в рамках параллельно объявленного пространства имен;

·        Выполнялось тестирование на данных, подготовленных на предыдущих шагах. Если выявлялось несоответствие, то модуль дорабатывался либо корректировались формальные ограничения на характер данных


4.4.2. Тестирование корректности работы логики системы


Тестирование корректности работы логики системы производилось в соотвествии с небольшим объемом данных, результат анализа которых в соотвествии в приведенными в работе алгоритмами заранее известен.

     Тестировалась логика работы на текстах которые:

·        целиком эквивалентны образцам;

·        являются переводом на иностранный язык (предварительно заполнялся словарь соответствующими данными о правилах перевода конкретных выражений);

·        некоторые слова заменены на синонимы


4.4.3. Нагрузочное тестирование


Нагрузочное тестирование проводилось на базе документов сервера referat.ru.

         Тестирование представляло собой проверку корректности работы на больших объемах даннях.

         В результате тестирование было выявлено, что:

·        Вывод, полученный в результате анализа обычно соотвествовал реальному, однако степень заимствования не всегда соответствовала реальной.
Это объясняется тем, что синтаксический и лексический разбор на сложных языковых конструкциях не всегда позволяет точно определить основное и зависимое слово в предложении

·        Скорость работы системы не всегда была приемлемой.
Это является еще одним аргументом в пользу того, что следует исследовать возможности оптимизации алгоритма установления изоморфности графов;


РАЗДЕЛ 5

Возможности развития проекта


Качество анализа текста с использованием механизмов семантических технологий, а также объем вычислительных ресурсов, затрачиваемых для выполнения анализа, в значительной степени зависит от алгоритмической базы, используемой в проекте. Соответственно, в качестве направления развития проекта в данной работе предполагается максимально оптимизировать алгоритмы, для выполнения которых требуется наибольший объем вычислительных ресурсов.


5.1. Формальное определение объектов семантической алгебры


В настоящий момент механизмы, предполагающие повсеместное использование технологий, реализующих механизмы нечеткого анализа материалов, представляемых человеком естественным для него образом, являются очень перспективными.

Подходы, предложенные в рамках теории анализа естественных объектов на базе семантических технологий, могут быть использованы практически во всех прикладных направлениях.

В настоящий момент наиболее развитым в этом плане процессом является попытка внедрения семантических сетей.

Для хранения данных, имеющих характер семантических моделей, существуют формально определенные правила и форматы, однако четкого формального набора правил, который позволил бы аналитически описывать поведение объектов семантического характера (в данной работе было принято решение называть эти правила и определения семантической алгеброй) на данный момент не существует, хотя при использовании семантических моделей в различных предметных областях и их связях формальные аналитические правила могут оказаться полезными.

Алгебра семантических объектов в основном основывается на элементах дискретной математики, преимущественно на теории графов, но имеет ряд существенных особенностей:

1.     Задача анализа любых объектов естественной природы является, как правило, задачей нечеткого анализа. Для того чтобы обеспечить анализ моделей таких объектов потребуется во все элементы объектов включать дополнительные данные – предположительная степень соответствия оригиналу. Во всех алгоритмах и правилах, позволяющих делать определенные выводы, обязательно должны использоваться эти величины. Данный подход требует, чтобы классическая теория графов, которая предполагает, что ее объектам могут быть сопоставлены определенные значения – веса, была некоторым образом модифицирована.

2.     В соответствии с классической теорией графов, представление объектов, имеющих графовую структуру, в вычислительной технике принято выполнять в виде:

a.     матрицы смежности;

b.    таблицы инцидентности

Оба этих представления строятся в виде матрицы, элементами которой являются веса вершин. Для представления структур семантического характера потребуется использовать более сложные структуры с большим числом измерений. В данной работе предлагается использовать для определения семантических моделей 3х-мерные кубы, которые строятся так, как это показано на рис. 5.1



c

 

a

 





b

 
 



Рис. 5.1. Многомерное представление графа


Если граф задан в виде матрицы A:


,                                                     (5.1)


Тогда величина x характеризует k-ый вес ребра от вершины i к вершине j.

Если между вершинами i и j ребра не существует, то значение x принимается равным бесконечности.

В качестве измерений j могут использоваться различные показатели, например:

·        Уровень соответствия значения вершины оригиналу;

·        Уровень достоверности информации, представляемой связью;

·        Уровень соответствия предметной области;

·        Значения, вычисляемые на этапах работы алгоритмов – отдаленность от ключевой вершины, глубина рекурсии и др.

В данной работе величина k=2. Измерения определяют следующие параметры:

·        Степень соответствия вершины оригиналу (для i=j);

·        Степень соответствия связи оригиналу (для i<>j)

Следует отметить, что в случае использования данной схемы будут доступны дополнительные возможности анализа данных, представляющих семантическую модель на базе многомерного анализа, например, на базе технологии OLAP.

3.     Алгоритмы классической теории графов могут быть применены, однако требуется их модификация с целью оптимизации объема требуемых вычислительных ресурсов.


5.2. Алгоритм лексического и грамматического разбора текстов


Задача корректной формализации является очень важной подзадачей при анализе текстов на наличие заимствований, поскольку если окажется, что текст формализован не корректно - то все выводы, сделанные на основе формальной модели нельзя считать достоверными.

Задача формализации текстов, представленных на естественном языке, решается на базе алгоритмов лексического и синтаксического анализа. Целью данного анализа является выявление пар выражений, представляющих собой зависящее и основное выражение. На основе выявления этих пар и степени связи между ними формируется формальная модель текстов.

Технически алгоритмы лексического и синтаксического разбора очень похожи на те, которые используются в системах автоматизированного перевода.

В данной работе основа лексического и синтаксического разбора базируется на элементах теории разбора славянских языков Карпова.

Оптимизация работы алгоритма, а также улучшение качества его работы возможно за счет использования значительно большего количества правил разбора текстов согласно теории Карпова.

Для улучшения качества разбора возможно также привлечение базы научной информации, имеющей отношение к филологическим наукам.

Функциональность системы может быть существенно расширена за счет применения механизмов разбора нескольких языковых групп.


5.3. Алгоритмы установления факта изоморфности графов


Задача оптимизации работы алгоритмов, имеющих характер, схожий с задачей анализа изоморфности является актуальной не только для задачи автоматизированного осмысленного анализа текстов, представленных на естественных языках. Результаты оптимизации могут быть использованы также в очень большом количестве прикладных направлений.

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.