Банк Рефератов - Научные проблемы Интернета - скачать рефераты, бесплатно рефераты

Рефераты. Научные проблемы Интернета

Из соображений, близких к рассмотренным, строится матрица дискретного косинусного преобразования (DCT-матрица), используемая в алгоритме JPEG. Матрица двумерного DCT-преобразования определяется из следующей формулы

(1.30)

В (3.30) – значение пикселя в строке x и столбце y квадратной матрицы пикселей размеров ;

Матрица одномерного DCT-преобразования использует расчетную формулу

(1.31)

Заметим, что величины

изменяются для и так что в результате из них можно построить следующую матрицу преобразования (для )

0,981

0,831

0,556

0,195

-0,195

-0,556

-0,831

-0,981

0,924

0,383

-0,383

-0,924

-0,383

0,383

0,924

0,831

-0,195

-0,981

-0,556

0,556

0,981

0,195

-0,831

0,707

-0,707

0,707

-0,707

0,707

0,556

-0,981

0,195

0,831

-0,831

-0,195

0,981

-0,556

0,383

-0,924

0,924

-0,383

0,924

-0,924

0,383

0,195

-0,556

0,831

-0,981

0,981

-0,831

0,556

-0,195

Эта матрица является ортогональной и построена по тем же принципам, что и матрица W, которую мы рассмотрели выше. Нам остается коротко охарактеризовать алгоритм сжатия JPEG, основу которого составляет DCT-преобразование.

В JPEG используется цветовая модель YCrCb, где Y передает светимость пикселя. Преобразование DCT выполняется отдельно к светимости Y, и отдельно к матрице, кодирующей хроматические числа Cr и Cb. К светимости Y применяется одномерное DCT преобразование. Для компоненты <Cr, Cb> выполняется разбиение изображения на матрицы пикселей . К каждой из таких матриц применяется двумерное DCT-преобразование. Таким образом, выполняется сжатие с потерей информации.

Сокращение JPEG происходит от слов Joint Photographic Expert Group – совместная группа по фотографии. Проект JPEG стал стандартом в 1991г. – принят международной организацией стандартов ISO.

3. Классификация документов

Методы спецификации и обработки документов в Internet получают широкое применение в связи с созданием новых технологий и расширением возможностей представления семантики текстов, в первую очередь в документах XML.

В настоящем разделе рассматриваются программно-математические аспекты обработки текстов и создания интеллектуальных поисковых систем в Internet.____________________________________

Задача классификации и идентификации документов

Пусть в базе данных имеются спецификации текстов документов I1, I2,...,In, на входе системы имеется спецификация документа Х = (х1, х2, ...,хm). Требуется установить, к какому классу документов I1, I2,...,In относится Х.

Задачу будем решать при следующих условиях:

· Параметры х1, х2, ...,хm задают частоты встречаемости термов в тексте. Аналогичным образом, спецификации представлены векторами частот встречаемости термов в текстах-шаблонах. Под термом понимается ключевое слово текста.

· Известны весовые оценки значимости термов для соответствующих документов.

В результате будут вычислены некоторые оценки b1, b2, ...,bn, определяющие систему предпочтений в установлении документа-шаблона, к которому принадлежит текст Х, при этом åbi =1 и если bp>bs, то объективно принадлежность Х к Ip оценивается выше, чем к Is.

Описание проблемы и этапов ее решения

Допустим, что в силу общности или пересечения тем документов может возникнуть n кластеров (доменов, зон) с различной степенью (оценки) принадлежности к ним рассматриваемого документа Х; Пусть P(wi ï х) - условная вероятность того, что наблюдаемый вектор х относится к домену wi. В силу теоремы Байеса получим:

, (1.32)

где - вероятность фактического наблюдения вектора х с данными значениями частот встречаемости ключевых слов (термов);

- априорная вероятность того, что документ относится к домену wi,

- вероятность того, что домен wi мог привести к появлению вектора х;

wi - идентификатор домена.

Рассматриваются следующие домены:

w0 – ни один из шаблонов-документов не является владельцем Х;

w1 – 1-й источник является владельцем Х, остальные – нет;

................

wm – m-й источник является владельцем Х, остальные – нет;

wm+1 – 1-й и 2-й источники в совокупности могут быть владельцами Х, остальные нет;

..............

wn – все n могут быть в совокупности владельцами Х.

Введем штрафную оценку

, (1.33)

где - штраф, который следует заплатить за ошибочную классификацию владельца Ii вместо фактического Ij.

С учетом (1.32) перепишем (1.33) в виде

Теперь, приняв Lkk =0 и Lij = Lji =1 (для всех i, j, i ¹ j), получим окончательно

(1.34)

Формула (1.34) служит основой для принятия решений.

Введя соотношение

, (1.35)

можно утверждать, что наименьшему значению bi будет соответствовать документ с наименьшей оценкой возможности быть владельцем Х.

Применение формулы (1.34) потребует упрощающего допущения, а именно - предельные распределения значений частот встречаемости термов в тексте должны подчиняться многомерному нормальному закону.

Априорную вероятность того, что владельцем документа является шаблон Ii, можно определить на основе теории выбора многокритериальных решений с использованием функции полезности.

Для оценки вероятности необходимо определить, вероятность фактического наблюдения вектора х, значимо не отличающегося от результатов расчета частот встречаемости термов, порождаемых доменом wm ,что повлечет за собой необходимость спланировать специальный вычислительный эксперимент с построением информационной сети через проективные геометрии и поля Галуа.

Страницы: 1, 2, 3, 4