Рефераты. Вычислительная техника и информатика (ответы на вопросы по кандидатскому экзамену)

Теоретически, релевантность можно оценивать многими способами; лучше всего, если программа будет считать ее исходя из соответствия смысла двух документов. Другое дело, что выделение смысла... хм... само по себе задача не простая (мягко говоря) и в общем еще не решенная. Частности же таковы, что все сводится к поиску слов в рубрикаторах, для которых этот смысл известен, или построению графов с информацией о языковой структуре предложения.

Современные ИПС, применяемые в интернете, для обеспечения приемлемой скорости поиска, накладывают ограничения на формат искомого документа и на оценку релевантности. Документ обычно задается в виде логического выражения, а релевантность строится исходя из контекста. То есть, можно поискать документы, в которых находятся одновременно слова "Вася" и "Петя", но нельзя искать документы, по смыслу соответствующие фразе "Вася дружит с сестрой Пети".

Под "документами, соответствующими по смыслу", я подразумеваю, например, следующие тексты:

  • Вася дружит с девушкой. У мамы этой девушки есть сын по имени Петя.
  • У сестры Пети есть много поклонников. Один из них --- Вася.

Если искать по ключевым словам "Вася", "Петя" и "сестра", то, например, первый документ из вышеприведенных найден не будет, а вот что-то в духе "У Пети нет сестры, поэтому Васе приходится дружить с сестрой Коли" --- найдется. Работы в направлении "поиска по смыслу", конечно же, ведутся, но пока что чего-либо, приспособленного для интернета, нет.

Поисковыми системами пользуются множество людей. При этом достаточно велика вероятность того, что приход человека по ссылке из поисковой системы будет "в жилу" сайту, т.е. целевой для него (сами понимаете, что "целевой хит" много полезнее, чем простое посещение "на три клика"). Соответственно, в качестве поиска заинтересованы и владельцы сайтов, и пользователи поисковых систем.

Свойством современных ИПС в интернете является то, что пользователь должен уметь сформулировать свой запрос в виде набора ключевых слов. То есть, если он ищет какую-то информацию по интересующей его тематике, то пользователь должен быть способен выделить ключевые слова, по которым надо будет производить контекстный поиск. Если он этого сделать не сможет, то вряд ли кто-нибудь сможет ему в чем-то помочь... из-за этого, кстати, как мне кажется, новопоявившийся сервис InternetHelp.com, который предоставляет услуги по поиску в интернете посредством своих операторов (в смысле, людей), не особенно удачен: все равно оператор может найти что-либо только в том случае, когда пользователь (или, быть может будет вернее, клиент) сможет внятно сформулировать, что же он хочет найти. А если человек сможет это сделать, то ему прямая дорога к использованию традиционных поисковых систем.

В качестве примера, могу привести несколько запросов к поисковым системам, в результате которых люди попадали ко мне на страницу. Есть, к примеру, строка запроса "фотографию медведя"... Запрос "какой язык программирования использует Microsoft" просто вывел меня из себя минут на 15. Был запрос "Курск инопланетяне"... Особенно мне больно за тех, кто попадает ко мне на страничку с запросом "как установить TeX" ;-) Они точно попадают туда, где я сообщаю о том, что не буду рассказывать о процессе инсталяции TeX'а. Заранее извиняюсь перед тем человеком, который попадет по аналогичному запросу сюда, я не хотел :-) Это я все к тому, что запрос надо уметь формулировать. Если этого не уметь, то никакая ИПС не поможет...

Кстати, как вы думаете, что чаще всего ищут? Ну да, правильно. Именно это и ищут. Опять же, к слову сказать, я видел страницу, на которой был только один баннер, счетчик TOP100, и 100КБ текста, состоящего из повторяющихся слов, которые люди употребляют при поиске порнографии. Только не надо ничего выдумывать: у меня эту страничку выкачал робот, когда обходил URL'ы из некоторого списка, в котором эта страничка уже была. А смешно то, что TOP100 показывал чуть-ли не миллион посещений... куда уж тут мне с "фотографией медведя". Вы хоть представьте себе: миллион (!) людей, которых ждало разочарование на этой странице! Прямо скажем, жестоко.

Недавно Дмитрий Завалишин (dz) написал о том, что Интернет --- это несколько корневых DNS-серверов. Красивое выражение... как и не особенно правильное. Все дело в том, что популярными ресурсами можно управлять и так при помощи некоторого "рубильника" (при этом необязательно, что бы "рубильник" был, как в случае DNS, "виртуальным"; существует множество иных способов "реального" давления). А вот управлять множеством "непопулярных" ресурсов, на которых находится просто дикое количество самой разной информации, как "угодной", так и "неугодной" тем самым высшим силам, которые могут убрать DNS-сервера, не представляется возможным.

И что будет, если пропадут крупные поисковые системы? Или просто "очистятся" поисковые базы? Тогда "ой". Это я к тому, что поисковые системы --- одна из самых важных компонент интернета. Так сказать, пользовательский интерфейс.

Резюме

Поисковыми системами надо уметь пользоваться. Если этого умения нет, то искать можно долго... очень долго. Или ждать интеллектуальных систем поиска. Использование же людей для улучшения качества поиска не сильно поможет общему горю, потому что оператор вообще, скорее всего, не знает предметной области поиска, что скажется на его результативности в худшую сторону.

Ссылки по теме

#"#" target="_blank">#"#" target="_blank">#"#" target="_blank">#"#" target="_blank">#"1.files/image007.gif">




Вербальный информационно-поисковый язык

Вербальный информационно-поисковый язык - информационно-поисковый язык, использующий для представления своих лексических единиц слова и выражения естественного языка в их орфографической форме.



Грамматика информационно-поискового языка

Information retrieval language grammar

Грамматика информационно-поискового языка - правила формирования поисковых образов и поисковых предписаний из лексических единиц информационно-поискового языка.






Дескрипторный информационно-поисковый язык

Информационно-поисковый язык дескрипторного типа; Дескрипторный язык

Descriptor language

Дескрипторный информационно-поисковый язык - информационно-поисковый язык, предназначенный для координатного индексирования документов и информационных запросов посредством дескрипторов и/или ключевых слов.






Документальный информационно-поисковый язык

Documentary language

Документальный информационно-поисковый язык - информационно-поисковый язык, предназначенный для индексирования (частей) документов с целью последующего хранения и поиска.






 >> Информационная классификационная система

Классификационная система

Информационная классификационная система - средство формализованного представления содержания документов, данных и информационных запросов посредством кодов или описаний классов логически упорядоченного множества понятий.
Информационные классификационные системы являются одним из типов информационно-поисковых языков.






Классификационный информационно-поисковый язык

Информационно-поисковый язык классификационного типа

Classificational information retrieval language

Классификационный информационно-поисковый язык - информационно-поисковый язык, предназначенный для индексирования (частей) документов и информационных запросов посредством понятий и кодов некоторой выбранной классификации документов (классификационной системы).
Классификационные информационно-поисковые языки эффективно используются в автоматизированных ИПС промышленного назначения.






 >> Лексическая единица информационно-поискового языка (ЛЕ)

Information retrieval language lexical unit

Лексическая единица информационно-поискового языка - обозначение отдельного понятия, принятое в информационно-поисковом языке и неделимое в этой функции.
Лексические единицы могут представлять собой принятые в естественном языке слова, устойчивые словосочетания, аббревиатуры, символы, даты, общепринятые сокращения, лексически значимые компоненты сложных слов, а также эквивалентные им кодовые или символические обозначения искусственного языка.






Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.