Рефераты. Яндекс - основные сведения по популярному индексу

эквивалентна '/(+n +n)'.

Запрос 'музыкальное /(-2 4) образование' означает, что

'музыкальное' должна находиться от 'образование' в интервале расстояний от

2 слов слева до 4 слов справа.

Практически все знаки можно комбинировать с ограничением расстояния.

Например, результатом поиска по запросу 'вакансии ~ /+1

студентов' будут документы, содержащие слово 'вакансии', причем в этих

документах слово 'студентов' не следует непосредственно за словом

'вакансии'.

Когда знаки ограничения по расстоянию стоят после двойных операторов, то

употребленные там числа - это расстояние не в словах, а в предложениях.

Расстояние в абзацах определяется аналогично расстоянию в словах.

Запрос 'банк && /1 налоги' означает, что слово 'налоги' должно

находиться в том же самом, либо в соседнем со словом 'банк' предложении.

Скобки

Вместо одного слова в запросе можно подставить целое выражение. Для этого

его надо взять в скобки.

Например, запрос '(история | технология | изготовление) /+1

(сыра | творога)' задает поиск документов, которые содержат любую из фраз

'история сыра', 'технология творога', 'изготовление сыра', 'история

творога'.

Поиск в зонах

Можно искать информацию в "зонах" - заголовках (имя "зоны": Title), ссылках

(имя "зоны": Anchor) и адресе (имя "зоны": Address).

Синтаксис: $имя_зоны (поисковое выражение).

Запрос '$title CompTek' ищет в заголовках документов слово

'CompTek'.

Запрос '$anchor (CompTek | Dialogic)' находит документы, в cсылках внутри

которых есть одно из слов 'CompTek' или 'Dialogic'.

Поиск в определенных элементах

Можно ограничить поиск информации списком серверов или наоборот исключить

сервера из поиска (url). Можно также искать документы, содержащие ссылки на

определенные URL (link), и файлы картинок (image). Если вы хотите работать

не с конкретным URL (image), а со всеми, начинающимися с данной

последовательности символов, используйте "*".

Синтаксис: #имя_элемента="имя_файла (URL)".

По запросу 'CompTek ~~ #url="www.comptek.ru*"' будут искаться

упоминания компании 'CompTek' везде, кроме ее собственного сервера

(www.comptek.ru). А запрос '#link="www.comptek.ru*"' покажет все документы,

которые сослались на сервер компании.

Запрос ' #image="tort*"' даст ссылки на документы с изображениями тортов

(хотя, возможно, найдется и портрет черепахи Тортиллы).

Можно также искать по ключевым словам (keywords), аннотациям (abstract) и

подписям под изображениями (hint).

Синтаксис: #имя_элемента=(поисковое выражение).

Запросу '#keywords=(поисковая система) | #abstract=(поисковая

система)' будут искаться все страницы, в meta тегах которых есть эти слова.

По запросу '#hint=(кино)' будут найдены документы, содержащие изображение с

такой подписью.

Ранжирование результата поиска

При поиске для каждого найденного документа Яндекс вычисляет величину

релевантности (соответствия) содержания этого документа поисковому запросу.

Список найденных документов перед выдачей пользователю сортируется по этой

величине в порядке убывания. Релевантность документа зависит от ряда

факторов, в том числе от частотных характеристик искомых слов, веса слова

или выражения, близости искомых слов в тексте документа друг к другу и т.д.

Пользователь может повлиять на порядок сортировки, используя операторы веса

и уточнения запроса.

Задание веса слова или выражения применяется для того, чтобы увеличить

релевантность документов, cодержащих "взвешенное" выражение.

Синтаксис: слово:число или (поисковое_выражение):число

По запросу 'поисковые механизмы:5' будут найдены те же

документы, что и по запросу 'поисковые механизмы'. Разница состоит в том,

что наверху списка найденного окажутся документы, где чаще встречается

именно слово 'механизмы'.

Запрос 'поисковые (механизмы | машины | аппараты):5 ' равнозначен запросу

'поисковые (механизмы:5 | машины:5 | аппараты:5)'.

Задание уточняющего слова или выражения применяется для того, чтобы

увеличить релеватность документов, cодержащих уточняющее выражение.

Синтаксис: ), описания (тэг ) или начала документа (если этого тэга нет) и контекстов -

фрагментов вашего текста, содержащих слова запроса. Если страница не

находится по тем словам, по которым вам бы хотелось, или находится не в

первых рядах списка, обратите внимание на нижеследующие советы.

Если же речь идет о каталоге Яндекса, то все описания в нем делаются

составителями (гидами) по строгим инструкциям. Так, например, запрещены

тексты рекламного характера, слова «самый», «главный», «уникальный»,

прилагательные в превосходных степенях и т.дю

13. Индексирование

Когда Яндекс обнаруживает новую или измененную страницу, он ее индексирует.

В процессе этого страница разбивается на элементы (текст, заголовки,

подписи к картинкам, ссылки и так далее), содержание которых заносится в

индекс. При этом учитываются позиции слов, то есть их положение в документе

или его элементе. Сам документ в базе не хранится.

Яндекс создает очень компактный индекс.

Индексирование документов

Правила индексации в машине Яндекс

Яндекс индексирует страницы по их истинным адресам. Это значит, что, если

на странице стоит redirect, робот воспримет его как ссылку на новый адрес и

внесет ее в очередь на индексирование (если она удовлетворяет описанным

выше правилам). То же самое произойдет, если в одном из фреймов будет

стоять ссылка на другой сервер. В частности, если эта ссылка находится вне

доменов, разрешенных по умолчанию, страница НЕ будет проиндексирована.

Робот Яндекс хранит дату последнего обхода каждой страницы, дату ее

изменения (присланную Web-сервером) и дату внесения последних изменений в

базу поиска (дату индексации). Он оптимизирует обход Сети таким образом,

чтобы чаще посещать наиболее изменяемые сервера. Робот Яндекс работает

автоматически и обычно переиндексация происходит раз в две-три недели.

Изменения уже проиндексированных страниц робот Яндекс отслеживает

самостоятельно при следующем заходе на сайт. У робота свой график работы и

изменить его, к сожалению, невозможно, в том числе применяя такие тэги, как

.

Яндекс индексирует документ полностью: текст, заголовок, подписи к

картинкам, описание (description), ключевые слова и некоторую другую

информацию.

Как запретить индексацию определенных страниц?

Разрешения и запрещения на индексацию берутся всеми поисковыми системами из

файла robots.txt, находящегося в корневом каталоге сервера. Запрет на

индексацию ряда страниц может появиться, например, из соображений

секретности или из желания не индексировать одинаковые документы в разных

кодировках. Чем меньше ваш сервер, тем быстрее робот его обойдет. Поэтому

запретите в файле robots.txt все документы, которые не имеет смысла

индексировать (например, файлы статистики или списки файлов в директориях).

Обратите особое внимание на CGI или ISAPI скрипты - наш робот индексирует

их наравне с другими документами.

В простейшем виде (разрешено все, кроме директории скриптов) файл

robots.txt выглядит следующим образом:

User-Agent: *

Disallow: /cgi-bin/

Детальное описание спецификации файла можно прочитать на странице:

«Стандарт исключений для роботов».

При написании robots.txt обратите внимание на следующие часто встречающиеся

ошибки:

Строка с полем User-Agent является обязательной и должна предшествовать

строкам с полем Disallow. Так, приведенный ниже файл robots.txt не

запрещает ничего:

Disallow: /cgi-bin

Disallow: /forum

Пустые строки в файле robots.txt являются значимыми, они разделяют записи,

относящиеся к разным роботам. Например, в следующем фрагменте файла

robots.txt строка “Disallow: /forum” игнорируется, поскольку перед ней нет

строки с полем User-Agent.

User-Agent: *

Disallow: /cgi-bin

Disallow: /forum

Строка с полем Disallow может запретить индексирование документов только с

одним префиксом. Для запрета нескольких префиксов нужно написать несколько

строк. Например, нижеприведенный файл запрещает индексирование документов,

начинающихся с “/cgi-bin /forum”, которых, скорее всего, не существует (а

не документов с префиксами “/cgi-bin” и “/forum”).

User-Agent: *

Disallow: /cgi-bin /forum

В строках с полем Disallow записываются не абсолютные, а относительные

префиксы. То есть файл:

User-Agent: *

Disallow: www.myhost.ru/cgi-bin

запрещает, например, индексирование документа

http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi,

но НЕ запрещает индексирование документа

http://www.myhost.ru/cgi-bin/counter.cgi.

В строках с полем Disallow указываются именно префиксы, а не что-нибудь

еще. Так, файл:

User-Agent: *

Disallow: *

запрещает индексирование документов, начинающихся с символа «* » (которых в

природе не существует), и сильно отличается от файла:

User-Agent: *

Disallow: /

который запрещает индексирование всего сайта.

Если вы не можете создать/изменить файл robots.txt, то еще не все потеряно

— достаточно добавить дополнительный тег в HTML-код вашей страницы

(внутри тега ):

Тогда данный документ также не будет проиндексирован.

Вы также можете использовать тэг

Он означает, что робот поисковой машины не должен идти по ссылкам с данной

страницы.

Для одновременного запрета индексирования страницы и обхода ссылок с нее

используется тэг

Как запретить индексацию определенных частей текста?

Чтобы запретить индексирование определенных фрагментов текста в документе,

пометьте их тегами

.

Как выбрать главный виртуальный хост из нескольких зеркал?

Если ваш сайт находится на одном сервере (одном IP), но виден во внешнем

мире под разными именами (зеркала, разные виртуальные хосты), Яндекс

рекомендует вам выбрать то имя, под которым вы хотите быть

проиндексированы. В противном случае Яндекс выберет главное зеркало

самостоятельно, а остальные имена будут запрещены к индексации.

Для того, чтобы индексировалось выбранное вами зеркало, достаточно

запретить индексацию всех остальных зеркал при помощи robots.txt. Это можно

сделать, используя нестандартное расширение robots.txt — директиву Host, в

качестве ее параметра указав имя основного зеркала. Если www.glavnoye-

zerkalo.ru — основное зеркало, то robots.txt должен выглядеть примерно так:

User-Agent: *

Disallow: /forum

Disallow: /cgi-bin

Host: www.glavnoye-zerkalo.ru

В целях совместимости с роботами, которые не полностью следуют стандарту

при обработке robots.txt, директиву Host необходимо добавлять в группе,

начинающейся с записи User-Agent, непосредственно после записей Disallow.

Аргументом директивы Host является доменное имя с номером порта (80 по

умолчанию), отделенным двоеточием. Если какой-либо сайт не указан в

качестве аргумента для Host, для него подразумевается наличие директивы

Disallow: /, т.е. полный запрет индексации (при наличии в группе хотя бы

одной корректной директивы Host). Таким образом, файлы robots.txt вида

User-Agent: *

Host: www.myhost.ru

и

User-Agent: *

Host: www.myhost.ru:80

эквивалентны и запрещают индексирование как www.otherhost.ru, так и

www.myhost.ru:8080.

Параметр директивы Host обязан состоять из одного корректного имени хоста

(т.е. соответствующего RFC 952 и не являющегося IP-адресом) и допустимого

номера порта. Некорректно составленные строчки Host игнорируются.

# Примеры игнорируемых директив Host

Host: www.myhost-.ru

Host: www.-myhost.ru

Host: www.myhost.ru:0

Host: www.my_host.ru

Host: .my-host.ru:8000

Host: my-host.ru.

Host: my..host.ru

Host: www.myhost.ru/

Host: www.myhost.ru:8080/

Host: http://www.myhost.ru

Host: www.mysi.te

Host: 213.180.194.129

Host: www.firsthost.ru,www.secondhost.ru

Host: www.firsthost.ru www.secondhost.ru

Если у вас сервер Apache, то можно вместо использования директивы Host

задать robots.txt с использованием директив SSI:

User-Agent: *

Disallow: /

В этом файле роботу запрещен обход всех хостов, кроме

www.главное_имя.ru.

Как включать SSI, можно прочесть в документации по вашему серверу или

обратиться к вашему системному администратору. Проверить результат можно,

просто запросив страницы:

http://www.главное_имя.ru/robots.txt

http://www.другое_имя.ru/robots.txt

и т.д. Результаты должны быть разные.

Рекомендации для веб-сервера Русский Apache

В robots.txt на сайтах с русским апачем должны быть запрещены для роботов

все кодировки, кроме основной.

Если кодировки разложены по портам (или серверам), то надо выдавать на

разных портах (серверах) РАЗНЫЙ robots.txt. А именно, во всех файлах

robots.txt для всех портов/серверов, кроме «основного», должно быть

написано:

User-Agent: *

Disallow: /

Для этого можно использовать механизм SSI, описанный выше.

Если кодировки в вашем Apache выделяются по именам «виртуальных»

директорий, то надо написать один robots.txt, в котором должны быть

примерно такие строчки (в зависимости от названий директорий):

User-Agent: *

Disallow: /dos

Disallow: /mac

Disallow: /koi

Как выяснить, что Yandex проиндексировал на моем сервере?

Подставьте ваш ресурс в форму на странице AddURL.

Если вы получили сообщение, что «Ваш URL __url__ был только что внесен в

нашу базу данных.», это значит, что ваш URL ранее не был добавлен. Теперь

он добавлен и будет проиндексирован в ближайшее время.

Если вы получили сообщение «Ваш URL __url__ уже известен роботу Яndex.

Данный ресурс будет проиндексирован в ближайшее время.», то подождите еще

пару дней.

Если вы получили сообщение «Ваш URL __url__ уже проиндексирован. Вы можете

посмотреть, какие страницы вашего сайта проиндексированы в Яndex.Ru к

настоящему времени», то, нажав на ссылку со слов «проиндексированы в

Яndex.Ru», вы получите весь список документов вашего ресурса,

проиндексированных в нашей поисковой машине.

Заключение

Принято считать, что в Интернете есть все и на любой вкус. Если сравнить

его с городом, то в нем можно найти дворцы и лачуги, музеи и бары, и,

конечно, улицы.

Роль улицы выполняют, в частности, Интернет-ресурсы «для взрослых». И, как

и в реальной жизни, многие хотят защититься сами и оградить своих детей от

влияния улицы. Чтобы помочь тем, кому это актуально, мы сделали "Семейный"

Яндекс. Делая запрос в "Семейном" Яндексе, вы не найдете мата и

порнографии, то есть ничего, что не разрешено «детям до 16».

Воспользоваться этим можно двумя способами - во-первых, задавать запрос не

на www.yandex.ru, а на family.yandex.ru . Во-вторых, настроить свой браузер

- тогда даже при работе с обычным Яндексом "взрослые" ресурсы будут

отфильтрованы.

В опросе на тему «Ваше отношение к Интернет-ресурсам "для взрослых"»,

проведенном на Yandex.Ru, 15% ответило, что эти ресурсы "раздражают" и

"отвлекают", из них 2% - что "из-за них не пускаю детей в Сеть". Раздражает

обычно то, что человек находит мат и порнографию, совершенно на это не

рассчитывая, при абсолютно "нормальных" запросах.

Сегодня фильтр строится полуавтоматически - в него включаются «взрослые»

сайты, а также все страницы, содержащие «нехорошие» слова. Если,

воспользовавшись фильтром, вы, тем не менее, найдете «нехорошую» страницу,

пожалуйста, пришлите нам URL на адрес webadmin@yandex.ru. Мы рассчитываем

на широкое сотрудничество в этой области с добровольцами, в первую очередь

из числа родителей и учителей.

Использованные ресурсы:

http://yandex.ru

http://forum.yandex.ru

http://xml.yandex.ru

http://dzen.yandex.ru

http://www.ya.ru

Страницы: 1, 2, 3, 4



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.