Как Google индексирует страницы?

go-google-300x286Чтобы продвинуть сайт в верхние позиции в , хорошо бы знать, как индексирует ваши веб-страницы. Мы не будем сейчас говорить о , а рассмотрим саму индексацию.
Итак, под микроскопом.

Для чего нужны индексы
Каждое слово, которое вы набираете в строке поиска, содержится в сотнях, а то и в миллионах документах, — это зависит от популярности самого слова. Если бы не индексация, то даже на самых современных серверах на работу по отбору документов, в которых это слово встречается, ушли бы часы работы. Поэтому главной задачей индексации, или построения индексов, является увеличение скорости поиска. Чтобы понять принцип индексации, проведем аналогию с библиотекой. Итак, вы пришли в библиотеку, и вам надо найти нужную книгу. Если перебирать все книги подряд, книга за книгой, на это уйдет очень много времени. Другой вариант — обратитьcя к картотеке (к индексу) — буквально за минуты вы найдете нужную книгу, ее расположение на полке. 

Как Google строит индекс
Когда бот Google ползает по вашему сайту, он каждой странице, на которую попадает, присваивает уникальный номер (ID). В аналогии с библиотекой — это шифр книги. Этот индекс передается специальной программе, которая строит список слов и связывает каждое слово с этим уникальным номером. Предположим, слово “рекламная” встречается на страницах 12, 31, 56, 57, 92, 134. Слово “акция” встречается на страницах 6, 31, 43, 92, 289. Теперь если ввести в строке поиска “рекламная акция”, то это сочетание будет встречаться в документах 31 и 92.

Стоп-слова
Боты индексируют не все слова — часть слов, не несущих терминологическую нагрузку, вообще не индексируются. Вот часть стоп-слов (на английском), которые не попадают в индексы — i, a, about, an,
and, are, as, at, be, by, for, from, how, in, is, it, of, on, or, that, the, this,
to, was, what, when, where, who, will, with. Если вы пишете пост, то в ссылке на этот пост надо избегать стоп-слов. Для WordPress существует даже специальный плагин.

Основной (Main Index) и дополнительные (Supplemental Index) индексы
Вот уже несколько лет Google держит два индекса — Основной (Main Index) и дополнительные (Supplemental Index). В дополнительный индекс попадают не все слова с сайта, что дает экономию средств, поскольку при числе страниц более миллиарда работать с полным индексом было бы слишком затратно. Дополнительный индекс дает некий компромисс между скоростью поиска и качеством (релевантностью). Естественно, надо стремиться, чтобы как можно большее число ваших страниц находилось в главном индексе. С помощью специального калькулятора, который выдает процент страниц в дополнительном индексе по отношению к общему числу проиндексированных страниц, вы можете посчитать это процент для вашего сайта.
Если вы хотите посмотреть, какие страницы вообще проиндексированы в Google, наберите в строке поиска:

site:yourdomain.ru

Если вы хотите посмотреть, какие страницы находятся главном индексе, наберите в строке поиска:

site:yourdomain.ru -inallurl:yourdomain.ru

Все проиндексированные страницы из первого списка, которые не попали в этот список — находятся в дополинтельном индексе.

  • Kikillkinrel

    Отличная статья, спасибо!

  • Воффка

    Хороша статейка!!

Запись навигация

Top