robots.txt для wordpress

file-robots-txtФайл , так же как и карта сайта (sitemap.xml), предназначен для управления индексацией вашего блога! Задав в файле robots.txt определенные правила для поисковиков, которые мы разберем чуть ниже и, поместив его в корневой каталог, вы сможете правильно управлять индексацией своего ресурса, что очень важно для его успешного продвижения!

Здесь главное четко понимать, что не все файлы, находящиеся в корневом каталоге, должны быть проиндексированы поисковыми системами. Сейчас я вам расскажу об этом более подробно. Если кто не знает, корневой каталог, это основная папка вашего сайта со всем его содержимым. В зависимости от хостинга, это будет или «httpdocs» или «public_html».

Любой блог на wordpress, имеет определенные папки и файлы, обусловленные самим движком, например (wp-admin, wp-includes). Так вот, эти папки и файлы не несут никакой ценности ни для читателей, ни для поисковых систем. Они нужны лишь для работы самого движка. И если их оставить без внимания и не запретить индексацию, то поисковые роботы, зайдя на ваш ресурс, будут индексировать все, что попадется на их пути.

А у них есть определенный лимит! И бывают такие случаи, когда они не успевают проиндексировать нужные вам файлы, занимаясь индексацией не нужных! Плюс ко всему, если не прописать определенные правила, со временем ваш блог обрастет дублированным контентом, что просто ненавидят и жестко наказывают, накладывая на блог различные фильтры. Особенно это касается поисковой системы .

Дублями страниц в wordpress в большинстве случаев выступают рубрики, архивы, архивы меток. Если их не закрыть от индексации, то по мере появления новых страниц, дублированный контент будет распространяться на вашем блоге со стремительной скоростью. Во избежание всего этого, для wordpress существует очень важный плагин поисковой оптимизации All In One SEO Pack. Который, при правильной его настройке, способен предотвратить все неприятности!

Также, если вы добавляете в корневой каталог какие-то папки с файлами, в которых содержится множество внешних ссылок или скриптов, не забывайте их закрывать от индексации в файле robots.txt. Дальше мы с вами разберем, как это делается.

Настройка robots.txt

Robots.txt является обычным файлом, созданным в текстовом редакторе, например notepad++ и включает в себя несколько важных директив. Первая и самая основная директива User-agent, содержит в себе название поискового робота. Чтобы адресовать User-agent всем поисковым роботам, зашедшим на ваш ресурс, ее следуют прописать таким образом:

User-agent: *

Следующая директива, без которой не обходится не один файл robots.txt, обозначается так: Disallow. Директива Disallow предназначена для запрета определенных папок и файлов и любой правильный robots.txt должен обязательно содержать после User-agent директиву Disallow. Вот простой пример, разрешающий всем поисковым системам индексировать все содержимое вашего ресурса:

User-agent: *
Disallow:

Если к Disallow добавить правый слэш «/»:

User-agent: *
Disallow: /

Вы напротив, запретите всем поисковым системам индексировать ваш сайт. Теперь, что касается не нужных файлов и папок самого движка wordpress. Для запрета индексации поисковыми системами, например всего содержимого папки wp-admin, вам следует прописать следующее:

User-agent: *
Disallow: /wp-admin/

Дальше, я вам покажу полноценный и правильный robots.txt для wordpress, рекомендуемый разработчиками, а пока что рассмотрим еще одну важную директиву Host. Директива Host предназначена исключительно для Яндекса. С какой это радости такие привилегии? Так повелось, что поисковая система Яндекс по статистике имеет наибольший вес в русскоязычном интернете, что является самим собой разумеющимся подстраиваться под ее капризы!

При всем при этом рекомендуется еще, и выделить отдельный блок для Яндекса:

User-agent:

Во избежание неправильной индексации ресурса, директива Host прописывается только для Яндекса и указывает на основное зеркало вашего ресурса, т.е. по какому адресу будет доступен ваш сайт: www.sait.ru или sait.ru. Другие поисковые системы не понимают директиву Host! Для Яндекса блок в файле robots.txt должен выглядеть следующим образом:

User-agent: Yandex
Disallow:
Host: world-blog.ru

или

User-agent: Yandex
Disallow:
Host: world-blog.ru

В этом случае, во избежание лишних неприятностей, правильнее будет настроить 301 редирект, но о нем я как-нибудь, расскажу в отдельном посте. Подпишитесь на обновления блога, чтобы ничего не пропустить, а пока рассмотрим последнюю директиву, которую должен включать в себя правильный robots.txt для wordpress. Она имеет знакомое вам название, Sitemap. О ней я более подробно рассказывал в статье «Как сделать карту сайта», ссылка приведена чуть выше.

Директива Sitemap указывает поисковым роботам на месторасположение карты сайта и прописывается отдельно от предыдущих директив и только один раз. Ее понимают все поисковые системы. Вот как это выглядит:

Sitemap: http://world-blog.ru/sitemap.xml
Мы с вами рассмотрели основные директивы, которые используются в правильном robots.txt и рекомендуются разработчиками. Больше я не буду вас грузить заумными словами, а покажу конкретный пример правильного файла robots.txt. У меня он выглядит следующим образом:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /feed/
Disallow: */feed
Disallow: /trackback
Disallow: */trackback
Disallow: /category/*/*
Disallow: */comments
Disallow: /*?replytocom
Disallow: /*?*
Disallow: /*?
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /feed/
Disallow: */feed
Disallow: /trackback
Disallow: */trackback
Disallow: /category/*/*
Disallow: */comments
Disallow: /*?replytocom
Disallow: /*?*
Disallow: /*?
Host: blogiseo.ru
Sitemap: http://world-blog.ru/sitemap.xml

Первоочередное, что необходимо скормить поисковикам для индексации, является контент! При таком раскладе, ваш блог на wordpress будет замечательно себя чувствовать, и что самое важное, правильно и быстро индексироваться. Не одна ваша статья не останется без внимания, и поисковые роботы не будут тратить свое время на ненужный хлам! Если вы сомневаетесь в правильности его составления, можете изучить данный вопрос более подробно на этом сайте.

Также, вы можете сравнить несколько файлов robots.txt на различных блогах имеющих платформу wordpress, все они будут примерно одинаковы! Чтобы посмотреть, как он выглядит на другом ресурсе, достаточно прописать в строке браузера, после доменного имени /robots.txt. И последнее, что я еще не сказал, имя файла должно быть всегда одинаковым и иметь следующий вид: robots.txt

  • Raimik

    Bilo bi klasno eslib napisali statju o robots.txt dlja OPENCART 1.5.6

Запись навигация

Top