Wordpress плагин robots

Вообще любая оптимизация сайта (не важно SEO или какая-нибудь другая) начинается еще на стадии разработки.

Однако, очень часто сайт создается впопыхах, кем-попало (кого смогли найти за те деньги), без технического задания, а если оно и есть, то меняется прямо на ходу. Поэтому, ко мне часто поступают обращения с просьбой подготовить сайт на движке WordPress (поскольку популярная платформа) под SEO-оптимизацию.

Метатэги

Ок. Начнем с простого. Установим плагин «All In One SEO Pack» . Делается это в админке, в разделе «Плагины» , в подпункте «Добавить новый» .

На открывшейся странице, в строку поиска, вводите название плагина, ищите, устанавливаете, активируете.

После этого в окне редактирования или создания поста, ниже поля куда вы вводите текст, появляются поля для тайтла, дескрипшина и кейвордсов. Если не знаете что это или зачем, то вы ни шиша не понимаете в SEO. Но у меня для вас хорошая новость, вся инфа есть в интернете. Воспользуйтесь поиском Яндекса, Гугла, поищите на ютубе. Не тупите!

Про метатэги пишу в этом посте исключительно для комплекта. Даже настроек самого плагина не буду касаться. Это та часть SEO-оптимизации, которую лучше сделать одновременно с добавлением Сайтмапа и Роботса, о которых пойдет речь дальше. Почему? Потому, что это займет всего пару минут, а в будущем точно понадобится.

Sitemap.xml

Теперь добавим карту сайта. Это тоже делается с помощью плагина. Их много, но я предпочитаю тот, что зовется «Google XML Sitemaps» . Ставится ровно так же как и предыдущий.

Настраивается в разделе админки (левое вертикальное меню) «Настройки» , подпункт «XML-Sitemap» . Собственно, достаточно тупо снять галочку с пункта «Add sitemap URL to the virtual robots.txt file.» и сохранить (там есть кнопка сохранения, если пролистаете ниже).

Чтобы убедиться, что все работает, откройте в соседней вкладке ссылку типа http://ваш_сайт/sitemap.xml

Увидели что-то вроде этого?

Отлично. Не закрывайте вкладку. Она нам еще пригодится. А пока переходим в админку.

Robots.txt

Этот файл можно заливать без каких-либо плагинов. По FTP например. Но если нет доступа или хочется все проделать с комфортом, то… Ставим плагин. Как вы уже убедились на предыдущих примерах, это очень простое действие, но профессионалы берут за это деньги.

Итак, ставим плагин «WordPress Robots.txt File» . Опять-же, можете выбрать другой, который будет работать.

Ставим плагин, активируем, переходим в «Настройки» , в подпункт «Чтение» .

На открывшейся странице видим поле robots.txt

Если оно чем-то заполнено — удалите. Сейчас мы его заполним новым содержимым.

Перейдите по ссылке (желательно открыть эту ссылку в новой вкладке). На открывшейся странице вы можете видеть три поля и кнопку.

Скопируйте из адресной строки браузера адрес вашего сайта и вставьте его в поле с надписью «Введите адрес сайта» .

Теперь перейдите во вкладку с Сайтмапом. Помните, выше по тексту я просил ее не закрывать? Скопируйте из адресной строки путь к файлу sitemap.xml и вставьте в поле «Введите адрес вашего файла sitemap.xml» .

Нажмите кнопку «Создать robots.txt» .

Если все сделано правильно, в поле под кнопкой появится текст. Скопируйте его весь и вставьте в поле robots.txt , открытое в админке вашего сайта («Настройки», «Чтение») .

Если на открывшейся странице вы видите текст, который только что копировали и вставляли из поля, значит все установилось как надо.

Помогло? Зашли Админу на чай.

Здравствуйте, дорогие друзья!

Сейчас напишу статью о нашумевшем файле, которого так все боятся молодые владельцы сайтов. И не зря, ведь при неправильном его составлении могут возникнуть плохие последствия.

Тема статьи - файл robots.txt. Мы сегодня разберем от основ его составления до примера моего личного файла, который на данный момент хорошо работает. Материал получился довольно сложный и после первого прочтения у вас может не сложиться впечатление целостной картины, но основную мысль вы должны уловить. Будет много советов и инсайдерской информации, которая поможет сделать индексацию сайта более лучшей.

Важная теория

Сначала определение самого файла.

Файл Robots.txt дает понимание поисковых систем о том, что не нужно индексировать на сайте для предотвращение появления дублированного контента. Можно закрыть от индексации целые разделы, отдельные страницы, папки на хостинге и так далее. Все, что только в голову взбредет.

Именно на этот файл в первую очередь обращают внимание поисковые роботы при заходе на сайт, чтобы понять, куда стоит смотреть, а что необходимо игнорировать и не заносить в поисковую базу.

Также данный файл служит для облегчения работы поисковым роботам, чтобы они не индексировали много мусорных страниц. Это создает нагрузку на наш сайт, так как роботы будут долго лазить в процессе индексирования.

Файл Robots.txt размещается в корневом каталоге любого сайта и имеет расширение обычного текстового документа. То есть мы его можем редактировать у себя на компьютере с помощью обычного текстового редактора - блокнота.

Чтобы просмотреть содержимое этого файла на лбом сайта, стоит к доменному имени дописать название файла через правую наклонную черту вот так: имя домена.ру/robots.txt

Очень важно понимать, что для некоторых сайтов файл может различаться, так как может быть сложная структура. Но основная мысль в том, чтобы закрыть страницы, которые генерируются самим движком и создают дублированный контент. Также задача стоит в том, чтобы предотвратить попадание таких страниц в индекс, а не только их содержимого. Если у вас простой сайт на WordPress, то файл вам подойдет.

Различия в работе для Яндекса и Google

Единственное и пожалуй весомое различие проявляется в том, что Яндекс воспринимает запреты в файле, как некое обязательное правило и довольно хорошо следует всем запретам. Мы ему сказали, что эти страницы в индекс брать не нужно, он и не берет их.

В Google же ситуация совершенно иная. Дело в том, что Google действует по принципу "на зло". Что я имею ввиду? Мы ставим запрет на некоторые служебные страницы. Самой частой такой страницей на которую ставят запрет, является страница, создаваемая ссылкой "Ответить" при включенной функции древовидных комментариев.

Страница по такой ссылке имеет приставку "replytocom". Когда мы ставим запрет на такую страницу, google не может получить доступ к ее содержимому и забирает такой адрес в индекс. В итоге, чем больше комментариев на ресурсе, тем больше и мусорных адресов в индексе, что не есть хорошо.

Конечно же, так как мы закрыли такие адреса от индексации, то содержимое страниц не индексируется и не происходит появление дублированного контента в индекс. Об этом свидетельствует надпись «A description for this result is not available because of this site’s robots.txt».

Переводится это так: «Описание веб-страницы не доступно из-за ограничения в robots.txt».

Как бы ничего страшного. Но страница то попала в индекс, хоть и дублирования не произошло. В общем, это может быть, но можно ведь полностью избавиться от такого мусора.

И тут имеется несколько решений:

Также имеются специальные плагины под настройку комментариев, где имеется функция закрытия таких ссылок. Можно и их использовать. Но зачем изобретать колесо? Ведь можно ничего не делать и все будет хорошо и без нашего участия. Главное здесь - открыть доступ, чтобы google смог разобраться во всей ситуации.

Google обязательно найдет такие страницы по внутренним ссылкам (в нашем случае для примера - ссылка "Ответить"). Об этом нам говорит сама справка гугла:

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google.

Однако даже если вы запретите поисковым роботам сканировать содержание сайта с помощью файла robots.txt, это не исключает, что Google обнаружит его другими способами и добавит в индекс.

А что дальше? Если доступ открыть, то он наткнется на мета-тег Noindex, запрещающий индексирования страницы, и на атрибут rel="canonical", который укажет на главный адрес страницы. Из последнего роботу гугла будет понятно, что данный документ не является главным и его не стоит брать в индекс. Вот и все дела. Ничего в индекс не попадет и никаких конфликтов с поисковым роботом Google не произойдет. И не придется потом избавляться от мусора в индексе.

Если же доступ будет закрыт, то велика вероятность, а скорее всего 100%, что адреса, найденные по таким ссылкам, googlebot проиндексирует. В этом случае придется от них избавляться, что уже занимает время ни одного дня, недели или даже месяца. Все зависит от количества мусора.

В общем, чтобы не произошло такого, стоит использовать правильный файл без лишних запретов + открытые всех подобных страниц для поисковой системы Google.

Можно конечно же просто закрыть все подобные ссылки скриптами или плагинами и сделать 301 редирект с дублированных страниц на главную, чтобы поискового робота сразу перекидывало на главный адрес, который он и будет индексировать, не обращая внимание на дубли.

Второй вариант является более жестким, так сказать более твердым, так как мы делаем некоторые манипуляции, закрывая весь мусор от поисковиков. Мы нее даем им самим разобраться в сложившейся ситуации. Ни малейшего шанса, что страницы по внутренним ссылкам попадут в индекс.

Лично я так и поступил. У меня все закрыто скриптом и редиректами.

Прежде, чем мы рассмотрим основу правильно файла robots, разберем основные директивы, чтобы на базовом уровне вы понимали, как составляется этот файл и как его можно будет доработать под свои нужды.

Основные директивы

Основными директивами файла robots являются:

Важно! После каждой директивы обязательно должен быть отступ в виде одного пробела.

Зная основные моменты в работе robots.txt и базовые принципы его составление, можно приступить к его сборке.

Составляем правильный файл

Вообще, идеальным вариантом было бы полностью открыть свой сайт к индексации и дать возможность поисковым роботам самим разобраться во всей ситуации. Но их алгоритмы не совершенны и они берут в индекс все, что можно только забрать в поисковую базу. А нам это ни к чему, так как будет куча дублированного контента в рамках сайта и куча мусорных страниц.

Чтобы такого не было, нужно составить такой файл, который будет разрешать к индексации только страницы самих статей, то есть контента и по надобности страницы, если они несут полезную информацию посетителю и поисковым системам.

Из пункта 2 сего материала вам стало понятно, что в файле не должно быть лишних запретов для Google, чтобы в индекс не полетели лишние адреса страниц. Это ни к чему. Яндекс же относится к данному файлу нормально и запреты воспринимает хорошо. Что укажем к запрету, то Яндекс и не будет индексировать.

На основе этого я сделал файл, который открывает весь сайт для поисковой системи Google (кроме служебных директорий самого движка WordPress) и закрывает все страницы дублей от Яндекса, Mail и других поисковиков.

Мой файл имеет довольно большой вид.

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /wp-content/cache Disallow: /xmlrpc.php Disallow: */author/* Disallow: */feed/ Disallow: */feed Disallow: /?feed= Disallow: */page/* Disallow: */trackback/ Disallow: /search Disallow: */tag/* Disallow: /?.php Disallow: /wp-register.php Disallow: /wp-content/plugins Disallow: /wp-content/cache Allow: /wp-content/uploads/ User-agent: Mail.Ru Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /xmlrpc.php Disallow: */author/* Disallow: */feed/ Disallow: */feed Disallow: /?feed= Disallow: */page/* Disallow: */trackback/ Disallow: /search Disallow: */tag/* Disallow: /?wp-subscription-manager* Allow: /wp-content/uploads/ User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /xmlrpc.php Disallow: /?.xml Sitemap: http://сайт/sitemap.xml.gz User-agent: Mediapartners-Google Disallow: User-agent: YaDirectBot Disallow: User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/

User - agent : Yandex

Disallow : / wp - admin

Disallow : / wp - includes

Disallow : / xmlrpc . php

Disallow : * / author /*

Disallow: */ feed /

Disallow : * / feed

Disallow : / ? feed =

Disallow : * / page /*

Disallow: */ trackback /

Disallow : / search

Disallow : * / tag /*

Disallow: /?wp-subscription-manager*

Allow: /wp-content/uploads/

Host: сайт

User-agent: Googlebot

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Allow: /wp-content/uploads/

User-agent: Mail.Ru

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /xmlrpc.php

Disallow: */ author /*

Disallow: */ feed /

Disallow : * / feed

Disallow : / ? feed =

Disallow : * / page /*

Disallow: */ trackback /

Disallow : / search

Disallow : * / tag / *

Allow : / wp - content / uploads /

User - agent : *

Disallow : / wp - admin

Disallow : / wp - includes

Disallow : / wp - login . php

Disallow : / wp - register . php

Disallow : / wp - content / plugins

Disallow : / wp - content / cache

Disallow : / xmlrpc . php

Disallow : / ? wp - subscription - manager *

agent content / uploads /

Не забудьте изменить адрес моего домена на свой в директивах Host и Sitemap.

Как видим, файл Robots.txt для wordpress вышел довольно большой. Это связано с тем, что правила я прописал к 3м основным роботам: Яндекс, Google и mail. К первым 2м обязательно нужно сделать. Также и к поисковому роботу mail не помешает, так как в последнее время поисковик довольно неплохо развивается и начинает приводить все больше и больше трафика.

Что касается самого содержимого файла, то для роботов Яндекса, Mail и для дериктивы, работающей со всеми роботами (User-agent: *), правила прописаны одни и те же. Запрет идет для всех основных моментов, связанных с появлением дублей в индексе.

Только к поисковому роботу Google я прописал отдельный вариант, который предполагает открытие всего содержимого сайта, кроме служебных папок самого движка. Почему именно так, я рассказывал выше. Нужно, чтобы Googlebot мог просканировать все страницы по внутренним ссылка и увидеть на них запреты в виде мета-тега robots со значением noindex, а также атрибут rel="canonical", что заставит его оставить дубли в покое.

Если же мы в файле роботс сделаем запрет, то робот не сможет увидеть этих данных (тегов) и, как я говорил ранее "на зло", возьмет адрес в индекс.

Также к каждому роботу я разрешил индексирование изображений (Allow: /wp-content/uploads/).

В конце файла я отдельно прописал разрешение индексации изображений для картиночных роботов Google и Яндекса. Вместе с этим разрешил весь сайт для роботов контекстной рекламы этих же поисковиков.

Если вы его используете, то в данном файле используйте запрет на ее индексирование, так как поисковый робот ее также обнаружит.

Для этого используется следующая строка:

Disallow: /?wp-subscription-manager*

Используя данный файл вы не будете бояться, что в индексе будет появляться дублированный контент, который образуется самим движком, а точнее его внутренними ссылками на страницах сайта. Яндекс все запреты сочтет за некую догму, а Google наткнется на запреты, когда зайдет на дубли, создаваемые движком.

Как я уже описывал ранее, то более продвинутыми настройками является скрытие таких ссылок, чтобы поисковые роботы даже не смогли их найти. К тому же это не только в 100% мере обезопасит нас сейчас, но и даст нам некую подстраховку на будущее, так как алгоритмы поисковых систем постоянно меняются и возможно, что запреты, которые работают сейчас, не будут работать через некоторое время.

Но тут также. Разработчики движка всегда идут в ногу со временем и учтут все новые изменения в работе ПС в совершенствовании wordpress. Исходя из этого, бояться в ближайшее время ничего не стоит.

В следующих статьях я буду описать процесс избавления от дублей страниц, которые могут появиться на ресурсе, а также способы скрытия опасных ссылок, создаваемых средствами WordPress, если вы все же решите обезопасить себя на все 100%. Мы ведь не знаем, как поведет себя поисковой робот? Может он начнет игнорировать запреты даже при наличии мета-тега Noindex и атрибута rel="canonical". В этом случае спасет скрытие опасных ссылок.

Итак, возможно, статья вышла довольно сложная для первого понимания, так как затронут не только вопрос составления самого файла, но и принципов работы поисковых роботов и того, что стоит сделать в идеале, что страшно, а что нет.

Если у вас имеются какие-то вопросы или неясности, то буду благодарен, если напишите об этом в комментариях, чтобы я как-то изменил данный материал для более отзывчивого восприятия другими пользователями.

На этом закончу этот пост. До скорых встреч!

С уважением, Константин Хмелев!

Зачем создавать файл robots.txt для сайта, размещенного на WordPress, и каким образом его лучше настроить? Неправильное использование этого файла может повредить индексации сайта и его продвижению в поисковых системах.

Корректная настройка избавит от дублей страниц и скроет ненужные страницы из результатов поиска.

Самый простой пример файла robots.txt для WordPress, который закрывает только администраторскую панель:

Где находится стандартный файл настроек роботс в WP?

Стандартный установщик Вордпресс не содержит файл роботс. Поэтому после установки CMS Вам потребуется создать его самостоятельно. В нашей статье вы найдете исчерпывающую информацию о всех командах, которые содержатся в этом файле. Также мы предлагаем Вам готовый работающий код для этого файла - вам достаточно скопировать его в свой файл роботс. Все что вам нужно сделать - создать свой файл, скопировать в него код, и добавить его в корневую папку Вашего сайта. После этого проверьте его коррекность для поисковых систем по нашей инструкции.

Виртуальный хостинг сайтов для популярных CMS:

Пример файла robots.txt, который вы можете использовать на своем сайте.

Вы можете выделить этот код и вставить на свой wordpress-сайт, заменив ссылки в разделе Host и Sitemap на адрес своего сайта.

Disallow: /wp-admin
Disallow: /wp-includes

Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*

User-agent: Yandex

Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host: http://site.ru/

Sitemap: http://site.ru/sitemap.xml

Файл robots.txt представляет собой простой текстовый файл, который вы можете создать в любом текстовом редакторе. Все инструкции, которые используются в robots.txt приводят к одному из трех результатов:

Разрешение индексации – поисковые роботы могут просканировать весь контент.
Полный запрет индексации – ничего из содержания сайта не будет сканироваться.
Условное разрешение – задаются определенные директивы, которые указывают возможность сканирования конкретных папок и файлов.

Часто возникают разногласия по поводу того, что следует помещать в файл robots.txt. Имейте в виду, что этот файл не предназначен для решения проблем безопасности веб-сайта, поэтому если требуется закрыть роботам доступ к частному контенту, необходимо защитить паролем область, где хранится такая информация .

Как правило, файл robots.txt призван служить руководством для поисковиков, но они могут и не соблюдать эти инструкции. Вариант файла robots.txt приведен на скриншоте.

Давайте разберем, какие функции выполняет каждая строка в этом файле. Директива User-agent обозначает группу инструкций, предназначенных одному роботу или всем сразу. Существует два варианта ее применения:

Если всем роботам задаются одинаковые указания, ставится знак звездочки (строка 1);
если указано имя конкретного бота, то условия будут применимы только к нему (строка 15).

Разработчиками Яндекса отмечается, если в User-agent напрямую указан робот этой поисковой системы, то следует повторить в этом разделе те же общие инструкции, что используются для других поисковых роботов (строки 15-24). В противном случае роботом Яндекса будут учитываться только те команды, которые прописаны для него явно и проигнорируются остальные.

Disallow

Директива Disallow информирует роботов, какие директории не требуется индексировать. Например, если нужно, чтобы поисковики не индексировали фотографии на сайте, поместите файлы с этими фотографиями в одну папку и закройте к ней доступ.

Для сайта, созданного на WordPress, обязателен запрет на индексацию админки, то есть папки wp-admin. Дополнительно можно запретить индексацию рубрик, архивов и тэгов, хотя при использовании SEO-плагинов на WordPress эти запреты устанавливаются в настройках плагинов. В приведенном примере также от возможного попадания в индекс закрыты папки шаблона и кешированного контента.

Allow

Директива Allow позволяет сообщить роботу, что он может увидеть файл в папке, запрещенной другими инструкциями. В примере этой директивы нет, т.к. этот файл работает по принципу «что не запрещено – то разрешено».

Host и Sitemap

Директива Host сообщает об адресе основного зеркала сайта. Команда Sitemap предназначена для любых роботов, она отмечает расположение xml-файла со структурой сайта и облегчает индексацию страниц поисковиками.

Куда загружать файл robots.txt в WordPress

При отсутствии на сайте файла robots.txt, следует его создать. Можно использовать программу «Notepad++» в среде Windows или «TextEdit» для Mac.

Создайте новый текстовый файл, запишите нужные директивы и сохраните на компьютере под названием robots.txt.
Подключитесь к серверу хостинга через файловый менеджер и скопируйте в корневой каталог (1) веб-сайта файл robots.txt (2).
В адресной строке наберите /robots.txt сразу после названия домена и убедитесь, что содержимое файла отображается браузером. Если вы используете поддомены, нужно создавать robots.txt для каждого поддомена.

Проверка роботс тхт Яндексом и Google - правильно ли работает файл?

Рекомендуется протестировать файл robots.txt, чтобы проверить, что он работает именно таким образом, как ожидается от помещенных в него инструкций. Перед анализом, убедитесь, что сайт зарегистрирован в инструментах веб-мастера, которые предлагаются поисковиками Google и Яндекс.

Для проверки Яндексом перейдите в кабинет веб-мастера по ссылке https://webmaster.yandex.ru . Выберите меню «Инструменты» и подменю «Анализ robots.txt».
Чтобы проверить файл в Google пройдите по ссылке https://www.google.com/webmasters/tools . В меню «Сканирование» нужно выбрать пункт «Инструмент проверки файла robots.txt».

Обе системы позволяют отправить файл robots.txt на проверку, после чего выдают результаты анализа и сообщения об ошибках, если они были обнаружены.

Для чего нужен robots.txt на вордпресс сайте?

Файл robots.txt – обыкновенный текстовый документ, размещенный на веб-сервере, он сообщает поисковым роботам о доступе к разделам сайта. При использовании этого файла можно задавать инструкции, например, запретить поисковикам индексировать служебные файлы и категории сайта, указать основную версию сайта и путь к карте сайта в формате xml. Прежде чем поисковик проиндексирует сайт, на него зайдет робот, например, Googlebot или Yandex, и просканирует файл robots.txt на предмет команд о том, какие страницы разрешено посещать и сохранять в результатах поиска.

Чтобы проверить, имеется ли на сайте файл robots.txt, задайте в адресной строке /robots.txt сразу после названия домена. В случае когда этот файл отсутствует, роботы-поисковики обладают полным доступом к вашему сайту. При этом в выдаче поиска могут оказаться ссылки на админпанель и вся информация, которую следует скрыть от посторонних. В связи с этим выделяют ряд причин, по которым потребуется использование файла robots.txt:

На сайте есть контент, который вы хотите заблокировать от показа в поисковых системах, например, дубли страниц или результаты внутреннего поиска по сайту, личный кабинет пользователя или корзина покупателя.
Вы хотите точно настроить доступ к сайту для известных роботов.
Вы используете платные ссылки или рекламные объявления, требующие специальных инструкций для роботов.
Вы разрабатываете сайт в режиме реального времени, но пока не хотите, чтобы поисковые системы индексировали его.
Вы хотите сообщить поисковым роботам, где расположен файл навигации по сайту sitemap.

Каждая из этих ситуаций может быть исправлена разными способами, однако настройка файла robots.txt поможет реализовать их все сразу в одном месте, поскольку большинство веб-мастеров имеют доступ к сайту, необходимый для создания и использования файла robots.txt.

(Последнее обновление: 31.05.2019)

Привет всем! Сегодня тема очень важная это - robots.txt для сайта WordPress . Поисковые роботы заходя на сайт или блог первым делом ищут файл robots.txt . Что такое robots.txt? Robots.txt - служебный файл, который находится в корневом каталоге сайта и содержит набор директив, позволяющих управлять индексацией сайта. Он позволяет указывать поисковым системам, какие страницы сайта или файлы должны присутствовать в поиске, а какие - нет. Когда приходит на хостинг, файл robots.txt является одним из первых документов, к которому он обращается.

Создание robots.txt для сайта WordPress

Как создать файл robots.txt для WordPress

Robots.txt в большинстве случаев используется для исключения дубликатов, служебных страниц, удаленных страниц и других ненужных страниц из индекса поисковых систем. Кроме того, именно через robots.txt можно указать ПС адрес карты сайта.

Воспользуйтесь любым текстовым редактором (например, блокнотом), создайте файл с именем robots.txt и заполните его как показано ниже. Файл должен называться robots.txt, а не так - Robots.txt или ROBOTS.TXT.

После этого необходимо загрузить файл в корневой каталог вашего сайта.

Файл robots.txt должен располагаться строго в корне сайта и он должен быть единственным.

Оптимальный, правильный robots.txt для сайта WordPress. Общий для и Яндекс. Такой robots.txt у меня стоит на всех сайтах:

User-agent: * Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /core/ Disallow: */feed Disallow: *?s= Disallow: *&s= Disallow: /search Disallow: */embed Disallow: *?attachment_id= Disallow: /id_date Disallow: */page/ Disallow: *?stats_author Disallow: *?all_comments Disallow: *?post_type=func Disallow: /filecode Disallow: /profile Disallow: /qtag/ Disallow: /articles/ Disallow: /artictag/ Allow: */uploads Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Allow: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /*ajax Sitemap: http://example.com/sitemap.xml

Стандартный robots.txt WordPress

Раздельный для Google и Yandex:

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Host: site.ru User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Sitemap: http://сайт.ру/sitemap.xml

Замените сайт.ру на ваш URL адрес блога. Смело можете скормить данным файлом поисковые системы Яндекс и Google.

Как настроить индивидуально важный файл robots.txt можно прочитав эти справки:

На странице помощи Яндекса . Проверить правильность составления файла можно в webmaster.yandex - Настройка индексирования - Анализ robots.txt. Далее, в Google robots.txt можно проверить по этой ссылке . Не забудьте что проверяемый блог должен быть добавлен в Инструменты для веб-мастеров Google и Яндекс .

Обратите внимание, что для Яндекса и Google правила составления robots.txt немного различаются. Вот ещё полезный ресурс для изучения robotstxt.org.ru . Вот и всё.

Теперь остаётся загрузить созданный файл в корневой каталог вашего блога. Корень блога это - папка public_html, где находятся файл config.php, index.php и так далее.

В заключение

Создание и тщательная подготовка robots.txt крайне важны. При его отсутствии поисковые роботы собирают всю информацию, относящуюся к сайту. В поиске могут появиться незаполненные страницы, служебная информация или тестовая версия сайта.

Вот на этом позвольте с вами не надолго попрощаться. Удачи. До новых встреч на страницах блога.

Файл robots.txt это первоначальный, и один из главнейших инструментов для корректной индексации ваших сайтов и их контента. Отсутствие данного файла приведет к печальным последствиям которые тяжело будет исправить. От того как вы настроите robots.txt зависит что попадет в выдачу по запросам в поисковых системах. Сейчас рассмотрим правильный файл robots.txt для WordPress сайта.

Навигация по странице:

Для чего использовать robots.txt?

Перед тем как приступать к созданию и наполнениюдавайте разберем саму суть данного файла.

Ваш сайт это набор файлов и папок, некоторые из которых нужно защитить от чтения от сторонних глаз, которыми являются так же и поисковые роботы, пришедшие прочитать и запомнить наш контент, для дальнейшей выдачи в поиске.

Чем занимается поисковой робот на сайте?

Итак, к примеру ваш сайт посетил поисковой робот, что он делает в первую очередь? Во-первых пытается найти уникальную информацию, которую сможет занести в свою базу данных. Если роботсотсутствует, а именно к нему в первую очередь обращается робот, тогда он начинает «читать» файлы находящиеся в корне сайта, что конечно же нам не очень понравиться, ведь он не только не найдет там нужную ему информацию, а и прочитает наши данные настроек, которые созданы для нашей личной цели. Именно для этого и существует robots.txt. Он дает указания роботу куда ходить нужно, а куда заглядывать не стоит.

Создание и размещение файла на сайте WordPress.

Для того что бы создать путеводитель для роботов, вам потребуется обычный блокнот windows, в котором вы будете прописывать нужные команды для поисковых роботов. После этого нужно сохранить файл в формате «txt», под названием «robots». На этом создание завершено, далее в статье мы рассмотрим какие же команды должны находиться в

Где размещать?

Robots.txt размещается на вашем хостинге, непосредственно в корневой папке сайта, куда мы . Теперь поисковой робот перед тем как лазить по нашему сайту, сначала спросит разрешение куда ему можно, а куда запрещено заходить.

Важно: при размещении документа в подкаталогах, роботы не смогут найти этот файл .

Зайдя к вам на сайт робот заходитсмотрит предназначеную для него «инструкцию» и начинает его изучать. Изучив до конца он пойдет по выбранному вами пути индексации, и будет игнорировать те директории, папки и URL к которым вы запретили обращаться.

Что включает в себя роботс?

Robots.txt несет в себе информативные данные для поисковых роботов и включает в себя такие основные «команды»:

User-agent

Указывает на имя потенциального робота посетителя. Синтаксис «User-agent: *» будет означать что данным командам должны следовать все роботы. Варианты для отдельных роботов рассматривать не будем, их очень много. По этому для примера будет только два варианта (для всех роботов и отдельно для Яндекс).

Disallow

Команда для роботов, рассказывающая о том куда ходить не стоит, запрещает чтение указанных адресов и файлов.

Данная команда указывает роботу, какой из вариантов сайта будет нашим главным зеркалом сайта.

Место нахождения xml карты сайта по которой должен пробежаться посетивший нас робот, в той части за которой он пришел (контент сайта).

Правильный robots.txt для сайта на CMS WordPress.

Для того что бы правильно настроить файл robots.txt специально под «движок» WordPress нужно для начала понимать что ищут роботы и что им будет интересно.

А наши паучки ищут контент нашего ресурса, и им совершенно не нужно знать о всех остальных конфигурационных данных наших сайтов. Во первых они им приходятся не по вкусу, и от переедания таковых они могут покинуть наш сайт так и не найдя то что нам бы хотелось да еще и вынесут наши запрещенные для общего глаза данные на общее обозрение.

Говоря о требуемых размещения директорий в robots.txt для WordPress, нам нужно разобраться с главной (корневой) папкой нашего сайта, в которой мы обнаружим огромное количество стандартных файлов и папок. Роботам незачем их читать, они не найдут там то что ищут, по этому нужно запрещать индексировать по возможности весь «лишний мусор».

Подумайте сами чем может сулить нам например индексация нашего wp-config.php. Робот просто возьмет и «расскажет» всем о наших вводных данных к нашим базам данных, а это крайне плохо для нас.

Сейчас я покажу готовый вариант. Затем разберем каждую строчку в расширенном описании. Итак, правильный robots.txt для WordPress должен выглядеть так:

Disallow: /wp-
Disallow: */trackback
Disallow: /*?*
Disallow: /?s=*
Disallow: */author
Disallow: /2016
Disallow: /xmlrpc.php
Allow: /wp-content/uploads/
Allow: *.js
Allow: *.css
Host: site.ru

Теперь посмотрим как мы смогли добиться такого короткого содержания файла robots.txt для WordPress, рассмотрим расширенную версию файла и постепенно уберем повторы:

Disallow: /wp-admin # Блокируем индексацию папки admin
Disallow: /wp-includes # папки includes
Disallow: /wp-content/languages # папки content/languages
Disallow: /wp-content/plugins # папки content/plugins
Disallow: /wp-content/cache # папки content/cache
Disallow: /wp-content/themes # папки content/themes
Disallow: /trackback # блокируем индекс всех возможных трекбеков
Disallow: */trackback

Disallow: */*/trackback
Disallow: */feed # блокируем индексацию фидов, новостных лент всех вариантов
Disallow: /feed/
Disallow: /?feed=
Disallow: */*/feed
Disallow: */*/feed/*/
Disallow: /*?* # запрет индекса всех ссылок (защита от дублей)
Disallow: /tag # каталоги находящихся в разных директориях (метки, категории)
Disallow: /tag/*
Disallow: /?s=*
Disallow: /page/* # запрещаем лишние страницы в WP, создающие дубли
Disallow: /author # блокировка индексации автора
Disallow: /2015 # дублирование ссылок с архива # далее блокировка всех административных файлов
Disallow: /xmlrpc.php
Disallow: /wp-activate.php
Disallow: /wp-blog-header.php
Disallow: /wp-comments-post.php
Disallow: /wp-config.php
Disallow: /wp-cron.php
Disallow: /wp-links-opml.php
Disallow: /wp-load.php
Disallow: /wp-login.php
Disallow: /wp-mail.php
Disallow: /wp-register.php
Disallow: /wp-settings.php
Disallow: /wp-signup.php
Disallow: /wp-trackback.php
Disallow: /wp-config-sample.php
Allow: /wp-content/uploads/ # Разрешаем индексировать наши загруженные картинки
Host: site.ru # Указываем основное зеркало
Sitemap: http://site.ru/sitemap.xml # Направляем робота на наши страницы контента

Указанный выше пример заблокирует от индексации все ненужные для поисковой оптимизации файлы и ссылки и укажет на тот материал который должен быть проиндексирован.

Ну уж очень длинный у нас вышел пример, сейчас мы его будем упрощать. Для начала возьмемся за файлы и папки с префиксом «wp-« их все можно объединить воедино.

Disallow: /wp-
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */feed
Disallow: /feed/
Disallow: /?feed=
Disallow: */*/feed
Disallow: */*/feed/*/
Disallow: /*?*
Disallow: /tag
Disallow: /tag/*
Disallow: /?s=*
Disallow: /page/*
Disallow: /author
Disallow: /2015
Disallow: /xmlrpc.php
Allow: /wp-content/uploads/
Allow: *.js
Allow: *.css
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Значительно уменьшили, но это не предел, пойдем немножко дальше и постараемся еще сократить, да еще и проделать необходимые внутренние настройки.

Все дело в том что при таком варианте файла, Google все равно внесет запрещенные вами страницы в индекс, но выглядеть они будут иначе:

Это не столь опасно как открытые дубли, но все же лучше от этого избавляться. Для того что бы исправить данную ситуацию можно воспользоваться сразу несколькими методами. Я расскажу о самом быстром и простом - «Параметры URL». Кстати в рекомендациях для Яндекса лучше оставить параметр «feed» в указанном варианте.

Избавились от feed с помощью Google, теперь для альтернативы запретим индексирование пагинации с помощью плагина, который скорее всего используется вами, если же это не так, тогда альтернативный так же подойдет. Речь идет о All in One SEO и его настройках тегов «robots» и «canonical».

Для того что бы запретить индексировать поисковикам не нужные нам страницы, такие как страницы пагинации всех видов (главной, рубрик и меток) нужно всего навсего поставить галочки в нужных местах.

Что мы сделали? В общем все что было нужно, мы указали на страницах которые дублируют наш контент ссылку на основную страницу, что укажет роботу что именно нужно сканировать и считать за основной контент. Теперь добавим еще мета тег robots.

После проведенных настроек, снова обращаемся к нашему варианту файла и смотрим что получилось:

Disallow: /wp-
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: /*?*
Disallow: /?s=*
Disallow: /author
Disallow: /2015
Disallow: /xmlrpc.php
Allow: /wp-content/uploads/
Allow: *.js
Allow: *.css
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

По поводу меток и рубрик вопрос спорный, вы можете , и добиться результата с которым ваши страницы категорий будут не вредны, а наоборот принесут дополнительный трафик. Метки можно подогнать под поисковики аналогично рубрикам.

Если тема, которую вы установили использует картинки, тогда лучше открыть их для индекса:

Allow: /wp-content/themes/название вашей темы/images

Если вы проигнорируете это, у вас могут возникнуть проблемы с поисковиками, они не любят когда от них скрывают важную информацию.

Пример можно расширять, например добавлением запрета для индексации определенных ссылок на страницы, обычно это страницы повторы которые вредят нашей оптимизации.

Категории

Популярное