Создаем правильный файл robots.txt

Здравствуйте дорогие друзья. Сегодня я хочу рассказать вам о том, как создать файл robots.txt для WordPress. Так же вы узнаете что это вообще за файл и зачем он нужен.

Создаем robots.txt

Файл robots.txt создается специально для роботов поисковых систем. Роботы, проверяя ваш сайт, первым делом, обращают свое внимание именно на этот файл. В нем, вы можете указать какие странички индексировать, а какие не стоит! Это в свою очередь поможет избежать дубля страниц. Если же такой файл не сделать то поисковые системы будут индексировать все подряд без разбора и каждая ваша страничка попадет в индекс поисковых систем, что очень плохо повлияет на их отношение к вашему сайту или блогу. Возможны даже санкции!

О том, как добавить сайт в индекс Яндекса я писал в статье «Как добавить сайт в индекс Яндекса«.

Так вот что бы избежать различных санкций поисковых система, такой файл и создается. Его вы можете встретить у любого блоггера, чья посещаемость превышает 300 человек. Думаю что такой посещаемости добиться не имея файла robots.txt очень тяжело :) В общем, я очень советую вам создать такой файл не откладывать на потом.

Кстати, еще на первых порах стоит составить «карту блога для ПС — sitemap.xml» и Семантическое ядро. О том как составить семантическое ядро я расскажу как — нибудь потом, что бы не пропустить подписывайтесь на новости!

Как создать файл robots.txt для WordPress.

Несомненно, для блога построенного на движке WP этот файл должен отличаться, потому что сам движок имеет большое количество файлов которые не нужны в индексе. Также WP имеет привычку создавать сотни копий, только из-за комментариев. Я не буду сильно «впариваться» в то, какие минусы в этом плане имеет движок, а просто расскажу что нужно закрыть от индексирования! Но перед этим объясню вам, как создаются такие файлы и познакомлю с основой его создания!

Что бы создать такой файл, нужно открыть любой текстовый редактор и создать там файл под названием «robots», и поставить ему расширение .txt. Все это нужно сохранить и можно загружать на блог, а точнее на хостинг. Но толку от такого файла не будет, он еще пустой.

1. Директива User-agent

В этой директории можно указать  какой именно поисковой системе вы хотите приписать параметры ниже. Например, если вы хотите приписать параметры Яндексу, нужно написать следующею строчку.

User-agent: yandex

Если же вы хотите приписать параметры сразу для всех поисковиков без исключения, то эта строчка будет выглядеть немного по-другому.

User-agent: *

Параметр * указывает на все возможные варианты. В данном случае это поисковые системы. Следовательно из-за того, что мы поставили звездочку, параметры указанные ниже будут применяться ко всем поисковым системам.

2. Следующая директория  «Allow» и «Disallow».

«Allow» — Разрешает индексирование указанной страницы.

«Disallow» — Запрещает индексирование указанной страницы.

Любой robots.txt должен содержать директорию «Disallow», которая, как я уже и сказал, исключает страницы из индекса. Ведь для исключения этот файл и создается!

Если вы хотите запретить индексацию определенной папки, вам нужно ввести следующий строчки. В данном случает, индексация запрещается только поисковой системе Яндекс.

User-agent: Yandex

Disallow: /

Директорией «Allow» мы можем исключить какую-то отдельную папку из запрещенных для индексации. Это будет выглядеть так:

User-agent: *

Disallow: /

Allow: /wp_content/*

В данном примере мы запрещаем всем поисковым системам индексировать весь сайт или блог, кроме папки wp_content и всех папок которую она в себя включает.

Надеюсь принцип действий понятен. Теперь осталось разобраться какие страницы нужно закрывать от индексации, что бы избавить от не нужных файлов и дублей страниц. В данном списке я приведу папки находящиеся на блоге WordPress, то есть, если у вас блог именно на этом движке, то это для вас. Если нет, то ищите подобную информацию в другом месте. :)

Какие файлы нужно закрыть в файле robots.txt?

— wp-login.php

— wp-register.php

— wp-content/

— wp-admin/

— wp-includes/

Эти папки есть у каждого, кто пользуется движком WP и что бы файлы в них попадали в индекс, нам совсем не нужно. Исключить из общего списка нужно папку, в которой содержится папка с изображениями. Думаю, следует сделать так, что бы эта папка попала в индекс!

Это осуществить можно по-разному. Одним из вариантов: прописать папку «images» в директорию «Allow«. Другой вариант осуществления подобной махинации такой: закрывать каждую папку входящую в wp_content отдельно, а нужную не исключать! Если с этим возникнут проблемы напишите мне в комментариях, я вам помогу!

Также нужно запретить индексировать следующие места:

category/*/*

 feed

*?

*?*

trackback

А вообще, что бы не парить, вы можете скачать файл robots который я создал специально для вас. Он не сильно отличается от моего, но небольшая разница есть. Пока вы сами не научитесь создавать такой файл можете пользоваться им. В нем учтены все возможные папки и страницы, которые абсолютно не нужны в индексе! :)

Так вот, этот файл вы можете скачать тут.

Надеюсь у вас все получиться и поисковые системы с радостью будут индексировать ваш сайт или блог и не предъявлять вам каких либо санкций! :) Удачи вам!

Напоминаю что если у вас что-то не получается вы всегда можете написать мне, в комментариях, я вам помогу !

С уважением, Степан!
Все статьи

Добавить в закладки

26 комментариев к записи “Создаем правильный файл robots.txt”

  1. Сколько существует блог, столько и корректирую robots.txt Никак не удается сделать идеальным этот файл.

    • Степан:

      А его и не сделать наверное. У всех свои папки и т.п. Но если их не учитывать, то можно найти хороший! Главное копии закрыть!

  2. Александр:

    в начале по помучился пока не создал нормальный файл

  3. Да, я тоже по ходу действий усовершенствую свой файл robots.

  4. А я вот свой не трогаю. Какой поставила, такой и есть. На него не жалуюсь, так зачем же его корректировать. Правда?

  5. Степан, посмотрел на сайте файл robots.txt. Не буду критиковать, просто порекомендую посмотреть одну статью (ссылку можете удалить).
    Думаю, многие найдут полезное для себя.И сделают свой файл более удобным для роботов.

  6. Степан, у тебя файл robots.txt слишком большой. Зачем прописывать отдельные директивы для яндекса и гугла, а еще и общую для всех. Ведь сейчас допускается общая директива для всех и этого достаточно. Нужно поработать над этим.

  7. Вячеслав:

    Я составил свой роботс уже давно! Но в этой статье нашел много нового!

  8. Я даже не мучился в интернете скачал готовый только немного подкоректировал под себя.

  9. Сергей:

    Спасибо статья мне помогла создать робот для своего блога, надеюсь сделал все правильно.

  10. Степан:

    Что же в нем не так в моем файле роботс.тхт?

    • Disallow: /category/*/*
      Вы проверяли его на работоспособность?
      У вас нет таких категорий, которые запрещает этот тег.
      Все ваши категории открыты для индексации Яндекса, проверьте сами.
      Вам нужен такой тег:
      Disallow: /category/*
      или
      Disallow: /category
      А то получается, что закрывается только часть рубрик, или как у вас, они все открыты.
      Но судя по хорошей раскрутке сайтов ББ, толку от запрета рубрик нет.
      Проверьте сами на запрет свои категории.

      • Степан:

        У меня категории открыты специально! Они должны индексироваться! А вот под категории, если такие есть, в поиске не нужны. Не просто так из URL записей я убрал категории.

        • Ну это спорный вопрос, я нигде не встречал разумного объяснения, почему нужно закрыть под категории.
          Кстати дубли у вас будут, так как у вас открыты и категории и страницы, а это точно один и тот же контент.
          Я знаю много раскрученных сайтов с category в урл, не обязательно это убирать, если только для красоты.

          • Степан:

            Понятно, что убирать не обязательно. Когда я занимался построением этого файла, пытался участь все. Сейчас уже много не помню..

Оставить комментарий

Комментаторы блога

Комментируй блог и получи 300 рублей! Подробности тут!

X

Получайте самые актуальные статьи по теме создания, раскрутки и монетизации блога прямо на ваш почтовый ящик.