robots.txt для wordpress

У меня есть пару друзей которые тоже ведут автономные блоги на WordPress.

И тоже начали не так давно.

Ну я вот вчера ночью сидел и анализировал их внутреннюю оптимизацию.

И пришел к выводу что некоторым из них нужна помощь.

Точнее не помощь а пару советов.

Ранее я уже рассказывал как настроить rss и  что потом с этим rss делать.

Теперь пришло видимо время рассмотреть файл robots.txt

И так.

файл robots.txt ( он кстати лежит в корне сайта ) нужен для создание "инструкций" поисковым роботам.

Если уж совсем по простому, то он объясняет поисковикам что можно индексировать а что нет.

Это ускоряет индексацию,  помогает избежать дублирование контента и не забивает поисковики "ненужным хламом" который они так не любят.

Конфигураций конечно может быть много.

Но я считаю что для WordPress подходит примерно следующая.

******

User-agent: Yandex
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Host: указываете ваш основной домен, с www он или без ( к примеру delexp.net )

User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Sitemap: http://вашсайт.ру/sitemap.xml
******

* я использую именно такой пример конфига. можете проверить http://delexp.net/robots.txt *
* эта версия конфига была выявлена экспериментальным путем - читать здесь и здесь

в принципе даже особо гуглить не надо что бы понять что запрещает этот конфиг.
он отрезает все лишнее и ничего больше.

просто создаете файл robots.txt копируете туда изложеное выше и кидаете в корневик блога.

все счастливы.

Захаров Вадим

  • угу, а еще я закрыл вообще доступ некоторым ботам, ибо не фиг грузить сервер. А Yahoo имеет самого №%№% бота который приводит к чрезмерным нагрузкам на проц. А самое главное ни каких входов с их №;%:%? поисковика нет.

    • я кстати понял как можно увеличить количество рсс подписчиков. точнее понял как ты предлагал их "накрутить". вставить рсс в жж да? а это трафик даст? а то мне ударными темпами надо посещаемость поднимать.

      • а подскажи пж что ты понял? ))) для меня оч актуально

        • ну у нас там своя жж тема есть) но мы ей не пользуемся.. как высянилось мертвые подписчики никому не нужны

  • Я тупое блондинко :) не знаю, как вставить этот файл в корень блога )

    • ну ты как плагины туда заливала? вот так же. только прям в основную папку блога ( примерно так /www/ani-sanni.com/сюда )

      • А конкретней можно? Вот открываю я коммандер, запускаю ftp-соединение...и что дальше? Там тьма папок, в каждой из них - еще по тьме...

        • ну у каждого хостинга по своему. у меня к примеру в папке www все мои сайты хранятся

      • У меня таких папок, оказывается, две - www и WWW. Вроде обе оинаковые. Но файла роботс в корневом каталоге у обеих нет...Или ее создть надо мне самой?

        • ну ествественно. он же из воздуха не появится)

  • да, что-то на подобии этого

  • [...] на хостинг, провели внутреннюю оптимизацию, заполнили robot.txt, нашли более менее нормальный [...]

  • спасибо. как раз то, что я искал

  • Сори за тупой вопрос, но звездочки копировать? :-) А то мало ли :-) Я в этих ШТМЛях ничего не понимаю, вдруг оно без звездочек не прочитает :-)

  • последние которые? их не надо. остальное все надо надо обзор на твой блог сделать чтоли) а то ты у меня самый топовый комментатор

  • Ой ё ёй.. мне еще такое рано :D

  • вот помощь мне точно не помешает

  • Ни чего не поняла. Где и что создавать, где искать корневую папку. А можно написать инструкцию для полнейших чайников? Я даже в терминолигии не разбираюсь.

    • ну стукни в аську если хочешь. помогу чем смогу

      • Кстати, не получаю ответы на свои коменты. Ответ вижу только, когда захожу сюда. А скайп есть? Я в скайпе - kladez_zolota

      • И есть вопрос, как сделать, чтобы приятать некоторые ссылки от поисковиков.

        • Атрибут rel="nofollow" используется при формировании кода ссылки: текст ссылки

        • Прости за мою тупость, а куда вставляется этот атрибут7

          • создаешь файл robots.txt вписываешь в него все что я указал. и суешь в ту папку, где у тебя хранится блог. прямо в корень

        • Спасибо! Но к сожалению я ни чего не поняла.

          • Аська есть у тебя или нет?

        • аськи нет

          • очень зря

  • Приветствую всех не подскажете где найти файл хмл? у карты сайта Sitemap: http://адресвашегомапа.ру/сайтмап.хмл вот тут?

    • ну вначале его нужно создать. для этого используйте плагин.. подробнее тут - http://delexp.net/wordpress-plaginy/

      • я это видал =) как я понял оттуда надо взять Google XML Sitemaps этот плагин мне же надо эту карту для robots.txt Dagon Design Sitemap Generator- этот у меня уже стоит . Вообщем непонял я

        • ну. создай плагином xml карту.. она появится у тебя по следующему пути http://mirkartofana.ru/sitemap.xml вот его и вставишь в роботс.тхт

  • Большое спасибо. Щас закинул робота. вот только вопрос файл трекбэк случайно не нужно дописывать .php ?

  • Очень пригодилось, первый раз столкнулся, помогло.

  • спасибо, отличный пост + готовая инструкция :)

    • пожалуйста)

    • Да не совсем готовая. Правила-то надо учитывать: Недопустимо наличие пустых переводов строки между директивами ‘User-agent’ и ‘Disallow’ (‘Allow’), а также между самими ‘Disallow’ (‘Allow’) директивами. Кроме того, в соответствии со стандартом перед каждой директивой ‘User-agent’ рекомендуется вставлять пустой перевод строки. Почему у вас в файле robots.txt все сплошняком идет?

      • а не могли бы вы источник дать... где об этом подробно почитать...

      • а зачем создавать лишние сложности и забивать головы людей, если и так все работает? http://i005.radikal.ru/1101/03/6caf1abd6311.jpg

  • кстати по поводу последней строки - Sitemap: http://адресвашегомапа.ру/сайтмап.хмл если у меня стоит плагин google-sitemap-generator то эту строку все равно добавлять? они никак не пересекаются?

    • ну этот плагин делает карту сайта которую надо указать в роботс.тхт.. они работают в паре

  • Вадик, а у меня есть эта вещь в блоге?? Нужна она мне??? Я вернула антиспам, у меня блогировало 2800 ссобщений, атака бла что ли на мой сайт??

    • нет просто спамеры. их много) http://www.domitalia.ru/robots.txt

  • А такое роботс нормальный: User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /xmlrpc.php Disallow: /wp-content/uploads Disallow: /wp-content/themes Disallow: /trackback/ Disallow: /tag/ Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: */*/feed Disallow: /*?* Disallow: /?feed= Disallow: /?s= Sitemap: http://times.fireg.ru/sitemap.xml.gz Sitemap: http://times.fireg.ru/sitemap.xml User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /xmlrpc.php Disallow: /wp-content/uploads Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback/ Disallow: /tag/ Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: */*/feed Disallow: /?feed= Disallow: /*?* Disallow: /?s= Host: times.fireg.ru Можете подсказать пожалуйста.

    • уберите Sitemap: http://times.fireg.ru/sitemap.xml.gz ну и в принципе нормальный, только лишнего много.

      • А можно вопрос, почему убрать http://times.fireg.ru/sitemap.xml.gz и что лишнее можете подсказать пожалуйста.

        • а зачем оно вам там? у вас же там прописан .xml ну оно не лишнее, но в некоторых я не вижу смысла. но хуже оно не сделает) скоро будет небольшой эксперимент с robots.txt.. можете подписаться и почитать.

  • А если путь указанный в роботс, на самом деле в сайте отсутствует, он хуже не сделает? Или в этом случае поисковикам все равно на такие моменты? Да подпишусь, только ссылку дайти) А то до конца февраля в планах разобраться с роботс.

    • http://feeds.feedburner.com/delexp/del_exp - подписывайтесь) ну если ты закроешь от индексации несуществующую страницу, то хуже не станет. она же не существует и следовательно индексировать и так нечего)

  • А можете посмотреть мой сайт, и посоветовать, что-то по оптимизации? Интересна точка зрения со стороны.

    • ну напишите на мыло. оно в контактах есть

  • Спасибо за информацию!!! Готовая инструкция по созданию и установке robots.txt. Это мне точно не помешает, попробуем поэксперементировать…

  • А можно вопрос, изменил роботс случайно поставил неправильный параметр, вылетели все страницы из яндекса, осталась 1 страница, а сколько понадобиться чтобы все страницы вернулись, а то уже 4 дня все также 1 страница, хоть и теперь все правильно.

    • вернется с выдачей. скорее всего уже вернулось)

  • возвращаются только новые страницы, 3 создал, три проиндексировались, а старые пока нет, но жду.

    • вернуться. в любом случае, ну если уник конечн

  • А host он только для Яндекса надо? Я просто не особо в курсе, но вроде по этому файлику выглядит будто для яндекса лишь

    • да гугль тоже эту директиву прочитает. но гугл очень долго обновляет изменения связанные с робот.тхт, иногда полгода может занимать.

      • Мне не критично по времени. Просто хотел разобраться что к чему

        • ну если будут ещё вопросы, то заходите. а ещё лучше - подписывайтесь

          • Уже :)

          • ну и хорошо :)

  • если я зменю Host: на свой ну и соответственно url к каре сайта и вставлю в свой robots.txt то все будет оке?? он уже настроен?))

  • Доброго времени суток! У меня такой вопрос: задалась целью разобраться с этим роботсом, создла, залила в корень и резко упала посещалка, хз с этим связано или нет, но резкий скачек вниз насторожил, как быть, убрать роботса или потерпеть и все наладится, а может тупо разрешить все к индексации, т.к. жил сайт до этого год, все нормально было, а тут на тебе! :-(

    • ну видимо дублирующие страницы собирали трафик, а сейчас они выпали из индекса. если сайт прекрасно жил, то можно и разрешить

  • Вроде нужно показать три вида карты сайта

    • нужно? нет не нужно. скорее можно сделать на "всякий случай", но я не вижу в этом смысла, так как в каждом сайтмапе есть ссылка на другой сайтмап

  • в принципе не плохо, нго вот многие рекомендуют в роботсе прописывать сайтмап, в комментах также поднимался данный вопрорс, считаю что лишним не будет

    • ну пропишите, хуже не станет. а вообще у меня прописана хмл версия.

  • Вадим, долго пыталась разобраться что к чему. Выяснила куда загружать роботс. Сам роботс тупо скопировала с предложенного вами, поменяла домен. Убрала Sitemap: http://вашсайт.ру/sitemap.xml - не понимаю, почему карту сайта не нужно чтоб поисковик смотрел? или вернуть эту строчку на место? И еще: у меня в комментариях ссылка комментатора (когда пишешь имя, как здесь irina-se) открыта а не нофоллу. А хотелось бы ее закрыть. При этом сам текст комментариев вроде как контент уникальный, он будет открыт или нет в предложенном роботс? Очень нужно ваше мнение, можете посмотреть пожалуйста? User-agent: Yandex Allow: /wp-content/uploads/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /category Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Host: irina-se.com User-agent: * Allow: /wp-content/uploads/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /category Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?s= надеюсь на помощь

  • Вадим, ответ получила, странно что письмо ушло в спам, надеюсь это ошибка. Большое-большое спасибо!

  • А в чем смысл дублирования инструкций отдельно для Яндекса? Ведь User-agent: * применяется и к нему тоже. Яндекс.Помощь гласит: В самом robots.txt проверяется наличие записей, начинающихся с 'User-agent:', в них ищутся подстроки 'Yandex', либо '*' (регистр значения не имеет). […] #Пример корректно составленного robots.txt, при обработке #которого директива Host учитывается User-Agent: * Disallow: Host: www.myhost.ru

    • ну это же яндекс. он неадекватен. поэтому для него прописывают отдельную дерективу. можете проверить мой robots.txt у яндекса. он верен

      • А в чем конкретно он неадекватен и почему? Поясните, пожалуйста. Весь рунет завален одинаковыми примерами вроде вашего с дублированием для Яндекса, при этом никто не пишет (или не понимает) почему нужно делать именно так. Откуда это пошло, откуда информация о неадекватности? Яндекс сам в своем собственном разделе «Помощь» приводит примеры правильного robots.txt без User-agent: Yandex.

        • потому что раньше яндекс требовал "особую" дерективу. сейчас это уже не так обязательно, но все равно используется.

  • А у меня нет robots.txt. Зачем захламлять и путать роботов. Они и так не будут ходить по техническим директориям. На них нет ссылок. Плагин xml sitemap строит виртуальный robots.txt. Там всего 3 строчки и по оценке Яндекса он без ошибок.

    • ну конечно он будет без ошибок. а что насчет дублей?

  • Спасиб за пост, поставил себе этот robots.txt и теперь не парюсь насчет него)))

  • Огромное спасибо за правильный файл, я давно искал, что-то подобное.

  • Интересно а почему Вы Disallow: /page/ не добавили?

  • По-моему список раздут слишком, можно без проблем куда меньшим обойтись,а результат тот же. Хотя не помешает никогда все добавить, это понятно.

    • да ну он же не нагружает сервак. почему бы и не закрыть вообще все лишнее?

  • Спасибо за статью! Долго не могла настроить robots.txt, а здесь все очень понятно написано!

  • Вадим, а плагин All in one seo разве не решает проблему дуюлирования? И я не пойму, виртуальный роботс, который делает sitemap это не тот, который надо? Я в корне не нашла роботс - я так понимаю надо его все равно делать?

    • нет не решает, он лишь упрощает прописывание метатегов. какой виртуальный роботс? если вы про про плагин, который делает Sitemap, то к robots.txt он не имеет никакого отношения

  • Писала писала, а тут абракадабра вышла. Вадим, папка public_html в FTP - в нее надо файл кидать И еще вопрос - плагин all in one seo не решает полностью проблемы дублирования контента? И что такое виртуальный роботс - не подскажите? когда я ввожу в командную строку браузера свой сайт/robots.txt - он открывается и я виду вот это: User-agent: * Disallow: Sitemap: http://hobby-terra.ru/sitemap.xml.gz Это что значит?

    • это значит что он есть, но никаких директив нем не прописано. лишь указана карта сайта

  • Спасибо, я только настраиваю свой блог. Данный файлик очень пригодился!

  • А я вот поставил такое Disallow: /category, уже много раз происходила переиндексация яндексом, но все равно индексируются категории к примеру _http://адрес-блога/cms, что посоветуете?

  • Народ разбирающийся в roobot.txt скажите как боту сказать, чтобы он вернулся на сайт через определенное время, слышал что такое можно сделать, но не знаю как =(

    • Я что то не слышал о таком никогда. Бот приходит сам, когда ему нужно.

  • А мне вот что яндекс написал после использования вышеприведенного кода "наш робот получил полный запрет на индексирование сайта в Вашем файле robots.txt. Пожалуйста, воспользуйтесь формой проверки. Если запрет все еще присутствует, то по вопросу устранения этой проблемы Вам нужно обратиться к администратору Вашего сайта или хостеру.Если сейчас запрет отсутствует, то сообщение обновится в течение 2–3 дней."

    • у меня такой robots.txt, и все индексируется. не вводите людей в заблуждение

      • пишу то что мне написал яндекс мне то какой резон придумывать.. ??

  • Я новенький в создании сайтов и сделал robots как Вы написали! Вот вопрос, это нормально, что Яндекс пишет исключено роботом 485, с них: Документ запрещен в файле robots.txt - 399 и Документ содержит мета-тег noindex - 85. А в Гугл: Заблокирован файлом robots.txt - 306. И с каждым сканированием роботов постоянно увеличиваются ошибки. Это так и должно или я что то не так доделал???

    • НУ сайт с каждым днем обновляется , и новые страницы попадают в закрытые от индексации разделы. это нормально.

      • спасибо за помощь!!!

  • Спасибо за статью))) очень была полезна возьму на вооружение))) Вы не могли бы скинуть ссылку как сделать такие кнопи соц. ситей))) Буду очень благодарен))))

  • Админ, мне тебя жалко ), столько комментаторов ппц. А так за инфу спс.

  • Спасибо за robots, все поставил работает отлично)

  • Вопрос, категории стоят в ноиндех, фолоу. В робот тхт- закрыты от индексирования. В выдачи гугла -появляются категории, но не появляются ссылки на страницы. И еще вопрос. Кто сталкивался с таким. На сайте 100 отдельнрых сообщений блога. и 6 страниц. Страницы индексируются хорошо, посты -сообщения- нет. Бинг и яху, берет только страницы. Куда смотреть что копать

  • Привет Вопрос поповоду /tag/ и /catalog - обязательно ли их включать туды? P.S у Шакина и Терехова тэги и каталогы не запрещены к индексу :)

    • нет не обязательно. но я решил что они мне не нужны. Терехов и Шакин для меня не икона.

  • Спасибо, исправила роботс на ваш вариант.

  • Ну по количеству комментов я уже понял что народ оценил роботс.тхт автора блога достойным. Длинноватый правдо, но зато в деталях указывает ботам что и куда. Спасибо

  • Disallow: /tag Disallow: /category Disallow: /archive А это как понимать скажете? У меня сайты поисковики именно по тегам индексируют и также и в поисковой выдаче по теговому урлу. Думаю здесь автор немного перестарался.

    • все это дубли контента, включая тэги. я лично считаю что они не нужны. лишь трафик на тэги не самый лучший вариант с точки зрения интереса пользователя и поведенческого фактора, как следствие.

      • по-моему если пользователь пришел с поисковика на страницу тега, то он обязательно кликнет на какую-то статью из списка, поэтому поведенческие в норме

  • А page нужна закрывать или нет?

  • А я закрываю) Вот только категории оставляю..)

  • Директивы Allow не существует, автор.

  • Очень интересно! Если сайт wordpress не в корне, например "http://сайт.com/папка", но сделано так что при переходе на "http://сайт.com" - открывается именно этот адрес без отображения /папка. Но на самом деле wordpress находится в "папка".. Вопрос; robots.txt бросать в "http://сайт.com/папка" или просто в "http://сайт.com/" и тогда дописывать в файле User-agent: * Disallow: /wp-admin --> менять --> Disallow: папка/wp-admin ??? И куда бросать sitemap.xml ??

    • нет ну robots.txt должен быть в корне сайта. ну а дальше прописывайте в зависимости от чпу

      • 40 тиц это не самый великий результат) да вложения в тиц быстро окупаются.

        • Интересный у вас сайт, спасибо) Подскажите, пожалуйста, по поводу ТИЦ: если тематических ссылок нет или почти нет - помогут ли не тематические с других регионов? Заранее спасибо за ответ

          • нет, на то он и тематический индекс цитирования. смежная тематика подойдет

  • Советую всем так-же закрывать блоги от Веб-Архива! Есть проги, которые парсят сайт до мелочей с ВебАрхива!

    • ну и что? :) первоисточник, как правило, ранжируется лучше.

  • Срочно нужна помощь, может кто сталкивался а если нет, то будет полезно узнать вдруг будет та же трабла. В яндекс вебмастере пишет такую хрень "Загружено роботом 223 Исключено роботом 137" далее переходим Исключено роботом: Документ запрещен в файле robots.txt? (Файл robots.txt содержит директиву, запрещающую роботу Яндекса индексирование этого документа. Чтобы робот мог проиндексировать документ, удалите запрещающую директиву. Проверить, какие страницы сайта запрещены для индексирования, вы можете в разделе) 114 как такое может быть? у меня стандартный робот тхк, снес его нафик неделю назад, может все вернуться оброатно? ну что бы яндекс исключенные страницы снова начал индексировать? те исключенные страницы архивы записей. Факт в том что брал подобный роботс для вордпреса и залил его к себе, межет лучше без роботса уж?

    • в роботсе закрывают дубли контента. и то что они запрещены к индексации, это нормально. архивы это как раз таки дубли, и лучше их закрывать.

  • так чего у меня почти все страницы запрещены к индексации? ведь большая часть их находится как раз в архивах

  • Доброго времени суток! Подскажите пожалуйста как провильно закрыть такие архивные страницы /2012/01/08/ пример т.е. начинается с года и там далее месяц число я сделал так Disallow: /2012/ Disallow: /2011/ Disallow: /2010/ Disallow: /2009/ Disallow: /2008/ Disallow: /2007/ Disallow: /2006/ закроют ли они от индексации например такие страницы как /2012/10/05/ и т.д.

  • Замените даты звездочками: 20**/

    • Здравствуйте. Скажите пожалуйста, а если у меня нет на сайте папок 2009, 2010 и т.д., но есть публикации в прошлом году, то тоже нужно их закрывать? А как же они будут индексироваться? или не надо закрывать?

  • Привет! Хороший блог! Вопрос у меня конкретный: нужна ли данная строчка Disallow: /page/ в robots.txt блог на wp

  • Помогите пожалуйста решить проблему. Суть такова: Раньше стандартный робот стоял Яндекс проиндексировал всего 1 страницу, а Гугл индексировал их без описания и названия, Заменил на другой робот, Яндекс все так же проиндексировал только 1 страницу, Гцгл проиндексировал последнию запись в блоге с описанием, но без названия страницы. Хотелось бы все это исправить, чтобы Яндекс начал индексировать все страницы и Гугл индексировал с описание и название страницы. Вот мой робот: User-agent: * Allow: /wp-content/uploads/ Disallow: /cgi-bin Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /wp-content/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /comments Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: */comment-page* Disallow: /tag Allow: / Sitemap: http://3soul.ru/sitemap.xml User-agent: Yandex Allow: /wp-content/uploads/ Disallow: /cgi-bin Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /wp-content/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /comments Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: */comment-page* Disallow: /tag Allow: / Host: 3soul.ru Sitemap: http://3soul.ru/sitemap.xml.gz Sitemap: http://3soul.ru/sitemap.xml

  • Решила проверить свой robots.txt Получилось, что все разрешено к индексации. Решила проверить с других сайтов, вставила ваш в вебмастер яндекс и выставила перечень ссылок с сайта. И результат получился следующий. Запрещаются /tag и /category Подскажите, какие причины могут приводить к такому результату. На сайте стоит плагин Google XML Sitemaps

  • в панели яндекс вебмастера вполне могут быть видны и быть "проиндексированы" запрещенные урлы. главное, чтобы их в поиске не было.

  • Как по мне закрывать категории не лучшее решение.

  • Я уже устал подстраивать robots.txt, посмотрите правильно ли сейчас настроенно : http://wordpress-go.ru/robots.txt ? Постоянные дубли в гугле. Страницы с окончанием : feed,аттачмент. Устал такие страницы удалять вручную из вебмастера гугла. На дисалоу он не реагирует вообще

    • Гугл вообще мало на что реагирует. Игнорирует многие директивы, но и за дубли особо не наказывает.

  • Вот этого и искал, мне нужно было правильно настроить роботс файл. пол дня потерял пока нашел нормальный вариант, ато многие выкладывают бред какойто. А тут все что нужно.

  • Сегодня занимался роботсом на одном из сайтов. Сайт работает по пп, на непонятной для меня cms, я в основном делаю сайты на вордпрессе и не программист по специальности, а слесарь. Натыркался я с этим роботсом и наслушался советчиков. В итоге стоял роботс, где уверяли в нормальной индексации сайта и закрытии не нужных файлов. Итог за 10 месяцев не проиндексировано ничего, кроме главной. В итоге снес роботс с хостинга. Будет ли сайт норvально индексироваться вообще без robots?

    • будет, но и все технические страницы (включая дубли) залезут в индекс. Может быть проблема была не в роботсе, а в неуникальном контенте?

  • Зачем у вас в роботсе повторяются строки? Это же неправильно Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/

  • */означает любое до Следовательно любое что заканчивается на */comments/.

  • Ваш коментарий: