robots.txt для wordpress
У меня есть пару друзей которые тоже ведут автономные блоги на WordPress.
И тоже начали не так давно.
Ну я вот вчера ночью сидел и анализировал их внутреннюю оптимизацию.
И пришел к выводу что некоторым из них нужна помощь)
Точнее не помощь а пару советов.
Ранее я уже рассказывал как настроить rss и что потом с этим rss делать.
Теперь пришло видимо время рассмотреть файл robots.txt
И так.
файл robots.txt ( он кстати лежит в корне сайта ) нужен для создание «инструкций» поисковым роботам.
Если уж совсем по простому, то он объясняет поисковикам что можно индексировать а что нет.
Это ускоряет индексацию, помогает избежать дублирование контента и не забивает поисковики «ненужным хламом» который они так не любят.
Конфигураций конечно может быть много.
Но я считаю что для WordPress подходит примерно следующая.
******
User-agent: Yandex Allow: /wp-content/uploads/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /category Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Host: указываете ваш основной домен, с www он или без ( к примеру delexp.net ) User-agent: * Allow: /wp-content/uploads/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /category Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Sitemap: http://вашсайт.ру/sitemap.xml
* я использую именно такой пример конфига. можете проверить http://delexp.net/robots.txt *
* эта версия конфига была выявлена экспериментальным путем – читать здесь и здесь
просто создаете файл robots.txt копируете туда изложеное выше и кидаете в корневик блога.
все счастливы.
Полезная запись? Тогда жми:




угу, а еще я закрыл вообще доступ некоторым ботам, ибо не фиг грузить сервер. А Yahoo имеет самого №%№% бота который приводит к чрезмерным нагрузкам на проц. А самое главное ни каких входов с их №;%:%? поисковика нет.
Ответить
я кстати понял как можно увеличить количество рсс подписчиков.
точнее понял как ты предлагал их «накрутить».
вставить рсс в жж да?
а это трафик даст?
а то мне ударными темпами надо посещаемость поднимать.
Ответить
а подскажи пж что ты понял? ))) для меня оч актуально
Ответить
ну у нас там своя жж тема есть)
но мы ей не пользуемся..
как высянилось мертвые подписчики никому не нужны
Ответить
Я тупое блондинко
не знаю, как вставить этот файл в корень блога )
Ответить
ну ты как плагины туда заливала?
вот так же. только прям в основную папку блога ( примерно так /www/ani-sanni.com/сюда )
Ответить
А конкретней можно? Вот открываю я коммандер, запускаю ftp-соединение…и что дальше? Там тьма папок, в каждой из них – еще по тьме…
Ответить
ну у каждого хостинга по своему.
у меня к примеру в папке www все мои сайты хранятся
Ответить
У меня таких папок, оказывается, две – www и WWW. Вроде обе оинаковые. Но файла роботс в корневом каталоге у обеих нет…Или ее создть надо мне самой?
Ответить
ну ествественно.
он же из воздуха не появится)
Ответить
да, что-то на подобии этого
Ответить
спасибо. как раз то, что я искал
Ответить
Сори за тупой вопрос, но звездочки копировать?
А то мало ли
Я в этих ШТМЛях ничего не понимаю, вдруг оно без звездочек не прочитает
Ответить
последние которые?
их не надо.
остальное все надо
надо обзор на твой блог сделать чтоли)
а то ты у меня самый топовый комментатор
Ответить
Ой ё ёй.. мне еще такое рано
Ответить
это надо было в самом начале делать)
Ответить
вот помощь мне точно не помешает
Ответить
ну так давайте)
Ответить
Ни чего не поняла. Где и что создавать, где искать корневую папку. А можно написать инструкцию для полнейших чайников? Я даже в терминолигии не разбираюсь.
Ответить
ну стукни в аську если хочешь.
помогу чем смогу
Ответить
Кстати, не получаю ответы на свои коменты. Ответ вижу только, когда захожу сюда.
А скайп есть? Я в скайпе – kladez_zolota
Ответить
скайп не использую в этих целях.
Ответить
И есть вопрос, как сделать, чтобы приятать некоторые ссылки от поисковиков.
Ответить
Атрибут rel=»nofollow» используется при формировании кода ссылки:
текст ссылки
Ответить
Прости за мою тупость, а куда вставляется этот атрибут7
Ответить
создаешь файл robots.txt вписываешь в него все что я указал.
и суешь в ту папку, где у тебя хранится блог.
прямо в корень
Ответить
Спасибо! Но к сожалению я ни чего не поняла.
Ответить
Аська есть у тебя или нет?
Ответить
аськи нет
Ответить
очень зря
Ответить
Приветствую всех не подскажете где найти файл хмл? у карты сайта Sitemap: http://адресвашегомапа.ру/сайтмап.хмл вот тут?
Ответить
ну вначале его нужно создать.
для этого используйте плагин.. подробнее тут – http://delexp.net/wordpress-plaginy/
Ответить
я это видал =) как я понял оттуда надо взять Google XML Sitemaps этот плагин мне же надо эту карту для robots.txt
Dagon Design Sitemap Generator- этот у меня уже стоит . Вообщем непонял я
Ответить
ну.
создай плагином xml карту..
она появится у тебя по следующему пути http://mirkartofana.ru/sitemap.xml
вот его и вставишь в роботс.тхт
Ответить
Большое спасибо. Щас закинул робота. вот только вопрос файл трекбэк случайно не нужно дописывать .php ?
Ответить
да нет в принципе
Ответить
Очень пригодилось, первый раз столкнулся, помогло.
Ответить
спасибо, отличный пост + готовая инструкция
Ответить
пожалуйста)
Ответить
Да не совсем готовая. Правила-то надо учитывать:
Недопустимо наличие пустых переводов строки между директивами ‘User-agent’ и ‘Disallow’ (‘Allow’), а также между самими ‘Disallow’ (‘Allow’) директивами. Кроме того, в соответствии со стандартом перед каждой директивой ‘User-agent’ рекомендуется вставлять пустой перевод строки.
Почему у вас в файле robots.txt все сплошняком идет?
Ответить
а не могли бы вы источник дать… где об этом подробно почитать…
Ответить
а зачем создавать лишние сложности и забивать головы людей, если и так все работает?
http://i005.radikal.ru/1101/03/6caf1abd6311.jpg
Ответить
кстати по поводу последней строки – Sitemap: http://адресвашегомапа.ру/сайтмап.хмл
если у меня стоит плагин google-sitemap-generator то эту строку все равно добавлять?
они никак не пересекаются?
Ответить
ну этот плагин делает карту сайта которую надо указать в роботс.тхт.. они работают в паре
Ответить
Вадик, а у меня есть эта вещь в блоге?? Нужна она мне??? Я вернула антиспам, у меня блогировало 2800 ссобщений, атака бла что ли на мой сайт??
Ответить
нет просто спамеры.
их много)
http://www.domitalia.ru/robots.txt
Ответить
А такое роботс нормальный:
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /xmlrpc.php
Disallow: /wp-content/uploads
Disallow: /wp-content/themes
Disallow: /trackback/
Disallow: /tag/
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /*?*
Disallow: /?feed=
Disallow: /?s=
Sitemap: http://times.fireg.ru/sitemap.xml.gz
Sitemap: http://times.fireg.ru/sitemap.xml
User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /xmlrpc.php
Disallow: /wp-content/uploads
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback/
Disallow: /tag/
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /?feed=
Disallow: /*?*
Disallow: /?s=
Host: times.fireg.ru
Можете подсказать пожалуйста.
Ответить
уберите Sitemap: http://times.fireg.ru/sitemap.xml.gz
ну и в принципе нормальный, только лишнего много.
Ответить
А можно вопрос, почему убрать http://times.fireg.ru/sitemap.xml.gz и что лишнее можете подсказать пожалуйста.
Ответить
а зачем оно вам там? у вас же там прописан .xml
ну оно не лишнее, но в некоторых я не вижу смысла.
но хуже оно не сделает)
скоро будет небольшой эксперимент с robots.txt..
можете подписаться и почитать.
Ответить
А если путь указанный в роботс, на самом деле в сайте отсутствует, он хуже не сделает? Или в этом случае поисковикам все равно на такие моменты?
Да подпишусь, только ссылку дайти) А то до конца февраля в планах разобраться с роботс.
Ответить
http://feeds.feedburner.com/delexp/del_exp – подписывайтесь)
ну если ты закроешь от индексации несуществующую страницу, то хуже не станет.
она же не существует и следовательно индексировать и так нечего)
Ответить
А можете посмотреть мой сайт, и посоветовать, что-то по оптимизации? Интересна точка зрения со стороны.
Ответить
ну напишите на мыло.
оно в контактах есть
Ответить
Спасибо за информацию!!!
Готовая инструкция по созданию и установке robots.txt.
Это мне точно не помешает, попробуем поэксперементировать…
Ответить
пожалуйста.
заглядывайте ещё)
Ответить
А можно вопрос, изменил роботс случайно поставил неправильный параметр, вылетели все страницы из яндекса, осталась 1 страница, а сколько понадобиться чтобы все страницы вернулись, а то уже 4 дня все также 1 страница, хоть и теперь все правильно.
Ответить
вернется с выдачей.
скорее всего уже вернулось)
Ответить
возвращаются только новые страницы, 3 создал, три проиндексировались, а старые пока нет, но жду.
Ответить
вернуться.
в любом случае, ну если уник конечн
Ответить
А host он только для Яндекса надо? Я просто не особо в курсе, но вроде по этому файлику выглядит будто для яндекса лишь
Ответить
да гугль тоже эту директиву прочитает.
но гугл очень долго обновляет изменения связанные с робот.тхт, иногда полгода может занимать.
Ответить
Мне не критично по времени. Просто хотел разобраться что к чему
Ответить
ну если будут ещё вопросы, то заходите.
а ещё лучше – подписывайтесь
Ответить
Уже
Ответить
ну и хорошо
Ответить
если я зменю Host: на свой ну и соответственно url к каре сайта и вставлю в свой robots.txt то все будет оке?? он уже настроен?))
Ответить
Да.
именно так
Ответить
Доброго времени суток!
У меня такой вопрос: задалась целью разобраться с этим роботсом, создла, залила в корень и резко упала посещалка, хз с этим связано или нет, но резкий скачек вниз насторожил, как быть, убрать роботса или потерпеть и все наладится, а может тупо разрешить все к индексации, т.к. жил сайт до этого год, все нормально было, а тут на тебе!
Ответить
ну видимо дублирующие страницы собирали трафик, а сейчас они выпали из индекса.
если сайт прекрасно жил, то можно и разрешить
Ответить
Вроде нужно показать три вида карты сайта
Ответить
нужно?
нет не нужно.
скорее можно сделать на «всякий случай», но я не вижу в этом смысла, так как в каждом сайтмапе есть ссылка на другой сайтмап
Ответить
в принципе не плохо, нго вот многие рекомендуют в роботсе прописывать сайтмап, в комментах также поднимался данный вопрорс, считаю что лишним не будет
Ответить
ну пропишите, хуже не станет.
а вообще у меня прописана хмл версия.
Ответить
Вадим, долго пыталась разобраться что к чему. Выяснила куда загружать роботс.
Сам роботс тупо скопировала с предложенного вами, поменяла домен.
Убрала Sitemap: http://вашсайт.ру/sitemap.xml – не понимаю, почему карту сайта не нужно чтоб поисковик смотрел? или вернуть эту строчку на место?
И еще: у меня в комментариях ссылка комментатора (когда пишешь имя, как здесь irina-se) открыта а не нофоллу. А хотелось бы ее закрыть. При этом сам текст комментариев вроде как контент уникальный, он будет открыт или нет в предложенном роботс?
Очень нужно ваше мнение, можете посмотреть пожалуйста?
User-agent: Yandex
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Host: irina-se.com
User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
надеюсь на помощь
Ответить
ну я видел ваше письмо в спаме
Ответить
но карту вы зря убрали)
Ответить
раз вы говорите что зря, значит не буду убирать ))
еще раз – спасибо!
Ответить
Вадим, ответ получила, странно что письмо ушло в спам, надеюсь это ошибка.
Большое-большое спасибо!
Ответить
А в чем смысл дублирования инструкций отдельно для Яндекса? Ведь User-agent: * применяется и к нему тоже. Яндекс.Помощь гласит:
В самом robots.txt проверяется наличие записей, начинающихся с ‘User-agent:’, в них ищутся подстроки ‘Yandex’, либо ‘*’ (регистр значения не имеет).
[…]
#Пример корректно составленного robots.txt, при обработке
#которого директива Host учитывается
User-Agent: *
Disallow:
Host: http://www.myhost.ru
Ответить
ну это же яндекс.
он неадекватен.
поэтому для него прописывают отдельную дерективу.
можете проверить мой robots.txt у яндекса. он верен
Ответить
А в чем конкретно он неадекватен и почему? Поясните, пожалуйста. Весь рунет завален одинаковыми примерами вроде вашего с дублированием для Яндекса, при этом никто не пишет (или не понимает) почему нужно делать именно так. Откуда это пошло, откуда информация о неадекватности? Яндекс сам в своем собственном разделе «Помощь» приводит примеры правильного robots.txt без User-agent: Yandex.
Ответить
потому что раньше яндекс требовал «особую» дерективу.
сейчас это уже не так обязательно, но все равно используется.
Ответить
А у меня нет robots.txt. Зачем захламлять и путать роботов. Они и так не будут ходить по техническим директориям. На них нет ссылок. Плагин xml sitemap строит виртуальный robots.txt. Там всего 3 строчки и по оценке Яндекса он без ошибок.
Ответить
ну конечно он будет без ошибок.
а что насчет дублей?
Ответить
Спасиб за пост, поставил себе этот robots.txt и теперь не парюсь насчет него)))
Ответить
рад что был полезен)
Ответить
Огромное спасибо за правильный файл, я давно искал, что-то подобное.
Ответить
Интересно а почему Вы Disallow: /page/ не добавили?
Ответить
По-моему список раздут слишком, можно без проблем куда меньшим обойтись,а результат тот же. Хотя не помешает никогда все добавить, это понятно.
Ответить
да ну он же не нагружает сервак.
почему бы и не закрыть вообще все лишнее?
Ответить
Спасибо за статью! Долго не могла настроить robots.txt, а здесь все очень понятно написано!
Ответить
Вадим, а плагин All in one seo разве не решает проблему дуюлирования?
И я не пойму, виртуальный роботс, который делает sitemap это не тот, который надо? Я в корне не нашла роботс – я так понимаю надо его все равно делать?
Ответить
нет не решает, он лишь упрощает прописывание метатегов.
какой виртуальный роботс?
если вы про про плагин, который делает Sitemap, то к robots.txt он не имеет никакого отношения
Ответить
Писала писала, а тут абракадабра вышла.
Вадим, папка public_html в FTP – в нее надо файл кидать
И еще вопрос – плагин all in one seo не решает полностью проблемы дублирования контента?
И что такое виртуальный роботс – не подскажите? когда я ввожу в командную строку браузера свой сайт/robots.txt – он открывается и я виду вот это:
User-agent: *
Disallow:
Sitemap: http://hobby-terra.ru/sitemap.xml.gz
Это что значит?
Ответить
это значит что он есть, но никаких директив нем не прописано.
лишь указана карта сайта
Ответить
Спасибо, я только настраиваю свой блог. Данный файлик очень пригодился!
Ответить