Заказ обратного звонка

Оставьте свой телефон и мы перезвоним в удобное для вас время!

Заказ обратного звонка

Ваш заявка принята. Ожидайте звонка.

robots.txt для joomla 1.5 / Правильный robots.txt

 

С начала начнём с того что такое robots.txt:

Файл robots.txt - один из самых важных файлов в техническом обеспечении вашего сайта, и от него будет зависеть дальнейшая судьба вашего сайта в мире, где рулят поисковые машины.

Что такое robots.txt? - это технический файл, который размещен в корневой папке вашего сайта. Его предназначение: - описание исключений для поисковых роботов, т.е. указание какие страницы, файлы не индексировать.

Подробнее: в тот момент, когда бот с поисковых систем входит на ваш сайт, то в первую очередь он ищет  robots.txt  и если он присутствует, то робот анализирует его и приступает к индексации согласно правилам указанных в файле robots.txt.

Важно знать:

  • файл robots.txt и его правила исключения используют только «культурные» роботы, а наряду с ними существует целая армия ботов, которые игнорируют правила исключений или вообще проходят мимо файла robots.txt на сайте

Из чего состоит файл:

User-agent: *
Disallow:

  • User-agent - эта директива указывает имя поискового бота, к которому применяются правила исключений на сайте.
  • User-agent может несколько раз прописываться с правилами для определенных ботов, в этом случае правила, будут применяться для указанных роботов.
  • Disallow - директива, прописывает полный или частичный путь к файлу, статье на сайте, посещение которого запрещено для робота.
  • Одно правило - одно Disallow. Пустое Disallow разрешает ботам индексировать весь сайт.
  • # - комментарии, пишутся только на новой строке

Примеры:

  • Если вы желаете чтоб весь сайт полностью сканировался, индексировался поисковиками, то можно удалить вообще файл  robots.txt  из корневой папки сайта или же создать пустой файл или прописать следующее:

User-agent: *
Disallow:

  • Если вы желаете запретить весь сайт к индексации, то пропишите следующее:

User-agent: *
Disallow: /

  • Если вы желаете запретить индексацию определенному боту, например Яндексу, то пропишите следующее:

User-agent: Yandex
Disallow: /

  • Если вы желаете задать указание для нескольких  ботов, то прописывайте для каждого свой User-agent и обязательно должно присутствовать хотя бы одна Disallow

User-agent: Aport
Disallow: /gif/
User-agent: Googlebot
Disallow: /gif/
# запрещает ботам Aport и Googlebot индексировать все файлы формата gif

Символы директив:

* – любой набор символов
$ – конец строки
# – комментарий

В принципе в стандартной сборке Joomla имеется файл robots.txt  и вполне удовлетворительный, после небольших доработак его можно использовать.

Стандартный robots.txt  для Joomla

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

Добавляем:

Host:

Что такое Host? - это директива  является корректной только для робота Яндекса. подробнее
Директива Host поясняет поисковому роботу какой сайт является основным, а какой зеркалом .

  • Директива host пишется отдельной строкой и без  http:// и без закрывающего слеша /

User-agent: Yandex
Host: www.ваш сайт.ru
# пишете с www или без, вносите основной сайт

  • У Яндекса существует индексация изображений, так что на ваше усмотрение можете подкорректировать следующую строку:

Disallow: /images/
# удаляете, если желаете чтоб ваши изображения индексировались Яндексом
# или оставляете, для запрета индексации всех изображений

  • если у вас установлен компонент "карта сайта", то обязательно надо прописать в robots.txt  ссылку на Sitemap

Sitemap: http://ваш сайт.ru/ссылка карты сайта=xml
# посмотреть ссылку для поисковых роботов можно в компоненте "карта сайта", там будет их две - одна с поддержкой стилей CSS и она нужна для просмотра пользователям, а другая предназначена для ботов, вот ее и скопируйте и вставьте сюда.

  • если вы используете у себя на сайте поддержку SEO,  то Joomla  автоматически создает два вида ссылок на ваши страницы, что есть не очень хорошо. Вот для того, чтоб боты не индексировали не seo ссылки прописываем следующее:

Disallow: /index.php?*

  • или можно использовать это, для борьбы с дубликатами страниц

Disallow: /index2.php

  • величина задержки в секундах перед индексированием страницы, необходимо для медленных серверов. Директива Crawl-delay позволяет указать индексирующему роботу минимальный интервал времени (в секундах) между запросами на индексирование страниц. Не все роботы поддерживают ее, стоит указывать для Яндекса.

Crawl-delay: n - вместо n указываем время в секундах

Примеры использования директивы Crawl-delay:


User-agent: Yandex
Crawl-delay: 3 # задает таймаут в 3 секунды

  • многие боты индексируют файлы PDF, что не есть хорошо. Так вот, что бы запретить PDF файлы, то прописываем следующее:


Disallow: *.pdf$

  • В Joomla существуют страницы для печати, так вот их надо убрать - запрет индексации переменной, например, страниц для печати

Disallow: /name.php?action=print

  • запрещаем индексацию новостных каналов

Disallow: /*rss.html
Disallow: /*atom.html

  • запрет индексации динамических ссылок

Disallow: /*?sl*

  • исключаем страницы "Отправить на e-mail"

Disallow: /index2.php?option=com_content&task=emailform

  • запрещаем индексацию трекбеков

Disallow: /trackback

  • для западных ботов:

Request-rate: 1/5

# загружать не более одной страницы за пять секунд
Visit-time: 0600-0845

# загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу

 

Что нам эти все манипуляции в итоге дадут? - вы же  обращали внимание на то, что при заходе в статистику Яндекс, а там такая вот информация о ваших страницах: Загружено роботом 490 страниц - Исключено роботом 165 страниц, хотя при этом у вас всего написано 50... сразу возникает вопрос, откуда Яндекс наидексировал столько страниц?

ответ прост, - робот нашел страницы, которые вовсе не нужно было индексировать - это скрипты, динамические страницы, страницы с не поддерживаемым стандартом данных – RSS, Atom, Trackbak, возможно старые страницы и т.д. вообще весь не нужный мусор. Так вот после нашего вмешательства в стандартный файл robots.txt Joomla мы исключим весь этот мусор, что в итоге приведет к благосклонному отношению к нам поисковых систем.

Названия ботов Поисковых Систем для robots.txt:

  • Yandex – user-agent: Yandex;
  • Google – user-agent: Googlebot;
  • Rambler – user-agent: StackRambler;
  • Yahoo! – user-agent: Yahoo! Slurp;
  • MSN – User-agent: MSNbot;
  • Все боты – User-agent: *

После небольшой доработки, ваш robots.txt должен выглядеть так:

Внимание! - для Яндекса нужно писать отдельно User-agent: Yandex и все директивы дублировать!

Правильный robots.txt для Joomla (скопируйте и вставьте к себе или скачайте готовый файл robots.txt):

 

 

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/ Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /index2.php?option=com_content&task=emailform
Disallow: /*?sl*
Disallow: /name.php?action=print
Disallow: /trackback
Disallow: /*rss.html
Disallow: /*atom.html
Crawl-delay: 5

Host: ваш сайт.ru
Sitemap: http://ссылка на карту сайта=xml

# можно и не вставлять для Яндекса, т. к. из правил для всех роботов бот поймет, что делать User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/ Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /index2.php?option=com_content&task=emailform
Disallow: /*?sl*
Disallow: *.pdf$
Disallow: /name.php?action=print
Disallow: /trackback
Disallow: /*rss.html
Disallow: /*atom.html
Crawl-delay: 5

Host: ваш сайт.ru
Sitemap: http://ссылка на карту сайта=xml

 

не забудьте изменить директивы Host: и Sitemap: на свои!

Проверить файл robots.txt на работоспособность:

скопируйте ссылку, вставляете в адресную строку браузера, вместо имя_сайта.ru подставьте свой адрес сайта

http://webmaster.yandex.ru/robots.xml?host=www.имя_сайта.ru

 

Источниик: http://netshop24.ru/joomla-blogs/n-n-n-robotstxt.html