Расшифровка файла Robots.txt для uCoz и uWeb

Расшифровка файла Robots.txt для uCoz и uWeb

О чем материал ?

Сегодня мы рассмотрим материал: Расшифровка файла Robots.txt для uCoz и uWeb, в котором подробно рассмотрим какая директива и для чего предназначена и как можно улучшить роботс.

На данный момент в uCoz и uWeb robots.txt настроен так, чтобы запретить к индексации лишь необходимые страницы, точнее системные ненужные и страницы дубли, которые не должны отображаться в поиске. Соответственно, все остальное доступно к индексации, так как что не запрещено значит разрешено, хотя для робота Google нет слова запрещено с временем вы это поймете.

Отмечу, что некоторые индивидуумы, которые считают себя умнее всех не понимают зачем создан системный файл и запреты и разрешения, которые в нем прописаны, удаляют системный файл роботс и загружают свой, который как-то нашли в сети интернет, который не предназначен для Юкоз. 

У таких пользователей, а точнее на их сайтах с временем в поиске появляются тысячи системных страниц в поиске, которые там не должны быть, которые вредят посещаемости так как посетители при поиске вашего сайта видят такой мусор в поисковиках и проходят мимо.

Как выглядит системный файл Robots.txt ?

User-agent: *
Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.png
Allow: /*.gif
Allow: /*?page
Allow: /*?ref=
Disallow: /*?
Disallow: /stat/
Disallow: /index/1
Disallow: /index/3
Disallow: /register
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /index/sub/
Disallow: /panel/
Disallow: /admin/
Disallow: /informer/
Disallow: /secure/
Disallow: /poll/
Disallow: /search/
Disallow: /abnl/
Disallow: /*_escaped_fragment_=
Disallow: /*-*-*-*-987$
Disallow: /shop/order/
Disallow: /shop/printorder/
Disallow: /shop/checkout/
Disallow: /shop/user/
Disallow: /shop/search
Disallow: /*0-*-0-17$
Disallow: /*-0-0-

Sitemap: http://sitename.ucoz.ru/sitemap.xml
Sitemap: http://sitename.ucoz.ru/sitemap-forum.xml

Расшифровка Robots.txt

Описание каждой строки файла robots.txt для uCoz и uWeb: 

User-agent: *

общее обращение ко всем сканерам, читающим файл robots.txt

Allow: /*.js

Allow: /*.css

Allow: /*.jpg

Allow: /*.png

Allow: /*.gif  

Эти директивы разрешают индексирование скриптов, картинок, файлов стилей. нужны они для избежания ошибок заблокированные ресурсы на проверках эмуляторов

Allow: /*?page

Разрешение страниц пагинации на главных страницах модулей (связанно со строчкой Disallow: /*? )

Allow: /*?ref=

Нужна для правильной переиндексации компонентов социальной регистрации

Disallow: /*?

Запрет к индексации поисковых запросов, кода безопасности на uCoz, проксированных ссылок, компонентов рекламного баннера, дублей главной страницы и блога (компоненты кода системы, связанные с сессиями ssid), дубли ссылок на изображения в фотоальбомах, других мусорных компонентов системы

Disallow: /stat/

Запрет индексации компонента счетчика статистики (картинка с данными)

Disallow: /index/1

Техническая страница входа / авторизации

Disallow: /index/3

Запрет индексации страницы регистрации (локальная регистрация)

Disallow: /register

Запрет индексации страницы регистрации (социальная и uID регистрация)

Disallow: /index/5

Запрет к индексации аякс окна напоминания пароля в старой форме входа

Disallow: /index/7

Служебная страница выбора аватара из коллекции

Disallow: /index/8

Запрет к индексации профилей пользователей (один из способов защиты от спама)

Disallow: /index/9

Запрет индексации аякс окна Доступ запрещен

Disallow: /index/sub/

Запрет к индексации локальной авторизации (связано со старой формой входа)

Disallow: /panel/ 

Запрет к индексации входа в панель управления

Disallow: /admin/

Запрет к индексации входа в панель управления

Disallow: /informer/

Запрет к индексации информеров, вставленных скриптом (при этом содержимое информеров, вставленных системным кодом $MYINF_х$ будет индексироваться свободно)

Disallow: /secure/

Запрет на индексацию кода безопасности (связано со строчкой Disallow: /*?)

Disallow: /poll/

Запрет индексации служебной папки опросов

Disallow: /search/

Запрет индексации страницы поиска, тегов и поисковых запросов (связано со строчкой Disallow: /*?)

Disallow: /abnl/

Запрет индексации компонентов системного рекламного баннера (для сайтов с не отключенной рекламой)

Disallow: /*_escaped_fragment_=

Запрет технического компонента кода

Disallow: /*-*-*-*-987$

Запрет дублей страниц в модулях Новости и Блог, связанных с кодом комментариев на странице

Disallow: /shop/checkout/

Запрет к индексации корзины и кода оформления заказа для Интернет магазина

Disallow: /shop/user/

Запрет к индексации пользователей магазина (субагенты)

Disallow: /*0-*-0-17$

Запрет к индексации различных фильтров, страниц материалов пользователя, ссылки на последнее сообщение форума, дублей системы и т.д

Disallow: /*-0-0-

Запрет к индексации страниц добавления материалов, списков материалов пользователей, ленточного варианта форума (некоторые дублирующие URL), страниц со списком пользователей (некоторые дублирующие URL), поиска по форуму, правил форума, добавления тем на форуме, различные фильтры (с дублями), страницы с редиректами на залитые на сервер файлы

Sitemap: //адрес сайта/sitemap.xml

Общая карта сайта

Sitemap: //адрес сайта/sitemap-forum.xml

Карта форума (оставлять в файле, если активирован модуль форум)

Sitemap: //адрес сайта/sitemap-shop.xml

Карта магазина (прописывать только, если активирован модуль Интернет магазин)

Host: адрес сайта без https://

Прописывать, если прикреплен домен для определения главного зеркала. директива прописывается в любом месте robots, предназначена для Яндекса, при этом отдельное обращение к роботам Яндекса не нужно. Google игнорируется. На данный момент директива Host Яндексом перестала учитываться и прописывать её не надо.

От чего можно избавиться в файле Robots.txt ?

Если вы не используете модуль Интернет-магазин, с файла роботс можно удалить следующие директивы:

Disallow: /shop/order/
Disallow: /shop/printorder/
Disallow: /shop/checkout/
Disallow: /shop/user/
Disallow: /shop/search
Sitemap: //адрес сайта/sitemap-shop.xml

Если вы не используете модуль Форум, можно удалить карту сайта для форума:

Sitemap: //адрес сайта/sitemap-forum.xml

Что можно добавить, чтобы улучшить файл Robots.txt ?

Можно добавить в самом начале файла роботс перед всем содержимым директиву с доступом для мобильного робота гугла:

User-agent:Googlebot-Mobile
Allow: /

это позволит мобильному роботу без проблем сканировать ваш сайт.

С моих рекомендаций, после директив с доступом индексировать изображения сайта, стоит и добавить доступ к индексации шрифтов на сайте, чтобы роботы имели полный доступ к сайту и корректно его видели с шрифтами, которые на сайте подключены.

В роботс стоит добавить директивы:

Allow: /*.ttf
Allow: /*.woff
Allow: /*.woff2
Allow: /*.eot
Allow: /*.svg

это существенно улучшит отображение вашего сайта для поисковиков и они будут корректно видеть сайт с вашими шрифтами.

В дополнение, было замечено по отчетам с индексации яндекса, что робот посещает страницу регистрации и находит сгенерированные урл подобно /confirm/ и индексирует их. Для решения данной проблемы рекомендую в роботс добавить директиву:

Disallow: /confirm/

это сохранит ваш сайт от индексации мусора.

Для борьбы с дублями в модуле Интернет-магазин, в роботс можно добавить такие директы:

Disallow: /shop/*comm
Disallow: /shop/*spec
Disallow: /shop/*imgs
Disallow: /shop/all/
Disallow: /shop/*;

о том для чего и против каких дублей, можно прочесть в материале: Избавляемся от дублей в поиске Яндекс и Google.

На данном этапе мы закончим материал, если будут обновления, мы их добавим в статью. Всем спасибо!

Лицензия: CC BY-SA 4.0

Автор: Юрий Герук

Похожие материалы:
Помогла ли вам статья?
Да Нет
Статья оказалась полезной для 0 человек
avatar
Я еще RSS добавляю, не знаю насколько это помогает, добавил все какие знал
Allow: /publ/rssya
Allow: /blog/rssya
Allow: /news/rssya
Allow: /load/rssya
Allow: /publ/rss
Allow: /blog/rss
Allow: /news/rss
Allow: /load/rss
Allow: /publ/rssya_zen
Allow: /blog/rssya_zen
Allow: /news/rssya_zen
Allow: /load/rssya_zen
Allow: /publ/rssya_turbo
Allow: /blog/rssya_turbo
Allow: /news/rssya_turbo
Allow: /load/rssya_turbo
avatar
Добавлять нужно лишь тогда и лишь те рсс, когда вы используете этот рсс для турбо и для дзен, если этот функционал не используется, тогда захламлять роботс не нужно.
avatar
Всегда благодарен автору этого сайта за науку ведения сайтов на uCoz. Ни разу не пожалел, что подписан на обновления.
К имеющемуся роботексту добавил, то что вы рекомендуете:

User-agent:Googlebot-Mobile
Allow: /

User-agent: *
Allow: /*.ttf
Allow: /*.woff
Allow: /*.woff2
Allow: /*.eot
Allow: /*.svg
Allow: /*?ref=
Disallow: /*?
Disallow: /confirm/
...
и далее всё что в основном листе рекомендаций вверху.
Вот только смущает эти две фразы:
User-agent:Googlebot-Mobile
Allow: /
User-agent: *

Они не противоречат или не конфликтуют друг с другом. Путаницы не будет?
avatar
Нет, не противоречат, это полный доступ гуглботу, это общепринятая директива для гуглбота, все будет хорошо.
avatar
Если вы на укоз делаете только хостинг картинок и небольших видео под свой сайт на другом хостинге, то можно использовать robots.tx как у меняt:
User-agent: *
Allow: /*.jpg
Allow: /*.png
Allow: /*.gif
Allow: /*.mp3
Allow: /*.mp4
Allow: /*.avi
Allow: /*.js
Allow: /*.css
Disallow: /*?page
Disallow: /*?ref=
Disallow: /*?
Disallow: /stat/
Disallow: /index/1
Disallow: /index/3
Disallow: /register
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /index/sub/
Disallow: /index/0-*
Disallow: /photo/
Disallow: /publ/
Disallow: /gb/
Disallow: /blog/
Disallow: /load/
Disallow: /forum/
Disallow: /panel/
Disallow: /admin/
Disallow: /404.htm
Disallow: /informer/
Disallow: /secure/
Disallow: /poll/
Disallow: /search/
Disallow: /abnl/
Disallow: /confirm/
Disallow: /publ/rss
Disallow: /blog/rss
Disallow: /news/rss
Disallow: /load/rss
Disallow: /*_escaped_fragment_=
Disallow: /*-*-*-*-987$
Disallow: /shop/order/
Disallow: /shop/printorder/
Disallow: /shop/checkout/
Disallow: /shop/user/
Disallow: /shop/search
Disallow: /*0-*-0-17$
Disallow: /*-0-0-

Host: luntik-mir.tk

Sitemap: https://luntik-mir.at.ua/bla-bla.xml
Sitemap: https://luntik-mir.at.ua/bla-bla2.xml

---
Я специально указал неправильные расположения sitemap что бы потролить поисковых роботов. Адреса моих сайтов из robots.txt нужно заменить на свои