Расшифровка файла Robots.txt для uCoz и uWeb

Name: Расшифровка файла Robots.txt для uCoz и uWeb
Item: Расшифровка файла Robots.txt для uCoz и uWeb
Author: HavingingWorld

Юрий Герук
2021-04-15
uCoz
1206
5

Содержание

Ошибка в тексте? Выделите ее мышкой! И нажмите: CTRL+Enter, сообщите об этом, автор постарается в краткие сроки обновить / исправить материал.

О чем материал ?

Сегодня мы рассмотрим материал: Расшифровка файла Robots.txt для uCoz и uWeb, в котором подробно рассмотрим какая директива и для чего предназначена и как можно улучшить роботс.

На данный момент в uCoz и uWeb robots.txt настроен так, чтобы запретить к индексации лишь необходимые страницы, точнее системные ненужные и страницы дубли, которые не должны отображаться в поиске. Соответственно, все остальное доступно к индексации, так как что не запрещено значит разрешено, хотя для робота Google нет слова запрещено с временем вы это поймете.

Отмечу, что некоторые индивидуумы, которые считают себя умнее всех не понимают зачем создан системный файл и запреты и разрешения, которые в нем прописаны, удаляют системный файл роботс и загружают свой, который как-то нашли в сети интернет, который не предназначен для Юкоз.

У таких пользователей, а точнее на их сайтах с временем в поиске появляются тысячи системных страниц в поиске, которые там не должны быть, которые вредят посещаемости так как посетители при поиске вашего сайта видят такой мусор в поисковиках и проходят мимо.

Как выглядит системный файл Robots.txt ?

User-agent: *
Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.png
Allow: /*.gif
Allow: /*?page
Allow: /*?ref=
Disallow: /*?
Disallow: /stat/
Disallow: /index/1
Disallow: /index/3
Disallow: /register
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /index/sub/
Disallow: /panel/
Disallow: /admin/
Disallow: /informer/
Disallow: /secure/
Disallow: /poll/
Disallow: /search/
Disallow: /abnl/
Disallow: /*_escaped_fragment_=
Disallow: /*-*-*-*-987$
Disallow: /shop/order/
Disallow: /shop/printorder/
Disallow: /shop/checkout/
Disallow: /shop/user/
Disallow: /shop/search
Disallow: /*0-*-0-17$
Disallow: /*-0-0-

Sitemap: http://sitename.ucoz.ru/sitemap.xml
Sitemap: http://sitename.ucoz.ru/sitemap-forum.xml

Расшифровка Robots.txt

Описание каждой строки файла robots.txt для uCoz и uWeb:

User-agent: *

общее обращение ко всем сканерам, читающим файл robots.txt

Allow: /*.js

Allow: /*.css

Allow: /*.jpg

Allow: /*.png

Allow: /*.gif

Эти директивы разрешают индексирование скриптов, картинок, файлов стилей. нужны они для избежания ошибок заблокированные ресурсы на проверках эмуляторов

Allow: /*?page

Разрешение страниц пагинации на главных страницах модулей (связанно со строчкой Disallow: /*? )

Allow: /*?ref=

Нужна для правильной переиндексации компонентов социальной регистрации

Disallow: /*?

Запрет к индексации поисковых запросов, кода безопасности на uCoz, проксированных ссылок, компонентов рекламного баннера, дублей главной страницы и блога (компоненты кода системы, связанные с сессиями ssid), дубли ссылок на изображения в фотоальбомах, других мусорных компонентов системы

Disallow: /stat/

Запрет индексации компонента счетчика статистики (картинка с данными)

Disallow: /index/1

Техническая страница входа / авторизации

Disallow: /index/3

Запрет индексации страницы регистрации (локальная регистрация)

Disallow: /register

Запрет индексации страницы регистрации (социальная и uID регистрация)

Disallow: /index/5

Запрет к индексации аякс окна напоминания пароля в старой форме входа

Disallow: /index/7

Служебная страница выбора аватара из коллекции

Disallow: /index/8

Запрет к индексации профилей пользователей (один из способов защиты от спама)

Disallow: /index/9

Запрет индексации аякс окна Доступ запрещен

Disallow: /index/sub/

Запрет к индексации локальной авторизации (связано со старой формой входа)

Disallow: /panel/

Запрет к индексации входа в панель управления

Disallow: /admin/

Запрет к индексации входа в панель управления

Disallow: /informer/

Запрет к индексации информеров, вставленных скриптом (при этом содержимое информеров, вставленных системным кодом $MYINF_х$ будет индексироваться свободно)

Disallow: /secure/

Запрет на индексацию кода безопасности (связано со строчкой Disallow: /*?)

Disallow: /poll/

Запрет индексации служебной папки опросов

Disallow: /search/

Запрет индексации страницы поиска, тегов и поисковых запросов (связано со строчкой Disallow: /*?)

Disallow: /abnl/

Запрет индексации компонентов системного рекламного баннера (для сайтов с не отключенной рекламой)

Disallow: /*_escaped_fragment_=

Запрет технического компонента кода

Disallow: /*-*-*-*-987$

Запрет дублей страниц в модулях Новости и Блог, связанных с кодом комментариев на странице

Disallow: /shop/checkout/

Запрет к индексации корзины и кода оформления заказа для Интернет магазина

Disallow: /shop/user/

Запрет к индексации пользователей магазина (субагенты)

Disallow: /*0-*-0-17$

Запрет к индексации различных фильтров, страниц материалов пользователя, ссылки на последнее сообщение форума, дублей системы и т.д

Disallow: /*-0-0-

Запрет к индексации страниц добавления материалов, списков материалов пользователей, ленточного варианта форума (некоторые дублирующие URL), страниц со списком пользователей (некоторые дублирующие URL), поиска по форуму, правил форума, добавления тем на форуме, различные фильтры (с дублями), страницы с редиректами на залитые на сервер файлы

Sitemap: //адрес сайта/sitemap.xml

Общая карта сайта

Sitemap: //адрес сайта/sitemap-forum.xml

Карта форума (оставлять в файле, если активирован модуль форум)

Sitemap: //адрес сайта/sitemap-shop.xml

Карта магазина (прописывать только, если активирован модуль Интернет магазин)

Host: адрес сайта без https://

Прописывать, если прикреплен домен для определения главного зеркала. директива прописывается в любом месте robots, предназначена для Яндекса, при этом отдельное обращение к роботам Яндекса не нужно. Google игнорируется. На данный момент директива Host Яндексом перестала учитываться и прописывать её не надо.

От чего можно избавиться в файле Robots.txt ?

Если вы не используете модуль Интернет-магазин, с файла роботс можно удалить следующие директивы:

Disallow: /shop/order/
Disallow: /shop/printorder/
Disallow: /shop/checkout/
Disallow: /shop/user/
Disallow: /shop/search
Sitemap: //адрес сайта/sitemap-shop.xml

Если вы не используете модуль Форум, можно удалить карту сайта для форума:

Sitemap: //адрес сайта/sitemap-forum.xml

Что можно добавить, чтобы улучшить файл Robots.txt ?

Можно добавить в самом начале файла роботс перед всем содержимым директиву с доступом для мобильного робота гугла:

User-agent:Googlebot-Mobile
Allow: /

это позволит мобильному роботу без проблем сканировать ваш сайт.

С моих рекомендаций, после директив с доступом индексировать изображения сайта, стоит и добавить доступ к индексации шрифтов на сайте, чтобы роботы имели полный доступ к сайту и корректно его видели с шрифтами, которые на сайте подключены.

В роботс стоит добавить директивы:

Allow: /*.ttf
Allow: /*.woff
Allow: /*.woff2
Allow: /*.eot
Allow: /*.svg

это существенно улучшит отображение вашего сайта для поисковиков и они будут корректно видеть сайт с вашими шрифтами.

В дополнение, было замечено по отчетам с индексации яндекса, что робот посещает страницу регистрации и находит сгенерированные урл подобно /confirm/ и индексирует их. Для решения данной проблемы рекомендую в роботс добавить директиву:

Disallow: /confirm/

это сохранит ваш сайт от индексации мусора.

Для борьбы с дублями в модуле Интернет-магазин, в роботс можно добавить такие директы:

Disallow: /shop/*comm
Disallow: /shop/*spec
Disallow: /shop/*imgs
Disallow: /shop/all/
Disallow: /shop/*;

о том для чего и против каких дублей, можно прочесть в материале: Избавляемся от дублей в поиске Яндекс и Google.

На данном этапе мы закончим материал, если будут обновления, мы их добавим в статью. Всем спасибо!

Лицензия: CC BY-SA 4.0

Автор: Юрий Герук

Благодарность автору!

Теги: расшифровка, robots.txt, uWeb, ucoz

Похожие материалы:

Как создать страницу Авторы на сайте uCoz ?

Как узнать на каком сервере мой сайт ?

Расшифровка резервной копии дизайна сайта uCoz

Помогла ли вам статья?

Да Нет
Статья оказалась полезной для 0 человек

Порядок вывода комментариев: 1 Автор HavingingWorld Я еще RSS добавляю, не знаю насколько это помогает, добавил все какие знал Allow: /publ/rssya Allow: /blog/rssya Allow: /news/rssya Allow: /load/rssya Allow: /publ/rss Allow: /blog/rss Allow: /news/rss Allow: /load/rss Allow: /publ/rssya_zen Allow: /blog/rssya_zen Allow: /news/rssya_zen Allow: /load/rssya_zen Allow: /publ/rssya_turbo Allow: /blog/rssya_turbo Allow: /news/rssya_turbo Allow: /load/rssya_turbo 0 Автор Добавлять нужно лишь тогда и лишь те рсс, когда вы используете этот рсс для турбо и для дзен, если этот функционал не используется, тогда захламлять роботс не нужно. 1 Автор Федор Всегда благодарен автору этого сайта за науку ведения сайтов на uCoz. Ни разу не пожалел, что подписан на обновления. К имеющемуся роботексту добавил, то что вы рекомендуете: User-agent:Googlebot-Mobile Allow: / User-agent: * Allow: /.ttf Allow: /.woff Allow: /.woff2 Allow: /.eot Allow: /.svg Allow: /?ref= Disallow: /? Disallow: /confirm/ ... и далее всё что в основном листе рекомендаций вверху. Вот только смущает эти две фразы: User-agent:Googlebot-Mobile Allow: / User-agent: Они не противоречат или не конфликтуют друг с другом. Путаницы не будет? 1 Автор Нет, не противоречат, это полный доступ гуглботу, это общепринятая директива для гуглбота, все будет хорошо. 1 Автор vlandon-5577 Если вы на укоз делаете только хостинг картинок и небольших видео под свой сайт на другом хостинге, то можно использовать robots.tx как у меняt: User-agent: * Allow: /.jpg Allow: /.png Allow: /.gif Allow: /.mp3 Allow: /.mp4 Allow: /.avi Allow: /.js Allow: /.css Disallow: /?page Disallow: /?ref= Disallow: /? Disallow: /stat/ Disallow: /index/1 Disallow: /index/3 Disallow: /register Disallow: /index/5 Disallow: /index/7 Disallow: /index/8 Disallow: /index/9 Disallow: /index/sub/ Disallow: /index/0- Disallow: /photo/ Disallow: /publ/ Disallow: /gb/ Disallow: /blog/ Disallow: /load/ Disallow: /forum/ Disallow: /panel/ Disallow: /admin/ Disallow: /404.htm Disallow: /informer/ Disallow: /secure/ Disallow: /poll/ Disallow: /search/ Disallow: /abnl/ Disallow: /confirm/ Disallow: /publ/rss Disallow: /blog/rss Disallow: /news/rss Disallow: /load/rss Disallow: /_escaped_fragment_= Disallow: /----987$ Disallow: /shop/order/ Disallow: /shop/printorder/ Disallow: /shop/checkout/ Disallow: /shop/user/ Disallow: /shop/search Disallow: /0--0-17$ Disallow: /-0-0- Host: luntik-mir.tk Sitemap: https://luntik-mir.at.ua/bla-bla.xml Sitemap: https://luntik-mir.at.ua/bla-bla2.xml --- Я специально указал неправильные расположения sitemap что бы потролить поисковых роботов. Адреса моих сайтов из robots.txt нужно заменить на свои