Модератор форума: Yuri_G  
Robots.txt
Модератор форума
Сообщение # 1 | 16:57:58
FaReKe
Репутация: 0

Сообщение # 1681 | 18:34:15
Спасибо огромное. Давно на юкозе не создавал сайт, вот хотел открыть опять. Видимо забыл что надо ждать месяц. Лучше куплю что нибудь на 2$
Knuklus
Сообщений: 57
Репутация: 15

Сообщение # 1682 | 20:12:41
яндекс проиндексировал не нужные страницы, что бы их удалить нужно что б ответ был 404 или закрыть от индексации.

Изначально я использовал модуль БЛОГ и через него публиковал новости на своем сайте. (со временем мой светлый ум пришел к выводу что реализация новостей через блог не много сделано через заднее место biggrin )
И я стал использовать модуль новости.

Так вот в яндексе остались пару страниц с новостями от модуля БЛОГ.

Сам модуль блог я удалил через ПУ,

Так же прописал про БЛОГ в файле robots.txt

Код
Отрывок из файла robots.txt

User-agent: Yandex
Disallow: /index/blog/*


С тех пор прошла неделя, робот яндекса посещал меня послед раз вчера,

Но через форму удаления на яндекс мастере, нельзя по прежнему удалить страницы БЛОГА, пишет, что нет основания, как бы не 404 и не не запрещена страница от индексации

ВНИМАНИЕ ВОПРОС: КАКОГО ПОЧЕМУ НЕЛЬЗЯ УДАЛИТЬ СТРАНИЦЫ ОТ БЛОГА?

P.S СТРАНИЦЫ:

rh32.ru/blog/my_v_soc_seti_google/2014-08-21-6
rh32.ru/blog/udalennyj_pomoshhnik_teper_i_v_mail_ru/2014-08-25-9
rh32.ru/blog/oficialnaja_stranica_vkontakte/2014-08-22-7
rh32.ru/blog/skoro_vse_zarabotaet/2013-12-27-3
НУ И ТД...
webanet
Сообщений: 24067
Репутация: 4985

Сообщение # 1683 | 20:22:17
Код
Disallow: /index/blog/*
Disallow:/index/load/*
Disallow: /index/gb/

удалите это из робоста
а чтобы получить 404. активируйте модуль блога, но не добавляйте туда ничего. пусть стоит пустым

блог на индексацию можно запретить так

Disallow: /blog/

ТУТ можно оставить своё мнение по любому вопросу
https://webanetlabs.net/
Knuklus
Сообщений: 57
Репутация: 15

Сообщение # 1684 | 20:51:40
Цитата webanet ()
Disallow:/index/load/*
Disallow: /index/
но их то же нужно закрыть от индексации

и еще кое какой косяк,

пример: было mysite.ru/index/repairforyou/0-15
стало: mysite.ru/index/kosrem/0-15
В обоих случае попадаем на одну и ту же страницу,
в robots.txt

Код
User-agent: Yandex   
Disallow: /repairforyou/0-15

как правильно прописать в robots.txt за прет на mysite.ru/index/repairforyou/0-15

Добавлено (15 Сен 2014, 20:51:40)
---------------------------------------------
Цитата webanet ()
Disallow:/index/load/*
Disallow: /index/
но их то же нужно закрыть от индексации

и еще кое какой косяк,

пример: было. mysite.ru/index/kosrem/0-15 стало: rh32.ru/mysite.ru/index/repairforyou/0-15

В обоих случае попадаем на одну и ту же страницу,
в robots.txt

Код
User-agent: Yandex   
Disallow: /repairforyou/0-15

как правильно прописать в robots.txt за прет на mysite.ru/index/repairforyou/0-15
Сообщение отредактировал Knuklus - Вторник, 16 Сен 2014, 14:34:22
Sonor
Сообщений: 251
Репутация: 525

Сообщение # 1685 | 20:55:52
Knuklus, как закрыть, выше указано, но через запрет в robots.txt ждать будете не неделю, а может год. Лучше заново активировать и вставить canonical на новый модуль или изменить шаблон на 404.

prostologin1
Сообщений: 17
Репутация: 3

Сообщение # 1686 | 14:28:16
По фотоальбому вопрос. Если уже было, прошу извинить - не нашел.
С некоторых пор переменная $FULL_PHOTO_URL$ стала возвращать адреса вида: http://www.mysite.ru/photo/9-0-47-3?1406752171. Набор символов после знака вопроса может быть различным для одной и той же фотографии. При этом также существует страница http://www.mysite.ru/photo/9-0-47-3. Все это богатство индексируется. С точки зрения поисковика это разные страницы, на которых один и тот же <title>.
Доступа к шаблону этих страниц мы не имеем, canonical поставить не можем. Остается закрывать в robots.txt. Так как менять системный Роботс не хочется, вопроса два:
  • Собирается ли uCoz что-нибудь делать по этому поводу?
  • Если нет, то как это сделать самостоятельно, т. е. что писать?


Пример:
Сообщение отредактировал prostologin1 - Понедельник, 22 Сен 2014, 14:32:10
webanet
Сообщений: 24067
Репутация: 4985

Сообщение # 1687 | 20:42:27
prostologin1, добавьте в роботс строчку

Disallow: *?

ТУТ можно оставить своё мнение по любому вопросу
https://webanetlabs.net/
prostologin1
Сообщений: 17
Репутация: 3

Сообщение # 1688 | 13:40:31
Еще вопрос: если уж пришлось писать свой Роботс, то решили закрыть и страницы вида /shop/user/2/goods. Это карточки товаров, которые добавил конкретный пользователь (в данном случае с id=2). Если при администрировании сайта такая функция может быть полезна, то уж индексировать эту информацию совершенно ни к чему. Тем более, что и <title> у разных страниц здесь тоже одинаковые.
Итак, мы хотим прописать в Роботс следующее:
Код
Disallow: /shop/user/
Просим проверки - не ошиблись ли мы в чем-нибудь.
Kolbasa
Сообщений: 243
Репутация: 5

Сообщение # 1689 | 00:59:22
Подскажите как запретить в robots.txt 6 едениц?

Disallow: *111111*

или

Disallow: 111111 ?
photoshop-epbl
Сообщений: 9
Репутация: 0

Сообщение # 1690 | 01:37:07
User-agent: *
Disallow: 111111
Хард
Сообщений: 446
Репутация: 156

Сообщение # 1691 | 01:51:03
Пример приведен ниже.

Использование директив Disallow и Allow Чтобы запретить доступ робота к некоторым частям сайта или сайту целиком, используйте директиву' Disallow'.

Примеры:

Код
User-agent: Google Disallow: / # блокирует доступ ко всему сайту
User-agent: Yandex  Disallow: /cgi-bin # блокирует доступ к страницам     
                       #начинающимся с '/cgi-bin'

Недопустимо наличие пустых переводов строки между директивами 'User-agent' и'Disallow' ('Allow'), а также между директивами 'Disallow' и 'Allow'.

Модератор в отставке :D
Сообщение отредактировал Хард - Суббота, 27 Сен 2014, 01:54:38
Kolbasa
Сообщений: 243
Репутация: 5

Сообщение # 1692 | 02:02:30
Цитата photoshop-epbl ()
User-agent: * Disallow: 111111

без звездочек * этих точно?
Aziz99
Сообщений: 34
Репутация: 0

Сообщение # 1693 | 12:52:25
Всем привет) У меня на сайте множество дублированных страниц! Например:

http://realmadrid-fc.ru/index/0-19 и http://realmadrid-fc.ru/index/0-19/. И так почти со всеми страницами. На некоторых даже два "/" (http://realmadrid-fc.ru/index/0-22//). Также у меня выводит два URL новостей: http://realmadrid-fc.ru/news....ttp и http://realmadrid-fc.ru/news/2014-09-17-1529-987. Пожалуйста, объясните, что именно нужно писать в файле robots.txt., чтобы избавиться именно от "/" и "987".

P.S: какая страница является оригиналом? http://realmadrid-fc.ru/index/0-19/ или http://realmadrid-fc.ru/index/0-19?
Сообщение отредактировал Aziz99 - Вторник, 30 Сен 2014, 12:53:19
_CrySiS_
Сообщений: 464
Репутация: 38

Сообщение # 1694 | 14:33:46
Я использовал вот это (это тема на форуме: //forum.ucoz.ru/forum/60-45241-1) и прописал в robots.txt
Код
Disallow: /*&*
Dejet
Сообщений: 11
Репутация: 3

Сообщение # 1695 | 22:12:32
Объясните пожалуйста кто нибудь что именно делают вот эти строчки:
Disallow: /*&*
Disallow: /*?*

И нужно ли их ставить на фоне того, что сейчас творится с каталогом новостей - тег КАНОНИКАЛ нету возможным применить (окромя наверное платного модуля оптимизации)
Поиск: