Частичное выпадение из базы

12
П
На сайте с 24.02.2007
Offline
12
1276

Ситуация следующая:

У меня форум IPB, проиндексированных страниц было около 4000 в течении (это число постоянно менялось, но не значительно). Недавно поставил робота:

User-agent: *

Disallow: /index.php?showuser

Disallow: /index.php?act

Disallow: /lofiversion

Проиндексированных страниц число сразу уменьшилось, около 400 их стало, держалось около двух недель, кроме того, в индексе была куча страниц (большая часть), индексация которых запрещена.

Сегодня утром, проиндексированных страниц стало около 40000!!! (немного меньше, 38000 примерно), причём среди проиндексированных были только нужные, во всяком случае страниц, запрещённых к индексации, я не нашёл, однако уже сегодня вечером число проиндексированных страниц упало до 286 (http://www.yandex.ru/yandsearch?numdoc=50&text=%23url%3D%22www.civpbem.ru*%22&pag=u&rd=0)

причём в индексе опять куча страниц, индексация которых запрещена.

Что сие значит?

M
На сайте с 28.09.2006
Offline
13
#1

Доброго времени суток

у меня очень похожая ситуация

написал robots.txt уже 3 месяца назад

http://forum.aceweb.ru/



User-agent: Slurp
Crawl-delay: 1000

User-Agent: *
Disallow: /?showuser
Disallow: /index.php?showuser
Disallow: /r.html
Disallow: /index.php?act
Disallow: /index.php?&act
Disallow: /?act
Disallow: /?&act

через неделю после написания сайт полностью вылетел из индекса

через 2 недели полностью попал в индекс вместе со страницами запрещенными к индексации

http://www.yandex.ru/yandsearch?serverurl=forum.aceweb.ru

и страницы, запрещенные к индексации до сих пор в индексе и регулярно обновляются

есть еще более занимательный случай - сайт http://board.kypan.ru/

полностью запрещен к индексации



User-Agent: Yandex
Disallow: /

а в индексе уже 2 месяца главная страница

значит, если страницы сайта нравятся яндексу,

то robots.txt уже не имеет значения :D

если серьезно - то жду

стабильно 100$ с сайта в месяц здесь (http://www.sape.ru/r.960d480b23.php)
[Удален]
#2

Аналогично, господа...с форумом...

50000 страниц должно быть (без профилей и прочего мусора)

сейчас может посмотреть сами: http://www.yandex.ru/yandsearch?serverurl=yarportal.ru

был денек (13 ноября вроде) с утра все вернулось.. я уж обрадовался... под вечер...

опять хрень...

сейчас число проиндексированных страниц колеблется, но по-прежнему в крайне малом количестве...

что яндексу в форумах не нравится??

M
На сайте с 19.07.2007
Offline
25
#3

Моего сайта уже вообще 2 недели нет сети, удалила из яндекса с помощью формы удаления. А страницы все еще висят в индексе. Когда я пытаюсь их удалить еще раз, мне выдает, что страница не может быть удалена, так как не была проиндексирована....Вот так, а в поиске есть...

П
На сайте с 24.02.2007
Offline
12
#4
2 недели нет сети,

2 недели срок не большой :)

что яндексу в форумах не нравится??

Наверное они ему в принципе не нравятся, т.е. форум - не сайт, и на фиг его :). Попробую-ка я лично яндексу запретить всё, кроме lofiversion - может купится, и не поймёт, что сие форум :). Интересно, по каким принципам яндекс относит ресурс к форуму? Кто-нибудь знает?

P.S.

Сайт у меня, тоже на движке, и там есть версия для печати + регистрация юзеров, сайт иц меньше 10 (у форума 20), так вот поставил на сайт бота, запрещающего индексацию профилей и прочей лабуды. причём позже, чем на форуме, и пожалуйста - сайт проиндексирован нормально, а форум - до сих 286 страниц в индексе, причём старых :).

П
На сайте с 24.02.2007
Offline
12
#5

Написал письмо Платону:

> Здравствуйте. Мой ресурс:
> http://www.civpbem.ru/
> Это форум. В индексе было около 3000 страниц, после того, как поставил робота
> (robots.txt) число проиндексированных страниц резко упало (сейчас около 60).
> Но в любом случае, число страниц проиндексированных должно быть около 40000.
> Поэтому следует логический вопрос: к форумам (к любым) применяются фильтры,
> ограничивающие число страниц в индексе? Т.е. форумы за сайт не считаются и
> толком не индексируются? Или это не так? Если причина иная, то какая?
> Заранее благодарен за ответ.
> С уважением, Псих.

Ответ был такой:

Здравствуйте!

Ваш сайт индексируется и представлен в поиске:
http://www.yandex.ru/yandsearch?serv...ww.civpbem.ru/

В то же время, часть страниц, скачанных роботом, не участвует в поиске, так
как алгоритмы Яндекса обнаружили среди них страницы со ссылками на ресурсы,
которые раскручиваются с помощью ссылочного спама или являются поисковым
спамом. Эти документы и некоторые разделы сайта, куда они входят, были
автоматически понижены в результатах поиска или исключены из них, так как
поисковый спам ухудшает качество поиска.

Чтобы вернуть страницы в поиск, уберите, пожалуйста, ссылки на подозрительные
ресурсы или, если речь идет о немодерируемом разделе сайта, обрамляйте ссылки
на внешние сайты тегом <noindex></noindex>. Когда изменения будут внесены, в
течение некоторого времени сайт вернется в поиск автоматически.

Очевидно, отвечал бот, не вникая в мою проблему, т.к. подобных писем на этом форуме тьма:

/ru/forum/181650;highlight=%C2%E0%F8+%F1%E0%E9%F2+%E8%ED%E4%E5%EA%F1%E8%F0%F3%E5%F2%F1%FF+%E8+%EF%F0%E5%E4%F1%F2%E0%E2%EB%E5%ED+%E2+%EF%EE%E8%F1%EA%E5%3A

/ru/forum/181357;highlight=%C2%E0%F8+%F1%E0%E9%F2+%E8%ED%E4%E5%EA%F1%E8%F0%F3%E5%F2%F1%FF+%E8+%EF%F0%E5%E4%F1%F2%E0%E2%EB%E5%ED+%E2+%EF%EE%E8%F1%EA%E5%3A

Можете помочь разобраться, в чём причина? Может это из-за сквозных ссылок внизу страницы, или из-за каталога ссылок? (мой ресурс http://www.civpbem.ru/)

mastserg
На сайте с 14.04.2005
Offline
108
#6

бот яндекса если уже проиндексировал урл, то по моему опыту дисалоу ему не помеха.

помогало только смена урлов и много времени.

Поэтому изначально надо предусмотреть все в роботс.

P.S. летом "прибил" сайт - перенес на новый домен. на старом в htacces прописал с любой страницы 301 на главную, на главной отдаю 404.

До сих пор наблюдаю в логах попытки бота проиндексировать сайт - получает 301, 404, но все равно пытается. О ботах гугля и яхи давно в логах ничего не слышно, один яндекс все надеется на взаимность :)

Страницы для печати лучше делать на css - устраняет проблему дублей.

урлы лучше не лениться а переделать модреврайтом - по опыту лучше воспринимается чем viewtopic&other

TO Псих

http://www.civpbem.ru/ - в урлах случаем не индификатор сесий? если да, то для ботов - то смерти подобно, наплодишь дублей - потом полгода ждать будешь пока из базы вычиститься.

Перепроверил http://www.civpbem.ru/ - при первом обращении выдает индификатор сесии при повторном уже нет (почисти куки и кеш и проверь в разных браузерах). читай выше - модреврайт тебе поможет.

Постоянно покупаю места под статьи, много (/ru/forum/188576)
П
На сайте с 24.02.2007
Offline
12
#7
Страницы для печати лучше делать на css - устраняет проблему дублей.

Они запрещены для индексации (уже как месяц).

урлы лучше не лениться а переделать модреврайтом - по опыту лучше воспринимается чем viewtopic&other

Не могли бы объяснить, что сие значит? Т.е. мне надо сделать, чтобы адреса тем были статическими, вида /topicxxx.html ?

в урлах случаем не индификатор сесий?

Что такое идентификатор сессий?

mastserg
На сайте с 14.04.2005
Offline
108
#8
Псих:
Они запрещены для индексации (уже как месяц).

то, что они запрещены - не факт, что яндекс-бот быстро вычистит их из базы, если перед этим они были разрешены. А для новых проектов лучше css использовать - снимает проблему.

Псих:
Не могли бы объяснить, что сие значит? Т.е. мне надо сделать, чтобы адреса тем были статическими, вида /topicxxx.html ?

Да.

Псих:
Что такое идентификатор сессий?

в урле у вас это:

index.php?s=9ed4f8ac106...fe4

при каждом заходе в данном случае робота будет генерироваться уникальный индификатор сессии

т.е. для робота это будет разные документы с одинаковым контентом - дубли.

Каждая индексация может плодить новые дубли.

П
На сайте с 24.02.2007
Offline
12
#9
в урле у вас это:
index.php?s=9ed4f8ac106...fe4

А откуда вы такой адрес взяли? У меня на форуме таких вроди бы нет... И как от них избавиться?

mastserg
На сайте с 14.04.2005
Offline
108
#10
Псих:
А откуда вы такой адрес взяли? У меня на форуме таких вроди бы нет... И как от них избавиться?

удаляем куки, чистим кеш, заходим на главную и видим:

h_ttp://www._civpbem_.ru/index.php?_s=_f3e6756594465a58869f490216714a61_&_showforum=21

h_ttp://www._civpbem_.ru/index.php?_s=_f3e6756594465a58869f490216714a61_&_showforum=8

робот их тоже видит при каждом новом заходе, вы не видите, т.к. пишется в куки, роботы куки не пользуют.

Убрать это в настройках форума, как - почитайте мануал к движку.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий