Странное поведение робота Яндекса...

12
SI
На сайте с 01.04.2003
Offline
25
1560

С 16 по 18 мая робот Яндекса сделал более 500 тыс. запросов и выжрал порядка 5 гиг траффа. К этому претензий у меня нет.

Проблема мне видится в том что на самом деле ходя _только_ по ссылкам он мог выжрать не более 60к страниц. Все страницы уникальные и содержат осмысленный текст. Но ко многоим страницам есть альтернативные недокументированные пути, например индекс некоторых директорий у меня не index.html а 1.ru.html. Ссылок на этим недокументированные пути нет.

Меня индексируют почти все зарубежные роботы и ни один еще не индексил того, на что нет ссылок или что явно не следует.

Т.е. я хочу сказать что Яндекс сам разбирает ссылку по директориям и пытается пройти по всем директориям.

Мне в ближайшее время будет очень нужен русский трафф, робот меня проиндексил как раз вовремя, но эта проблема чревата баном, хотелось бы его избежать.

Если Яндексу интересны подробности, могу предоставить более подробную информацию.

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#1

Если "проблема" видится в том, что робот сожрал много одинаковых страниц - то это не проблема и бана из-за этого не будет. Это проблема робота и самого Яндекса, качать дубли - удовольствие небесплатное.

Сайту это никак повредит - в худшем случае каждая из проиндексированных страниц будет видна в базе отдельно, в лучшем - идентичные документы склеются.

Яндекс сам разбирает ссылку по директориям и пытается пройти по всем директориям.

Нет, он этого делать не пытается. Причину осведомленности легче найти в другом - Яндекс-Бар стоит? С включенным баром по таким адресам ходили?

SI
На сайте с 01.04.2003
Offline
25
#2
Это проблема робота и самого Яндекса, качать дубли - удовольствие небесплатное.

Яндекс так не считает, уже было два случая когда меня банили именно из-за этого. Именно бан, их саппорт так и отвечал.

Точнее за "поисковый спам". Хотя таковой цели не было. Была лишь оптимизация.

На этот раз я специально пострался исключить ситуацию когда робот может бесконечно бродить по моему сайту. Как минимум ни один из буржуйских роботов еще не заблудился у меня. Я статистику роботов смотрю по несколько раз на дню. Яндекс же не ходил на меня после бана три месяца, а потом за практически один заход выкачал столько.

Яндексу траффик с М10 ничего не стоит, такова маркетинговая политика РТ-комма. Мне же стоило бакса 2 наверно, но дело не в траффе.

Яндекс бар у меня не стоит, у меня Линукс. Да и вряд ли он в данный момент может чем-то помочь - сайта в индексе еще нет.

Ладно, посмотрю, по идее конкурентов у меня особо нет, если ни одна сука не заложит буду висеть в первых строчках долго.

M
На сайте с 25.01.2001
Offline
57
#3

Ну а сайт-то хоть какой?

Срочно нужно немного кофейной гущи...

Случайно не lomalka.ru?

SI
На сайте с 01.04.2003
Offline
25
#4

melkov, так и есть - Ломалка.ру.

Раз уж прищлось здесь засветится, то вот примерная схема сайта:

1. Имеется три домена алиаса - {cracks,serials,keygens}.lomalka.ru

2. На этих доменах находятся листинги кряков. Например http://www.lomalka.ru/CRACKS/A/1.ru.html - буква A, страница листинга 1.

3. Там имеются ссылки на кряки вида http://windows.xp.keygen.new.cracks.lomalka.ru/CRACKS/W/I/Windows_XP_Keygen_NEW.ru.html

ссылка только в таком виде и никаких других путей к странице посвященной одному кряку нет.

4. Дубли страниц можно поиметь только проиндексив полностью домены в п.1., Всего кряков 50к, на странице листинга 100 кряков, итого 500 страниц плюс 1000 страниц дублей, по моему мнению это спам в разумных пределах.

5. Дубли страниц кряков получить нельзя. Если вручную составить путь, но наверно можно, но по ссылкам никак. Опять же напоминаю, по крайней мере ни один буржуйский робот еще этого не сделал.

Что есть у меня и чего нет у моих конкурентов.

1. Нет баннеров. Если точнее то их нет только для стран где по-моему мнению живут русские. Для буржуев сайт набит таким же дерьмом как у всех - поп-апы, диалеры и прочее.

3. Если кряк содержит .nfo файл, то он включается в html.

Важное замечание. Специально для робота Яндекса в страницах листингов кряков я выдаю ссылки на кряки как относительные, т.е. по идее Яндекс не должен получать ссылки вида http://windows.xp.keygen.new.cracks.lomalka.ru/CRACKS/W/I/Windows_XP_Keygen_NEW.ru.html

а должен получать ссылки вида /CRACKS/W/I/Windows_XP_Keygen_NEW.ru.html т.е. в текущем домене которыйх три.

Также хочу заметить, что аналогичная схема на другом проекте по недопущению бесконечного брожения вашего робота отлично работает уже как минимум месяц. Правда он хостится в США, т.е. я могу предположить что различные сети вы индексите с различным приоритетом, все таки входящий зарубежный траффик у вас не может быть полностью бесплатным.

Для тех у кого загорелись глаза при мыслях о том, что можно заспамить любой поисковик подобным образом. Уже почти полгода я экпериментирую с добными схемами, и могу сказать что реальной помощи от такго кол-ва доменов нет. Главное - не заниматься херней. На каждой странице должно быть 90% осмысленного текста а не дизайна, баннеров и набора ключевых слов. Поэтому дизайна на моих проекта нет вообще и не будет никогда.

Определение правильного дизайна для меня - то что сайт можно смотреть в lynx'е.

Искренне надеюсь на понимание со стороны Яндекса и что все таки меня не вынесут с индеса.

[Удален]
#5
Искренне надеюсь на понимание со стороны Яндекса и что все таки меня не вынесут с индеса.

Да-да-да, теперь будем ходить на Яндекс вместо astalavist'ы! ;)

S
На сайте с 14.05.2003
Offline
165
Sla
#6

А может Вас всё-таки не за спам забанили, а за содержание?

SI
На сайте с 01.04.2003
Offline
25
#7
Да-да-да, теперь будем ходить на Яндекс вместо astalavist'ы!

Асталависта кстати прямой конкурент Яндексу.

Асталависта всего лишь индексатор сайтов подобных моему.

А есть всего пара-тройка кряк-баз которые регулярно обновляются и содержат последние кряки, среди них только меня в Яндексе нет.

Хотя на 95% базы у всех одинаковые, но те 5% играют огромную роль - это как правило свежие кряки текущего месяца которые все ищут.

M
На сайте с 25.01.2001
Offline
57
#8

ShamoIdol,

К вам заходил "зеркальщик". Программа совершенно безобидная, но с учетом как минимум 35 тыс.(!) (идентичных) поддоменов Ломалки, оказавшихся в нашей базе, получились такие вот действительно жуткие цифры (610 тыс. запросов, включая robots.txt). Уж извините :).

Такого более не повторится, поскольку Ваши поддомены, отличные от www.lomalka.ru, были по итогам хождения зеркальшика забанены вручную.

"Зеркальщик", действительно, в некоторых специфических случаях может сам конструировать url'ы. Это нужно для склейки всяких разных *ИЦ'ов.

Теперь хорошие новости :)

У Вас на сайте примерно с конца апреля неправильный robots.txt (записи должны разделяться пробелами). Сейчас он, на самом деле, запрещает всем все, так что никакого полезного трафика все равно пока не будет.

Gray, кстати, у Вас уже почти месяц лежит статья про robots.txt с недопустимой ошибкой (опциональные пробелы между именем поля и двоеточием не предусмотрены стандартом).

SI
На сайте с 01.04.2003
Offline
25
#9

melkov,

Доменов вообще-то должно быть более 50к :-)

В robots.txt я не вижу лишнего пробела.

grep -E '\s+:' robots.txt ничего не выдает.

Для пущей уверенности я открыл его в текстовом редакторе и заменил все проблеы на _ и вот что получилось:


User-agent:_*
Disallow:
User-agent:_ia_archiver
Disallow:_/
User-agent:_TurnitinBot
Disallow:_/
User-agent:_Zyborg
Disallow:_/
User-agent:http://www.almaden.ibm.com/cs/crawler_
Disallow:_/

Недавно меня проиндексил Рамблер. Активно индексят другие поисковики.

Стандарты это конечно хорошо, но такая позиция не совсем правильна. Юзер просто найдет нужную ему информацию в другом поисковике, где менее трепетно относятся к стандартам.

M
На сайте с 25.01.2001
Offline
57
#10

ShamoIdol, замечание про лишние пробелы относится не к Вам, а к администратору этого сайта. На на морде данного сайта лежит ссылка на статью о robots.txt, которая дезинформирует пользователей. Такими статьями с ошибками полон интернет, и это очень плохо.

Что касается Вашего случая, здесь другая ошибка, возникшая, очевидно, после прочтения другой вредительской статьи про robots.txt. Почитайте стандарт.

http://www.robotstxt.org/wc/norobots.html

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий