ShamoIdol

Рейтинг
25
Регистрация
01.04.2003
Как писал Gray

Необязательно. Новая база может быть видна нескольким процентам пользователей - и репрезентативность имеется, и ляпы легче отслеживать.

Возможно, я решил, что переодически прыгает потому, что было всего два захода с Гугла с разницей в несколько минут. IP и запросы были разные.

Сейчас же опять вижу два захода, правда разница уже 1 час и 18 мин.

На www-fi вижу что результаты по одному запросу изменились, один домен мой пропал, зато другие остались.

Х.з. что из этого будет, хотелось бы чтобы все так и осталось.

Кому как :-)

Обратно вижу в индексе свои сайты в почти полном объеме. Ожидаю увеличения траффа раз в 10.

Также вижу новые свои дорвеи в индексе.

Видел пару рефереров с google.com и google.com.tw на дорвей которого еще нет на www.

Зашел проверить - нету в результатах. Видать повторяется ситуация прошлого месяца, когда новая база переодически прыгает в www.

Я прав?

Теперь и у меня все в порядке когда через американскую проксю зарегился а потом зашел без прокси.

Но русским гетися они дают только за деньги.

Как минимум у меня такае из двух разных подсеток было.

melkov,

Сегодня ночью приходил Yandex/1.01.001 (compatible; Win16; I) и дергал все подряд с доменов отличных от www.lomalka.ru.

Т.е. значит не совсем Вы вручную забанили мои домены. 114 запросов было.

Но вчера вечером я сделал:


RewriteCond %{HTTP_USER_AGENT} ^Yandex
RewriteCond %{HTTP_HOST} !^www.lomalka.ru$
RewriteRule (.+) http://www.lomalka.ru$1

И еще обнаружил очень странную вещь, в логе Апач у меня пишет содержание Location:, так вот _иногда_ в логе видно что редирект прошел на http://www.lomalka.ruhttp://www.lomalka.ru

Хотя первая строка запроса в логе видна как "GET / HTTP/1.1"

Как такое может быть не знаю, mod_rewrite использую давно, никогда ранее такого не видел. На всякий случай сменил (.+) на ^/(.*?)

Еще поставлю tcpdump с фильтром на вашу сетку.

Как писал melkov
Что касается Вашего случая, здесь другая ошибка, возникшая, очевидно, после прочтения другой вредительской статьи про robots.txt. Почитайте стандарт.
http://www.robotstxt.org/wc/norobots.html

Спасибо, прочел, составил следующее:


User-agent: ia_archiver
User-agent: TurnitinBot
User-agent: Zyborg
User-agent: http://www.almaden.ibm.com/cs/crawler
Disallow: /

Хотя никаких нарушений стандарта в предыдущей версии я не вижу.

melkov,

Доменов вообще-то должно быть более 50к :-)

В robots.txt я не вижу лишнего пробела.

grep -E '\s+:' robots.txt ничего не выдает.

Для пущей уверенности я открыл его в текстовом редакторе и заменил все проблеы на _ и вот что получилось:


User-agent:_*
Disallow:
User-agent:_ia_archiver
Disallow:_/
User-agent:_TurnitinBot
Disallow:_/
User-agent:_Zyborg
Disallow:_/
User-agent:http://www.almaden.ibm.com/cs/crawler_
Disallow:_/

Недавно меня проиндексил Рамблер. Активно индексят другие поисковики.

Стандарты это конечно хорошо, но такая позиция не совсем правильна. Юзер просто найдет нужную ему информацию в другом поисковике, где менее трепетно относятся к стандартам.

Да-да-да, теперь будем ходить на Яндекс вместо astalavist'ы!

Асталависта кстати прямой конкурент Яндексу.

Асталависта всего лишь индексатор сайтов подобных моему.

А есть всего пара-тройка кряк-баз которые регулярно обновляются и содержат последние кряки, среди них только меня в Яндексе нет.

Хотя на 95% базы у всех одинаковые, но те 5% играют огромную роль - это как правило свежие кряки текущего месяца которые все ищут.

melkov, так и есть - Ломалка.ру.

Раз уж прищлось здесь засветится, то вот примерная схема сайта:

1. Имеется три домена алиаса - {cracks,serials,keygens}.lomalka.ru

2. На этих доменах находятся листинги кряков. Например http://www.lomalka.ru/CRACKS/A/1.ru.html - буква A, страница листинга 1.

3. Там имеются ссылки на кряки вида http://windows.xp.keygen.new.cracks.lomalka.ru/CRACKS/W/I/Windows_XP_Keygen_NEW.ru.html

ссылка только в таком виде и никаких других путей к странице посвященной одному кряку нет.

4. Дубли страниц можно поиметь только проиндексив полностью домены в п.1., Всего кряков 50к, на странице листинга 100 кряков, итого 500 страниц плюс 1000 страниц дублей, по моему мнению это спам в разумных пределах.

5. Дубли страниц кряков получить нельзя. Если вручную составить путь, но наверно можно, но по ссылкам никак. Опять же напоминаю, по крайней мере ни один буржуйский робот еще этого не сделал.

Что есть у меня и чего нет у моих конкурентов.

1. Нет баннеров. Если точнее то их нет только для стран где по-моему мнению живут русские. Для буржуев сайт набит таким же дерьмом как у всех - поп-апы, диалеры и прочее.

3. Если кряк содержит .nfo файл, то он включается в html.

Важное замечание. Специально для робота Яндекса в страницах листингов кряков я выдаю ссылки на кряки как относительные, т.е. по идее Яндекс не должен получать ссылки вида http://windows.xp.keygen.new.cracks.lomalka.ru/CRACKS/W/I/Windows_XP_Keygen_NEW.ru.html

а должен получать ссылки вида /CRACKS/W/I/Windows_XP_Keygen_NEW.ru.html т.е. в текущем домене которыйх три.

Также хочу заметить, что аналогичная схема на другом проекте по недопущению бесконечного брожения вашего робота отлично работает уже как минимум месяц. Правда он хостится в США, т.е. я могу предположить что различные сети вы индексите с различным приоритетом, все таки входящий зарубежный траффик у вас не может быть полностью бесплатным.

Для тех у кого загорелись глаза при мыслях о том, что можно заспамить любой поисковик подобным образом. Уже почти полгода я экпериментирую с добными схемами, и могу сказать что реальной помощи от такго кол-ва доменов нет. Главное - не заниматься херней. На каждой странице должно быть 90% осмысленного текста а не дизайна, баннеров и набора ключевых слов. Поэтому дизайна на моих проекта нет вообще и не будет никогда.

Определение правильного дизайна для меня - то что сайт можно смотреть в lynx'е.

Искренне надеюсь на понимание со стороны Яндекса и что все таки меня не вынесут с индеса.

Это проблема робота и самого Яндекса, качать дубли - удовольствие небесплатное.

Яндекс так не считает, уже было два случая когда меня банили именно из-за этого. Именно бан, их саппорт так и отвечал.

Точнее за "поисковый спам". Хотя таковой цели не было. Была лишь оптимизация.

На этот раз я специально пострался исключить ситуацию когда робот может бесконечно бродить по моему сайту. Как минимум ни один из буржуйских роботов еще не заблудился у меня. Я статистику роботов смотрю по несколько раз на дню. Яндекс же не ходил на меня после бана три месяца, а потом за практически один заход выкачал столько.

Яндексу траффик с М10 ничего не стоит, такова маркетинговая политика РТ-комма. Мне же стоило бакса 2 наверно, но дело не в траффе.

Яндекс бар у меня не стоит, у меня Линукс. Да и вряд ли он в данный момент может чем-то помочь - сайта в индексе еще нет.

Ладно, посмотрю, по идее конкурентов у меня особо нет, если ни одна сука не заложит буду висеть в первых строчках долго.

Зачем первые строки сам не знаю, взял их со страницы какого-то робота бесполезного, так они советовали отлучить их робота.

В таком виде роботс у меня уже месяца два один на все виртуальники на машине. Как минимум Гугл отлично индексирует все.

Собственно, на мой вопрос так никто и не ответил.

Если Яндекс находит по ссылке новый для него домен и спустя некоторое время дергает с него роботс и только его, то что это может значить? Придет ли он за контентом?

123
Всего: 21