За уопоминание Кнута, респект. Забывают както о нем, а вот с остальным - не соглашусь.
Чтобы проверить каждую десятую страницу и 0.5 млрд нужн 50 млн * 60 сек = 34 722.2(2) ~ 95 лет! быстрее не получится. Не всякий форум и не всякие новости мусор!
Какое время брать из LastModify или когда ее робот читал???
очень много страниц имею динамический контент - а значит идентичность удасться определить только получив страницу и сравнив контент полученный с тем, что есть в базе
И главное, Вы забываете что сеть асинхронна, с точки зрения информации. Скорость каналов очень сильно отличается. + Обновляемость информации.
Тривиальные методы, очень бысты и хороши, но тольок тогда, когда и задача тривиальна
У меня случей сложнее, понимаю что это - но непонимаю для чего это можно использовать, чтобы извлечь пользу(хотябы не матреиальную).
Вот полный протокол общения бара c IP 88.212.196.89
GET /u?ver=2&id=1502516&lang=0&url=http://......./&show=1&thc=0 HTTP/1.1 Accept: */* Accept-Encoding: gzip, deflate User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322) Host: bar-navig.yandex.ru Connection: Keep-Alive Cookie: yandexuid=2439135611158566589; yabs-frequency=1198393.1:1051126.2:973642.1:831576.2:1061462.1:1477103@20061019-1.1:1484566@20061019-7.1:1481625@20061019-7.1:P677@20061019.2:P647@20060828.1; Session_id=1161253411.0.0.8183232.2:18294905:3.29775.64483.2e6fd4a20f765f79dbc602ce95ecdc15; yandex_login=LOGIN; yandex_fio=%d1%f2%f0%f3%ed%ea%e8%f1%20%de%f0%e8%e9; yandex_mail=LOGIN; yandex_nickname=; yafolder=18294905%3A1510000000000874046; mesort=date; mail_tag=yandex.ru
HTTP/1.1 200 Ok Connection: close Cache-control: no-cache, max-age=0 Expires: Thu, 01 Jan 1970 00:00:01 GMT Content-Type: text/xml; charset=windows-1251 <?xml version="1.0" encoding="windows-1251" ?> <urlinfo> <url domain="is-d.ru"><![CDATA[/]]></url> <tcy rang="3" value="110"/> <topics> <topic title="......................" url="http://www.yandex.ru/yaca/c23-0-0-0-0=0.html"/></topics> <textinfo> .......... ........... ............/textinfo> </urlinfo>
Яша начал логин передавать, раньше не замечал и еще что-то о сессии и кук новый. Возможно там что-то а не в блоке IP
PS Я когдато, как честный, читал бар, указывая свой UserAgent. Скрипт перестал работать, вписал агента как у IE - опять все заработало
XTR, Есть мнение, что по "идеальному" тематическому документу. Частный случай словаря.
super brain, Поймите, алгоритмы поиска основаны на очень серьезной матеиматике. А попытки математику объяснить на палочках и пальцах приводит к огромному количеству неточностей и условностей. И, как следствие, такое объяснение не даст Вам никакой полезной информации. Поэтому я и спросил о вашей подготовке. Если Вы хотите разобраться, попробуйте почитать вот это. Здесь тоже много математики, но более человечно.http://www.minich.ru/business/seo/
super brain, Можно только один вопрос?
А Вы имеете достаточную подготовку в высшей(дискретной) математике? Ибо человеческий язык в этой теме очень быстро заканчивается :)
retider, как выглядит помойка?
- На странице есть много ссылок на другие домены/поддомены.
- Анкоры сслылок содержат ключевики в большом объеме (нечитаемый челоаеком текст).
- отношение текст/ссылки на странице очень мало.
Все это вместе может найти робот и дать наводку Платону. А дальше - как пойдет
Может это просто "замедлитель" реакции, для более устойчивой работы системы. Все знаю, что бываю глюки с индексацией. От апа к апу могут изменятся и количество бэков и колисчтево страниц на разных сайтах(одно и другое связано). Получается, если применять бэки "мгновенно" (на следующий ап), то скачки после каждого апа будут очнеь резкими. А так вводит "смягчение" действия - отвалившиеся бэки действуют еще некоторое время, а на ряду с этим, новые начинабют действовать не сразу (создается инертность системы)
Это Вам нужно доказывать, что модерируется (Призумция невиновности здесь не катит). Если на момент проверки было МНОГО мусора - значит не модерируется.
Вы не совсем правы. Продвигать по высокочастотникам - как и любой другой (пока ссылочное ранжирование рулит). По низкочастотникам - тяжелее. А можно и грамотно сделать флеш, так чтобы была возможность прямого перехода с ПС или другого сайта на конкретную страницу.