T.R.O.N

T.R.O.N
Рейтинг
314
Регистрация
18.05.2004

За уопоминание Кнута, респект. Забывают както о нем, а вот с остальным - не соглашусь.

Vladimir_Rublin:
+ Промаркируем как "не сравниваемые" все объёмные (имеющие много страниц) сайты, которым можно доверять и которые вообще не нужно сравнивать, т.к. контент на них гроша выеденного не стоит (новости, форумы и т.п. и сайты которые сами вздрючат если у них покомуниздят контент).
{хлоп, осталось 0,5 млрд страниц}

Чтобы проверить каждую десятую страницу и 0.5 млрд нужн 50 млн * 60 сек = 34 722.2(2) ~ 95 лет! быстрее не получится. Не всякий форум и не всякие новости мусор!

Vladimir_Rublin:
+ Отсечём страницы которые изменялись позднее чем NN секунд от даты текущего проверяемого документа (ведь для практических целей, нет ничего ужасного в том, что кто то процитировал документ настолько старый в интернете, что его уже пол интернета процитировала).

Какое время брать из LastModify или когда ее робот читал???

очень много страниц имею динамический контент - а значит идентичность удасться определить только получив страницу и сравнив контент полученный с тем, что есть в базе

И главное, Вы забываете что сеть асинхронна, с точки зрения информации. Скорость каналов очень сильно отличается. + Обновляемость информации.

Тривиальные методы, очень бысты и хороши, но тольок тогда, когда и задача тривиальна

Каширин:
Мне кажется, труднее всего объяснить то, что сам до конца не понимаешь.

У меня случей сложнее, понимаю что это - но непонимаю для чего это можно использовать, чтобы извлечь пользу(хотябы не матреиальную).

Вот полный протокол общения бара c IP 88.212.196.89

GET /u?ver=2&id=1502516&lang=0&url=http://......./&show=1&thc=0 HTTP/1.1
Accept: */*
Accept-Encoding: gzip, deflate
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)
Host: bar-navig.yandex.ru
Connection: Keep-Alive
Cookie: yandexuid=2439135611158566589; yabs-frequency=1198393.1:1051126.2:973642.1:831576.2:1061462.1:1477103@20061019-1.1:1484566@20061019-7.1:1481625@20061019-7.1:P677@20061019.2:P647@20060828.1; Session_id=1161253411.0.0.8183232.2:18294905:3.29775.64483.2e6fd4a20f765f79dbc602ce95ecdc15; yandex_login=LOGIN; yandex_fio=%d1%f2%f0%f3%ed%ea%e8%f1%20%de%f0%e8%e9; yandex_mail=LOGIN; yandex_nickname=; yafolder=18294905%3A1510000000000874046; mesort=date; mail_tag=yandex.ru

HTTP/1.1 200 Ok
Connection: close
Cache-control: no-cache, max-age=0
Expires: Thu, 01 Jan 1970 00:00:01 GMT
Content-Type: text/xml; charset=windows-1251

<?xml version="1.0" encoding="windows-1251" ?>
<urlinfo>
<url domain="is-d.ru"><![CDATA[/]]></url>
<tcy rang="3" value="110"/>
<topics>
<topic title="......................" url="http://www.yandex.ru/yaca/c23-0-0-0-0=0.html"/></topics>
<textinfo>

..........
...........
............/textinfo>
</urlinfo>

Яша начал логин передавать, раньше не замечал и еще что-то о сессии и кук новый. Возможно там что-то а не в блоке IP

PS Я когдато, как честный, читал бар, указывая свой UserAgent. Скрипт перестал работать, вписал агента как у IE - опять все заработало

XTR, Есть мнение, что по "идеальному" тематическому документу. Частный случай словаря.

super brain, Поймите, алгоритмы поиска основаны на очень серьезной матеиматике. А попытки математику объяснить на палочках и пальцах приводит к огромному количеству неточностей и условностей. И, как следствие, такое объяснение не даст Вам никакой полезной информации. Поэтому я и спросил о вашей подготовке. Если Вы хотите разобраться, попробуйте почитать вот это. Здесь тоже много математики, но более человечно.http://www.minich.ru/business/seo/

super brain, Можно только один вопрос?

А Вы имеете достаточную подготовку в высшей(дискретной) математике? Ибо человеческий язык в этой теме очень быстро заканчивается :)

retider, как выглядит помойка?

- На странице есть много ссылок на другие домены/поддомены.

- Анкоры сслылок содержат ключевики в большом объеме (нечитаемый челоаеком текст).

- отношение текст/ссылки на странице очень мало.

Все это вместе может найти робот и дать наводку Платону. А дальше - как пойдет

Может это просто "замедлитель" реакции, для более устойчивой работы системы. Все знаю, что бываю глюки с индексацией. От апа к апу могут изменятся и количество бэков и колисчтево страниц на разных сайтах(одно и другое связано). Получается, если применять бэки "мгновенно" (на следующий ап), то скачки после каждого апа будут очнеь резкими. А так вводит "смягчение" действия - отвалившиеся бэки действуют еще некоторое время, а на ряду с этим, новые начинабют действовать не сразу (создается инертность системы)

shade2:
Где доказательства того, что сайт не модерируется? Модерируется!

Это Вам нужно доказывать, что модерируется (Призумция невиновности здесь не катит). Если на момент проверки было МНОГО мусора - значит не модерируется.

shade2:
Только не сразу!
Если это с задержкой на день, имхо, и при этом добавилось всего 1-2 сайта с мусором - за это врятле накажут. А если модерируеш один раз в месяц и за это время скопились тонны мусора - то здесь яндекс поступает как осинизатор, избавляя сеть от от грязи (делает то, что Вы не доделали!, тольок быстрее и качественней)
-Link-:
Яндекс индексирует флэш сайты
Вот только возможно ли нормально продвигать флэш сайты никто не знает

Вы не совсем правы. Продвигать по высокочастотникам - как и любой другой (пока ссылочное ранжирование рулит). По низкочастотникам - тяжелее. А можно и грамотно сделать флеш, так чтобы была возможность прямого перехода с ПС или другого сайта на конкретную страницу.

Всего: 4849