perl изучай. Это хороший инструмент для таких вещей.
От третьей части пока только заготовка. Когда будет текст, тогда и обсудим...
У Рамблера есть хитрые методы для определения дорвеев. При этом не особо важно, как они выглядят с виду. Автомат. Кажется, работает с "целым" сайтом, а не с каждой страницей.
Мне, кстати, показалось, что это не просто конференция и не просто левые люди.
по крайней мере, автор статьи http://www.stanford.edu/~sdkamvar/papers/blockrank.pdf
Taher H. Haveliwala - по моему, чуть ли не в команде Гугла. По крайней мере, есть статьи (даже, кажется, с использованием данных по базе Гугла) об алгоритме PageRank...
-Гы. Мы ведь подобное обсуждали уже- разделение расчета на "внутри сайта" и "между сайтами". :) Гуглевский отпор маловерам:
+%C2%C8%D6
Спросимте себя, народ, зачем вообще нужны 2 варианта выдачи: по страницам и по сайтам.
Цитируемость (PR, ВИЦ) - есть у каждой страницы. Релевантность текста - тоже.
У сайта есть кроме этого: 1) ссылочное ранжирование и 2) число рел. страниц (или не только число, туда можно выключить и параметры "качества" страниц).
Лишая себя добровольно учета одного из этих параметров (2-го), поисковики сделают себя более предсказуемыми. На фиг оно им надо?
Поэтому, Nicon, давай априори считать, что зависимость от объема релевантной запросу информации есть. А ты тогда доказывай, что ее нет.
-да блин, это уже не в "открытом виде". Мы слышали, что у Рамьлера покупатели рекламы видят статистику.
Вообще, хорошее это дело- давать объявления о работе. Сразу столько всего привалило... Извиняюсь заранее, если на почту не сразу отвечаю кому...
ostmaster, ты о чем? о чем подумать? :)
defresto, угу - интересует, стукнусь сначала в почту - мне так привычнее :)
И тебе, Nita, обязательно напишу.
Насколько я помню по моему более чем 2-х летнему опыту, :) Яндекс в ьан заносит после 1000 "быстрых" запросов.
prototype, дак в одной из тем есть такой скрипт :)
Alexx, сбавь тон, это я как просто читатель типа советую.
-так чего тогда сюда запостил? :)
-если б ты чего-то понял, то имей в виду, что тИЦ существует только у Яндекса в каталоге, ПО ОПРЕДЕЛЕНИЮ.
-если ты такой умный, то почему ты постишь здесь вопросы? :)
Ответ: ответа не существует.
Есть мнения (я видел, как Мельков писал, но он говорит, что это глюк), что при расчете тИЦ используется ВИЦ ссылающихся страниц. Топик об этом есть, вероятно тебе придется искать перебором :(
По моему, если на сайт есть Х ссылок, то тИЦ может быть от 0.1Х до 5Х.