Приятно, конечно, стать объектом цитирования, но первая ссылочка ИМХО немножко не подходит под данную тему.
По поводу зиг-загнутых джойнов и само-инвертированные файлов. Несомненно для достаточно длинных (избирательных) запросов разрезание инвертированных списков на куски ускоряет процесс пересечения списков и довольно прилично экономит память. Под достаточно длинным я понимаю такой, у которого после выборки и пересечения N ключевых слов образуется небольшое количество диапазонов номеров документов, в которых могут быть результаты. Тогда, в процессе пересечения с последующими инвертированными списками (с номерами N+1, N+2, ...) не нужно будет вытаскивать списки целиком, а только кусками. В принципе, N может равняться и 1, если в запросе есть достаточно низкочастотное слово.
Проблема в том, что это экономия "в среднем" в худшем случае, всегда можно подобрать запросов из частотных слов, когда эта технология окажется бесполезной и на запросе из 5-10 слов. Что делать с такими тяжелыми и не очень запросами - большой вопрос, но в целом техника эшелонирования (pruning) должна помогать.
Еще одна модная тенденция заключается в том, чтобы разрезать индекс на примерно одинаковые куски, каждый из которых кешируется на 80-90%. Сейчас это стало недорого, благо 4гига памяти воткнуть в машину - не проблема. А в 4 гига памяти можно лего уложить индекс
8 гигов чистого текста, ну или примерно 2-4 млн средневебовских документов. А когда индекс хорошо закеширован, то зюгзаги работают очень хорошо, не сравнить со случаем, когда это все с диска загружается, потому как чтение с диска с небольшими, скажем по нескольку сотен байт пропусками фактически не быстрее, а иногда даже медленнее, чтения всего файла последовательно.
А является ли Яндекс-сервер по-настоящему масштабируемым. В документации про это ничего не написано.
меня просили пример привести, я привел, лично я эту утилиту не использую... я лишь хотел проиллюстрировать, что такие утилиты адекватные оценки снизу могут давать. а так этих утилит в интернет, еще раз повторюсь, довольно много.
в общем, на самом деле, это все уже не важно. посмотрим выше пост человека, у которого выпала только морда с pr 6 :-) мы все просто жертвы калифорнийских жуков. и питаются эти жуки, к сожалению, не растительной, а духовной пищей.
ну правильно, получается оценка снизу. тема паче, если у человека получается почти шесть, то это шесть и есть. более того, я приведу пример из жизни. у меня есть сайт похожей тематике с точно таким же тыц яндексовым. у него pr 6, у меня 5. тулза мне показывает 6 для моего сайта. что очень показательно, потому как, в действительности, несмотря на различия в деталях ранжирования, гуглевый pr очень сильно коррелирует с яндексовым тыцем. что и не удивительно.
msv, дышите глубже.
а если я сказал к теще, значит к теще :-) (c)
очевидно, что жестких критериев нет.
их поисковик, они и будут решать, что нормально, а что нет.
и будет куча, в том числе несправедливо обиженных.
а мы можем только выйти на демонстрацию протеста.
но, с другой стороны, их тоже можно понять: со спамом рано или поздно придется бороться, хотя вот не согласен, что нужно бороться включением-исключением. вполне можно очень немножеко понижать такие страницы, не считать с них ссылки, запихивать во второй эшелон, итд. но это толькое мое ИМХО. а у гугля оно другое.
не забывайте, что всякая тонкая настройка-подстройка требует огромных усилий, а задача любого коммерческого предприятия не строить коммунизм на земле, а зарабатывать деньги. они тривиально оптимизируют :-)
первопричина здесь ;) ;)
очень даже просто (с точностью до некоторых арфиметических операций, сами понимаете подробностей PR не помню):
на бис исполняется оператор
link:this_super_puper_domain
вытаскиваются эти самые линки, если их много, то некоторое количество самых больших. вытаскиваются pr страниц (тоже из гугля), с которых идут линки, вытаскиваются сами страницы, чтобы посчитать outbound links на каждой из этих страниц. итого получаем массив данных
(pr_i, num_links_is)
дальше читаем pagerank explain, например, здесь: http://www.iprcom.com/papers/pagerank/src_13
нет-нет, я не говорю, что круче. просто я имею в виду, что тулза может взять и посмотреть беклинки, и предполагаю, что PR рассчитывается так, как это указано в в статье, предположить следующее его значение. сейчас исследования может и бесполезны, но речь шла ведь о PR до начала выкатывания бигдедди. ведь именно на основе этого PR гуглевцы решали, что переиндексировать основательно, а что нет. а новый PR они, ИМХО, получат, когда переиндексируют все, что задумали переиндексировать.
утилит таких очень много, например, вот такая
http://www.rustybrick.com/pagerank-prediction.php
о какой именно писал автор с VMW я не знаю
Человек утверждает, что оценки этой тулзы очень часто совпадают с реальным гуглевым pr при следующем апдейте. А почему Вы думает, что Гугль оценивает абсолютно по-другому. У Вас есть ссылки на какие-нибудь исследования в этой области? (сейчас сам пойду поищу)