Кстати персонолизированный поиск - это подкрутка параметров, только автоматическая.
Про кольцо Вы, наверное, правильно говорите. Про кольцо я не подумал. Даже если оно не целиком проиндексировано, смысла нет. Но можно множество левых сайтиков понасоздавать, с миру по нитке на PR наберется. У майкрософтовцев как раз и написано про очень высокую корреляцию между indegree и pr.
ужоснах, будет в случае линейной зависимости. потому как сайты с большим PR будут бить сайты со средним и малым PR (а они будут отличаться в разы или даже в десятки раз) по всем ключевым словам и фразам, встречающимся на сайте с высоким PR. понимаю, конечно, что это мечта оптимизатора, но для разработчика ПИСа как раз тот самый ужоснах.
Ээээ... как бы это попроще сказать. В рамках дозволенного редко это происходит, да и сами рамки размыты. Вот покупка ссылко - это дозволено или нет? А если сайтики борцам со спамом неизвестные, то pr нефигово можно поднять себе. Опять-таки, я слышал про попытки отслеживать длинные кольца ссылок, но не уверен, что кто-то в промышленном масштабе это сейчас делает.
Ну и опять-таки, PR - только один из индексов популярности. Есть подозрение, что сам по себе он уже не очень хорошо работает. Неплохо бы также какую-никакую спамобойку поддерживать и постоянно подкручивать. Тогда и тот же PR можно было бы использовать.
Ну в действительности оказывается, что не так уж и сложно. Для оптимизаторов это не очень большая проблема. Другое дело, что слабо цитируемые, мало посещаемые, то бишь в основной своей массе не особо интересные ресурсы наверх не выползут.
1) Общепринятое мнение, что пейджранк - это маленькая добавка. Я с этим согласен
2) Чтобы с его помощью не накручивали сильно, его влияние должно расти сильно медленнее чем сам pr. то есть все сайты с большими pr примерно эквивалентны между собой. pr нужен чтобы отличить крутые сайты от некрутых, то бишь прибавлять нужно что-нибудь вроде log(pr).
3) Может лучше не прибавлять а умножать на что-нибудь вроде 1 + log(pr). Хотя не суть важно.
Вот опять-таки, не буду говорить, что в mnogosearch или htdig лучше и что у инх таких проблем нет. Просто констатирую факт.
ну в этом случае может форум меня бы и спас, если бы у меня было время ждать ответа с форума, но он явно не спас бы меня в случае трех других описанных баг, которые явно конфигурацией не лечатся. хорошо, двух, если Вы считаете, что mysql всегда правильный и правильной версии.
Понимаете ли в чем дело. Документацию я как раз читал. Кроме стандартной документации есть еще всякие интересные факи к ней!!! Ссылки на которые не сразу находишь. Хотя было бы гораздо логичнее включить это все в документацию. Понимаю руки не доходя.
Кроме того, вот что например говорит сам Максим по поводу VarDir http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02&topic_id=1080812470
То есть получается он сам не знает, что VarDir можно задавать в search.htm?
И объясните, плз, каким образом неправильная конфигруация может привести к ДУБЛИРОВАНИЮ результатов. К отсутствию результатов, я еще могу понять, но вот к ДУБЛИРОВАНИЮ сомнительно. Где, кстати, про это написано в форуме? Покажите пальцем. Насколько я заметил форум не умеет искать по-русски. По-английски я ничего не нашел похожего. Зато я нашел в форуме описание проблемы с поиском внутри сайта! И никакого внятного ответа на эту тему. Кроме предложения попробовать версию 4.31. Но сейчас 4.38 и проблема до сих пор есть.
Потом опять-таки есть неприятные всякие моменты в стандартных dist-конфигах. Там есть параметр, который должен быть одинаковый во всех конфиг файлах. Но в одном файле мне предлагают раскомментировать значение 1024, а в другом (там неявное значение) получается 768? Что это параноя? Конечно, в документации про это написано, но ради таких простых вещей человек не должен лезть в доки.
это все неестественно до тех пор, пока в доках не написано. заметьте именно в доках по search.htm, а не где-нибудь на форуме, где нельзя искать по-русски. И потом, заметьте, я не ругаю. Для того количества разработчиков, которые этим всем занимаются может даже замечательно. Просто вместо безосновательного восхищения я говорю правду: все-таки надо уметь работать в дебаггере и знать язык Си, если хочешь быть уверен, что все поставится и заработает так, как надо.
Абсолютно не преувеличенно. У вас работает поиск в пределах одного сайта? Лично у меня не работал, пока не поправил (фактически дописать пришлось код). В mod_dpsearch результаты двоятся. stored в некоторые моменты своей жизни начинает сжирать 100% процессорного времени. если слеш не поставил в конце урла вида http://rbc.ru тоже проблемы с группировкой по сайту. Впрчем, я одному из авторов послал описания проблем, надеюсь в будущем это поправят.
А сколько там всего еще скрытого есть? Это то, на что я непосредственно напоролся. Я уж молчу про то, что процесс конфигурации не нашел либы mysql, но не обломился с соответствующими словами. Зато потом обламывалась компиляция. И уж про такую мелочь, что VarDir в случае его нестандартного расположения надо прописать в search.htm.