itman

Рейтинг
64
Регистрация
26.05.2001

Кстати персонолизированный поиск - это подкрутка параметров, только автоматическая.

Про кольцо Вы, наверное, правильно говорите. Про кольцо я не подумал. Даже если оно не целиком проиндексировано, смысла нет. Но можно множество левых сайтиков понасоздавать, с миру по нитке на PR наберется. У майкрософтовцев как раз и написано про очень высокую корреляцию между indegree и pr.

Kryukov:
Кстати сказать, вообще по жизни в этой области все плохо работает, что поддается алгоритмизации и опубликовано :) (как я завернул?)

ужоснах, будет в случае линейной зависимости. потому как сайты с большим PR будут бить сайты со средним и малым PR (а они будут отличаться в разы или даже в десятки раз) по всем ключевым словам и фразам, встречающимся на сайте с высоким PR. понимаю, конечно, что это мечта оптимизатора, но для разработчика ПИСа как раз тот самый ужоснах.

Miha Kuzmin (KMY):
Это же ужоснах :( Вы бы еще в логарифм друг друга возвели :)

Ээээ... как бы это попроще сказать. В рамках дозволенного редко это происходит, да и сами рамки размыты. Вот покупка ссылко - это дозволено или нет? А если сайтики борцам со спамом неизвестные, то pr нефигово можно поднять себе. Опять-таки, я слышал про попытки отслеживать длинные кольца ссылок, но не уверен, что кто-то в промышленном масштабе это сейчас делает.

Ну и опять-таки, PR - только один из индексов популярности. Есть подозрение, что сам по себе он уже не очень хорошо работает. Неплохо бы также какую-никакую спамобойку поддерживать и постоянно подкручивать. Тогда и тот же PR можно было бы использовать.

Kryukov:
Беда в том, что существует масса запросов типа "рецепты" "гороскопы" и пр. Сайтов такой тематики пруд-пруди. Вопрос, а показывать-то что? У кого чаще и жирнее написано? (это я для противников использования посторонних факторов). Можно, конечно, отослать меня создавать компьютерный интеллект, или можно спросить у оператора - пусть скажет свое мнение (тоже выход :)

А борьба за PageRank идет у конкурентов за "хорошие" запросы с помощью оптимизаторов. Ну и пусть себе конкурируют в рамках дозволенного :) Кто лучше "честно" сделал - тот и имеет бутерброд с икрой.

Ну в действительности оказывается, что не так уж и сложно. Для оптимизаторов это не очень большая проблема. Другое дело, что слабо цитируемые, мало посещаемые, то бишь в основной своей массе не особо интересные ресурсы наверх не выползут.

1) Общепринятое мнение, что пейджранк - это маленькая добавка. Я с этим согласен

2) Чтобы с его помощью не накручивали сильно, его влияние должно расти сильно медленнее чем сам pr. то есть все сайты с большими pr примерно эквивалентны между собой. pr нужен чтобы отличить крутые сайты от некрутых, то бишь прибавлять нужно что-нибудь вроде log(pr).

3) Может лучше не прибавлять а умножать на что-нибудь вроде 1 + log(pr). Хотя не суть важно.

Kryukov:
Т.е. Вы считаете, что PR линейно влияет на результат и ни один из факторов не может оказывать влияния на другой. По жизни я сейчас так и сделал, но правильно ли это...

Вот опять-таки, не буду говорить, что в mnogosearch или htdig лучше и что у инх таких проблем нет. Просто констатирую факт.

ну в этом случае может форум меня бы и спас, если бы у меня было время ждать ответа с форума, но он явно не спас бы меня в случае трех других описанных баг, которые явно конфигурацией не лечатся. хорошо, двух, если Вы считаете, что mysql всегда правильный и правильной версии.

Zute:
В приведённом вами топике форума говорится о проблеме создания .pid файла в недефолтной VarDir для демона searchd и способе указания этой VarDir так, чтобы .pid файл создавался именно там, где надо.

Действительно, поиск по форуму какой-то глючный, с ходу ту ветку найти не удалось, но суть в том, что для mod_dpsearch DBAddr нужно только в одном кофигурационном файле, а не в каждом, т.е. если указать в двух конфигурационных файлах, то результаты удвоятся, если в трёх - утроятся.

По-моему, не дебаггер нужен, а правильно задавать вопросы на форуме :)

Понимаете ли в чем дело. Документацию я как раз читал. Кроме стандартной документации есть еще всякие интересные факи к ней!!! Ссылки на которые не сразу находишь. Хотя было бы гораздо логичнее включить это все в документацию. Понимаю руки не доходя.

Кроме того, вот что например говорит сам Максим по поводу VarDir http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02&topic_id=1080812470


Попробуйте указать новую varDir для searchd через параметр -w:
searchd -w /var/tree

То есть получается он сам не знает, что VarDir можно задавать в search.htm?

И объясните, плз, каким образом неправильная конфигруация может привести к ДУБЛИРОВАНИЮ результатов. К отсутствию результатов, я еще могу понять, но вот к ДУБЛИРОВАНИЮ сомнительно. Где, кстати, про это написано в форуме? Покажите пальцем. Насколько я заметил форум не умеет искать по-русски. По-английски я ничего не нашел похожего. Зато я нашел в форуме описание проблемы с поиском внутри сайта! И никакого внятного ответа на эту тему. Кроме предложения попробовать версию 4.31. Но сейчас 4.38 и проблема до сих пор есть.

Потом опять-таки есть неприятные всякие моменты в стандартных dist-конфигах. Там есть параметр, который должен быть одинаковый во всех конфиг файлах. Но в одном файле мне предлагают раскомментировать значение 1024, а в другом (там неявное значение) получается 768? Что это параноя? Конечно, в документации про это написано, но ради таких простых вещей человек не должен лезть в доки.

Zute:
Большинство ваших проблем обсуждалось на форуме проекта. В частности, удвоение результатов при использовании mod_dpsearch зачастую связано с неправильной конфигурацией (ведь у нас не принято читать документацию, правда ? :), и проблемы с нестандартным расположением mysql и прочих используемых библиотек просто решаются явным указанием путей к ним при запуске configure. Ну и естественно, что нестандартную VarDir нужно указывать явно, хотя можно поменять и при сборке, опять же указав опцию для configure.

это все неестественно до тех пор, пока в доках не написано. заметьте именно в доках по search.htm, а не где-нибудь на форуме, где нельзя искать по-русски. И потом, заметьте, я не ругаю. Для того количества разработчиков, которые этим всем занимаются может даже замечательно. Просто вместо безосновательного восхищения я говорю правду: все-таки надо уметь работать в дебаггере и знать язык Си, если хочешь быть уверен, что все поставится и заработает так, как надо.

Абсолютно не преувеличенно. У вас работает поиск в пределах одного сайта? Лично у меня не работал, пока не поправил (фактически дописать пришлось код). В mod_dpsearch результаты двоятся. stored в некоторые моменты своей жизни начинает сжирать 100% процессорного времени. если слеш не поставил в конце урла вида http://rbc.ru тоже проблемы с группировкой по сайту. Впрчем, я одному из авторов послал описания проблем, надеюсь в будущем это поправят.

А сколько там всего еще скрытого есть? Это то, на что я непосредственно напоролся. Я уж молчу про то, что процесс конфигурации не нашел либы mysql, но не обломился с соответствующими словами. Зато потом обламывалась компиляция. И уж про такую мелочь, что VarDir в случае его нестандартного расположения надо прописать в search.htm.

Zute:
Ну это слишком преувеличено :)
Я так и не нашел ни одного mysql сервера старше версии 4.0.7, имеющего такие же проблемы с LIMIT OFFSET как у вас. Может оно всё у вас с дебаггером под мышкой ? :d
Всего: 444