ЗодчийТеней

ЗодчийТеней
Рейтинг
11
Регистрация
13.02.2006
Kryukov:
Алгоритм вычисления ПР (если Вы имели ввиду PageRank) известен и описан фиг-знает с каких времен, задолго до гугля.

именно его, описаны лишь правила и принципы, но реализация индивидуальна в каждом конкретном случае своя
касательно моего мнения, он позволяет повысить релевантность выдаваемых страниц :-), но вот алгоритм оценки, я бы тоже очень хотел узнать, мне еще лишь предстоит реализовать нечто подобное, хотя я и не согласен на все 100 с методикой, но альтернативы не вижу, а над ней бились умы на порядки выше доступных мне :-)
касательно "ПОСМОТРЕТЬ" а почему собственно нет? форум посвящен именно поисковым системам, выложите на суд общественности свою реализацию
Kryukov:
Ну порчему же....
Предположим, что поисковик выдавал результаты без учета PageRank, а теперь хочет его учитывать в вычислениях релевантности. Вопрос - как?

создаем поисковик заново :-),шуту конечно не полностью а лишь 99% :-) но боюсь что алгоритм ПР вам никто не расскажет, лишь догадки и предположения

з.ы. хотелось бы взглянуть на этот поисковик, если можно конечно

itman:
1) В HTTP запросе есть такой параметр if-modified-since или что-то около-того

а как в этом случае быть с динамически генерируемыми страницами? смотреть контрольную сумму? а если была просто изменена структура сайта, грубо говоря добавился еще один пункт в меню а содержимое страницы осталось неизменным? контрольная сумма при этом ведь изменится

я бы предложил примерно такую схему, при первой индексации страницы выделяете слова в нее входящие, сортируете их по частоте, из полученного ряда выбираете десяток другой слов расположенных в центре получившегося списка, это и будет ваша "контрольная сумма". при последующем обходе вы повторяете операцию и сравниваете полученный результат с сохраненным, в зависимости от него уже и выставляется время следующей индексации, либо оно уменьшается, либо увеличивается, в общем дальше идем по схеме itman-на

Зодчий, прекратите паясничать. Если еще раз в личке будут шутки с itman, можете серьезно пострадаете. // Модератор

/ru/forum/comment/1105544

будьте добры поясните пожалуйста уважаемый модератор в чем именно я паясничал и в чем были шутки? не нашел к сожалению контактной информации чтобы задать вопрос персонально вам, если не сложно после прочтения удалите этот пост

Точный и целый разные вещи, нетакли? А насчет неточьности решения и «целого» словаря при этом, спорный вопрос

itman:
но чтобы он там точно хранился :-)

можно процитировать где я это сказал? ну а насчет мучал... некто ведь не заставлял отвечать не такли?

разжевали нарешти :-)

itman:
просто Зодчий невнимательно прочел статью и взбаламутил народ.

ну нифигаж себе наезды, а чем взбаламутил позвольте узнать? вопросом как удалось запихнуть словарь с морфологией в 300Кб?

Tarry:
ЗодчийТеней, Согласен. Посещаемость сама по себе ничего не говорит. Но если ее связать с тематикой запроса, то это уже что-то. :)

утверждение ложно, три месяца назад я запустил сайт который живет исключительно за счет экспорта новостей с популярных ресурсов, экспорт легален, у меня есть на руках разрешения на републикацию материалов, разумеется соблюдаются авторские права, имеются ссылки на источники, и что мы видим, посещаемость сайта уже перевалила за полторы тысячи уникальных в день, по поисковым запросам он зачастую стоит выше чем оригиналы, как вы в этом случае будете производить оценку? вам прейдется вводит тот же пейджранк или ИЦ для учета веса ресурса, хотя впрочем, на мой сайт уже ссылаются на форуме мобайл ревью например, опять же какой будет критерий оценки?

Думаю что посещаемость, ровно как и метатеги изжили себя, нужно нечто абсолютно иное для оценки соответствия релевантности страниц, точно также как и учет банального вхождения искомых слов в документ не дадут вам желаемый результат, вообще, с моей точки зрения, в последнее время стало очень сложно найти необходимую информацию, может конечно не так ищу, это лишь мое мнение, но тем не менее, оценка релевантности документов требует серьезного пересмотра. ИМХО.

з.ы. касательно посещаемости, приведу простой пример на просторах ридной неньки Украины, в лице бигмира с их поисковиком и системой рейтинга, во первых рейтинг врет безбожно, порой расхождения в показаниях внутренних счетчиков и рейтинга бигмир асоставлюют добрую треть, можноко нечьно сделать скидку на то, что счетчик бигмира вызывается через жабу, а внутренний счетчик нет, жаба может быть отключена, но всеравно разница в показаниях слишком велика. Кто муже как вы будете оценивать соотношение ресурсов положим с новостной лентой по направлению политики или hi-tech техники, которые заведомо востребованы и будут иметь высокую посещаемость, с ресурсом положим технологической компании пищевой промышленности который интересен лишь узкому кругу специалистов. Первые могут иметь тысячи уникальных в день, второй десяток другой, вводить коэффициенты? А кто их будет вводить? Программа?

AlexA:
Причем, метод построения словаря мы использовали другой, чем Илья: у него была хэш-таблица, у нас - дерево. Точнее, 2 дерева - основ и окончаний. Плюс очевидные "экономящие" правила, например, приставка НЕ с прилагательными.

можно этот момент осветить более подробно? очень уж заинтересовала подобная схема решения задачи
Всего: 95