создаем поисковик заново :-),шуту конечно не полностью а лишь 99% :-) но боюсь что алгоритм ПР вам никто не расскажет, лишь догадки и предположения
з.ы. хотелось бы взглянуть на этот поисковик, если можно конечно
а как в этом случае быть с динамически генерируемыми страницами? смотреть контрольную сумму? а если была просто изменена структура сайта, грубо говоря добавился еще один пункт в меню а содержимое страницы осталось неизменным? контрольная сумма при этом ведь изменится
я бы предложил примерно такую схему, при первой индексации страницы выделяете слова в нее входящие, сортируете их по частоте, из полученного ряда выбираете десяток другой слов расположенных в центре получившегося списка, это и будет ваша "контрольная сумма". при последующем обходе вы повторяете операцию и сравниваете полученный результат с сохраненным, в зависимости от него уже и выставляется время следующей индексации, либо оно уменьшается, либо увеличивается, в общем дальше идем по схеме itman-на
Зодчий, прекратите паясничать. Если еще раз в личке будут шутки с itman, можете серьезно пострадаете. // Модератор
/ru/forum/comment/1105544
будьте добры поясните пожалуйста уважаемый модератор в чем именно я паясничал и в чем были шутки? не нашел к сожалению контактной информации чтобы задать вопрос персонально вам, если не сложно после прочтения удалите этот пост
Точный и целый разные вещи, нетакли? А насчет неточьности решения и «целого» словаря при этом, спорный вопрос
можно процитировать где я это сказал? ну а насчет мучал... некто ведь не заставлял отвечать не такли?
разжевали нарешти :-)
ну нифигаж себе наезды, а чем взбаламутил позвольте узнать? вопросом как удалось запихнуть словарь с морфологией в 300Кб?
утверждение ложно, три месяца назад я запустил сайт который живет исключительно за счет экспорта новостей с популярных ресурсов, экспорт легален, у меня есть на руках разрешения на републикацию материалов, разумеется соблюдаются авторские права, имеются ссылки на источники, и что мы видим, посещаемость сайта уже перевалила за полторы тысячи уникальных в день, по поисковым запросам он зачастую стоит выше чем оригиналы, как вы в этом случае будете производить оценку? вам прейдется вводит тот же пейджранк или ИЦ для учета веса ресурса, хотя впрочем, на мой сайт уже ссылаются на форуме мобайл ревью например, опять же какой будет критерий оценки?
Думаю что посещаемость, ровно как и метатеги изжили себя, нужно нечто абсолютно иное для оценки соответствия релевантности страниц, точно также как и учет банального вхождения искомых слов в документ не дадут вам желаемый результат, вообще, с моей точки зрения, в последнее время стало очень сложно найти необходимую информацию, может конечно не так ищу, это лишь мое мнение, но тем не менее, оценка релевантности документов требует серьезного пересмотра. ИМХО.
з.ы. касательно посещаемости, приведу простой пример на просторах ридной неньки Украины, в лице бигмира с их поисковиком и системой рейтинга, во первых рейтинг врет безбожно, порой расхождения в показаниях внутренних счетчиков и рейтинга бигмир асоставлюют добрую треть, можноко нечьно сделать скидку на то, что счетчик бигмира вызывается через жабу, а внутренний счетчик нет, жаба может быть отключена, но всеравно разница в показаниях слишком велика. Кто муже как вы будете оценивать соотношение ресурсов положим с новостной лентой по направлению политики или hi-tech техники, которые заведомо востребованы и будут иметь высокую посещаемость, с ресурсом положим технологической компании пищевой промышленности который интересен лишь узкому кругу специалистов. Первые могут иметь тысячи уникальных в день, второй десяток другой, вводить коэффициенты? А кто их будет вводить? Программа?