это потому что они слова подменяют... конечно ранжировать по смыслу они не могут, они ранжируют по контексту причем не конкретного случая*, а по некоторому среднему значению для случаев* подобных происходящему.
*случай нужно понимать как набор характеристик пользователя и коллекций документов отвечающих семантике запроса
Ну т.е. если юзверь это самец человека от 18 до 25 лет, посещающий сайты знакомств, любящий по ночам посмотреть всякое, и теперь интересуется покупой крутой тачки, то показывать ему нужно машины марки BMW не моложе 20 лет + предложения по автокредитам.
Чем?
...строго говоря это вопрос к первому алгоритму, а не последнему; если заменить слово "переспам", на "вес", то все встанет на свои места, ибо согласно BM25F в точке IDF, вес слова с большей частотой будет уменьшаться для документа... а в контексте ИМ и для всего сайта.Но это не значит что в СЕРПах, в которых вы планируете ранжирование по связкам типа: товар+купить, частотность слова "купить" меньше вашей, а значит есть два сценария:1. Она меньше и вы вылетаете2. Она примерно равна вашей расчетной, но вы меняете слово на картинку, не добираете и вылетаетеЧто же делать? Анализировать СЕРПы по интересующим запросам, но в случае с ИМ ябы наверное начинал отбор с 11-позиции, т.к. в ТОП-10 может быть сильный перекос из-за ПФ... он и в ТОП-20 может сохраняться, но это уже вам решать.
ройте в сторону структуры сайта как по урлам, так и по заголовкам (тем что http); ну и если у вас там канонизация прописывается, это еще одна плохо регулируемая проблема. Это что касается индексации. По входу в поиск, это либо аудит, либо к экстрасенсам.
С - своевременностьЯ так понял по ходу ветки первоначальная задача уже поменялась на общие вопросы оптимизации и планирования?Отвечу на первый вариант вопроса, ибо пригодится и далее.Вместо канонизации используйте заголовки 308-ой например, но на коленке это не сделать, там еще нужно будет наладить фильтрацию на роботов.
а если на сайте 3000 страниц и более тоже вручную?
смотря какие задачи стоят и что вы готовы сделать для их решения. Бывают случаи когда руки дешевле в несколько раз чем автоматизация, бывает и наоборот. Но в базе все решает специфика сайта и СЕРПЫ на которые он нацелен.
в рубрике посоветуйте:1. ispserver.ru - VDS (тут прям уютно)2. hostland.ru - хостинг (тут без косяков с 2008 я тут по-моему, если не путаю), но держу только мелочь типа визиток ИПшников
да, но это только один фактор из десятков.Ваша основная ошибка в том, что вы предполагаете наличие некоего общего опыта, в то время как его не существует.Есть запрос пользователя в поиске, есть страница результатов поиска и на текущий момент времени это всё.Из-за этой ошибки вы можете полагать конкурентом того, кто им не является, при этом совершенно не важно по скольким запросам у вас есть пересечения или, например, то, что вы в одной тематике.Хотите анализировать выдачу — анализируйте, сервисы для этого существуют, а сравнивать свой сайт с кем-то из СЕРПа в котором вас нет это пустая трата времени.
site.com и site.com/? - это разные адреса, и нет ничего странного что у них немного разное содержание... а не так давно один поисковик отечественного производства не только считал адреса типа: site.com/?param1=val1¶m2=val2 и site.com/?param2=val2¶m1=val1, разными, но и самостоятельно переставлял группы параметров в своем индексе, не забывая при этом лепить дубли.А подставлением всего чего непопадя в УРЛ палятся в основном рукожопые вебмастера, но то такое.
На каком уровне? В рамках синхронизации и при ошибках в проектировании, некоторые владельцы ИМ готовы душу дьяволу продать, за результат...Выше вам верно написали, но кроме прочего вам не мешало бы ориентироваться в механике процессов, без этого управлять общением 1Сников и приличных кодеров не выйдет.