Похоже, они используют не только информацию о совместной встречаемости терминов, но и анализируют запросы пользователей. По крайней мере, на низкочастотные запросы (для которых находится 200-300 страниц) AltaVista выдает полную ерунду, никак не связанную с темой. Например, на слово из трех букв предлагаются "Company Details", "October 24" и т.д. -- такие сочетания встречаются обычно на 1-5 страницах, что для статистических выводов крайне мало. Более того, та же фраза "October 24" никак не выделена в имеющихся страницах, и если не использовать базу запросов, неясно, почему AV выбрала ее.
Но такая чехарда есть и по более популярным запросам, например, на russian search engine отображаются довольно дикий список, включающий три группы терминов:
Анализ текстов страниц говорит о том, что AV может сделать еще три вещи, которые могли бы улучшить результаты поиска:
1) она пытается найти связанные слова, даже когда данных недостаточно для выявления устойчивых закономерностей -- их надо игнорировать;
2) она не умеет выделять списки, слова из которых, как правило, являются паразитными спутниками (пример выше -- списки языков);
3) она не отсеивает жестким образом дубли страниц перед тем, как искать закономерности.
С уважением,
Александр Садовский.
Современные поисковые системы в Web универсальны, и потому обрабатывают гигантские объемы информации. Поэтому медленный поиск ничего не даст. В то же время, если сориентироваться на какую-то очень узкую область, осмысленный поиск может оказаться востребованным.
Он также будет полезен как робот, отвечающий на FAQ вопросы -- составить "смысловую карту" одного сайта или форума нетрудно, а помощь новичкам такой робот окажет большую.
Еще вариант -- для просеивания первично отфильтрованной информации. Вначале задается запрос десятку-другому поисковиков, выбирается с каждого сотня лучших ссылок, а затем смысловой поиск отбирает из этой массы самое лучшее, выкачивая и анализируя страницы.
Некорректно приравнивать новостные страницы ко страницам, содержащим новостную информацию. Даже самые большие страницы газет редко содержат новости целиком -- только анонсы со ссылкой, ведущей на статью. Поэтому нельзя говорить о том, что нужно их переиндексировать ради сохранения новизны новостной информации -- вся информация находится в глубине сайта, на отдельных страницах. Эти отдельные страницы-статьи почти не нуждаются в переиндексации, так как они годами не меняются.
Что получается? Большинство изменчивых страниц можно переиндексировать не чаще, чем обычные страницы, если будет способ извлекать из них новые ссылки. А способ этот есть, называется Яндекс.Бар и тулбар Google.
Как всегда, все кончится попойкой? ;)
Встреча в офлайне сопряжена с определенными трудностями в виде перемещения из одного государства в другое. А начать новую ветку форума может любой, если тема будет интересна, участники форума поддержат ее.
Вес PageRank отличается от обычной посещаемости тем, что "доля качества" в нем заметно выше. Посетителей можно нагнать рекламой, а создать мгновенно сайт с хорошим PR невозможно. Что касается проблемы выбора между сайтом-старожилом и сайтом-новичком (при равном качестве информации), то она есть, и часто решается не в пользу новичков. Но качество при этом, как правило, не страдает.
Тогда возникает вопрос: почему поисковик должен выдавать популярные страницы в ответ на запрос? С этим справляется и рейтинг Рамблера. Переиндексация нужна, прежде всего, чтобы выдаваемая поисковиком информация была актуальна, и найденная страница (сайт) соответствовали тому, что знает о них поисковик. С этой точки зрения соотношение затраты/качество гораздо лучше для меры, выбранной в статье.
Быстро меняющиеся страницы, как правило, сами не содержат ценную информацию, а только анонсы и ссылки (представьте, как выглядит новостная лента или раздел форума), поэтому их постоянная переиндексация ставит целью получить, прежде всего, новые URL. А эта задача касается уже не свежести, а объема базы.
Поэтому мне трудно согласиться, что в статье выбрана некорректная мера оценки свежести страниц. А если верна мера, то верны и выводы.
Даже если бы сайты сами получили ссылки на других ресурсах, это считалось бы поисковым спамом, так это попытка повлиять на результаты поиска.
Здесь вопрос надо ставить по-другому: обман ли это заказчика, если после того, как он перестанет платить, его сайт тут же упадет в результатах поиска? Если ему об этом честно говорят до получения оплаты, значит никакого обмана нет.
Это так. Но, с другой стороны, судя по тому, как медленно добавляют крупные сайты возможности вроде учета уникальных посетителей или геотаргетинга, можно предположить, что при реализации этих свойств в больших системах возникают определенные сложности.
В Яндексе зеркала -- это полностью идентичные сайты, все остальное рассматривается как две разных группы документов, часть из которых будет признана дублирующими друг друга.
Как ответил на форуме Дмитрий Крюков,
Вот вам и достоинства/недостатки недорогой поисковой машины, уже обсуждавшиеся на этом форуме.
С одной стороны, можно сказать, что они распыляются. С другой стороны, у них работает очень дорогое оборудование, и потому хороши все средства, чтобы окупать его. Это вопросы того же плана, как коммерческий полет Дэниса Тито на станцию "Мир", предназначавшейся для научных экспериментов. Если бы станция обходилась в копейки, там могла бы жить чистая наука; но миллиардные затраты надо как-то окупать.
Несмотря на то, что тулбар говорит, что вычисления идут, никакой активности в интернете и загрузки процессора не наблюдается: все, что было -- один запрос программы "dcclient.exe" наружу. Возможно, это связано с тем, что у меня стоит NT -- "At the moment, we do not recommend enabling it on either Win 95 or Win NT, although we will be supporting it on Win NT in the near future".
Еще интересно взглянуть на статистику "команды Google" -- объем вычислений, проделываемый всеми, у кого включена данная возможность в тулбаре (на сегодня 2475 человек).
WU (work unit) -- минимальный объем вычислений, эквивалентный примерно 2-3 дням работы во время простоев на машине среднего класса. Score -- соотношение объема работ, проделанного командой Google по сравнению с тем, сколько вычислений сделал бы одиночный Pentium III частотой 400 МГц. Как видно, производительность компьютеров, подключенных по этой программе, в среднем в 2,4 раза больше чем у PIII-400.