Altavista Prisma - новая технология

AA
На сайте с 16.04.2001
Offline
70
1179

Altavista Prisma - система уточнения запросов.

Для этого на странице результатов поиска выводится список из 12 слов, названий и понятий, наиболее близких по смыслу к запросу.

Далее (для этого нужно кликнуть на соответствующую ссылку) система добавляет уточняющий термин к исходному запросу и снова производит поиск. Всего пользователь может сделать до трех уточнений исходного запроса.

Подробнее см. Компьюленту

Я немного поигрался с Призмой, например, "louis armstrong" - вещь достаточно серьезная.

Нечто подобное (не примите за желание примазаться) мы тоже делаем (см. обсуждение ), но у альтависты результаты суше.

С уважением, Антонов Александр.
F
На сайте с 15.11.2000
Offline
116
#1
Как писал AlexA
Для этого на странице результатов поиска выводится список из 12 слов, названий и понятий, наиболее близких по смыслу к запросу.

Похоже, они используют не только информацию о совместной встречаемости терминов, но и анализируют запросы пользователей. По крайней мере, на низкочастотные запросы (для которых находится 200-300 страниц) AltaVista выдает полную ерунду, никак не связанную с темой. Например, на слово из трех букв предлагаются "Company Details", "October 24" и т.д. -- такие сочетания встречаются обычно на 1-5 страницах, что для статистических выводов крайне мало. Более того, та же фраза "October 24" никак не выделена в имеющихся страницах, и если не использовать базу запросов, неясно, почему AV выбрала ее.

Но такая чехарда есть и по более популярным запросам, например, на russian search engine отображаются довольно дикий список, включающий три группы терминов:

  • русские брачные агентства (Agency, Russian Lady, Russian Women),
  • список языков и стран (Countries, Eastern Europe, English, German, Portuguese, Spanish, Worldwide)
  • и только два термина, касающиеся поисковиков (Full Text, Search Engine Submission)

Анализ текстов страниц говорит о том, что AV может сделать еще три вещи, которые могли бы улучшить результаты поиска:

1) она пытается найти связанные слова, даже когда данных недостаточно для выявления устойчивых закономерностей -- их надо игнорировать;

2) она не умеет выделять списки, слова из которых, как правило, являются паразитными спутниками (пример выше -- списки языков);

3) она не отсеивает жестким образом дубли страниц перед тем, как искать закономерности.

С уважением,

Александр Садовский.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий