Поисковая машина нового поколения

[Удален]
#11

А я бы вот в яндексе такую бы фишку сделал - если сниппеты одинаковые, то выводить только первый (самый релевантный) результат. Идея конечно спорная, но видеть три страницы подряд одно и тоже - убивает.

spark
На сайте с 24.01.2001
Offline
130
#12

О у меня пункт 2 готов, спасибо Миха

2) количеством дублей и невозможностью определить оригинальный источник

[Удален]
#13

Вообще я не совсем в курсе, но база приблизительно так устроена:

Есть словарь из нормализованных словоформ.

Есть база с документами, каждый документ представляется списком, в котором элементы есть id от словоформы + еще несколько параметров (вес слова, допустим).

Более-менее верно ?

A1
На сайте с 22.08.2003
Offline
1
#14

Насколько я понимаю решений по оценке ценности инфы никто не предложил. А если к этому вопросу подойти с другой стороны, зачем поисковой машине оценивать ту или иную инфу, её степень. Пусть сам "клиент сети" на своём ресурсе оценит её и при регистрации на поисковой машине даст основные сноски на неё. И без этих сносок не регистрировать его.

Как один из вариантов ???

spark
На сайте с 24.01.2001
Offline
130
#15

Я так и не понял, что вы подразумеваете под ценностью информации и уж тем более, как ее может определить сам "клиент сети".

A1
На сайте с 22.08.2003
Offline
1
#16

Ценность, главное, что несет в себе сайт или другой ресурс.

Для примера. Туристический сайт посещают с целью посмотреть маршруты предлагаемые агенством и их стоимость, где на первом месте стоит даже стоимость и ее, по моему мнению надо ставить на первое место, а не прятать за мишурой. А когда посетитель получит необходимую информацию я думаю он просмотрит и дополнительную которая как правило выставляется наружу.

spark
На сайте с 24.01.2001
Offline
130
#17

Так вот. Для меня ценность указанной вами информации - ноль. Я только что вернулся из отпуска.

Для другого будет ценна именно та информация, которую вы считаете мишурой (описание Тадж-Махала какого-нибудь).

Вероятность того, что ищущий Тадж-Махал захочет его увидеть воочию достаточно велика. Так рассуждают все туристические агентства и правильно делают.

Я о другом пытаюсь сказать. Я это называю "привлекающей информацией", которую в том или ином виде используют большинство сайтов.

Например, работные ресурсы с поражающей методичностью используют на своих сайтах Классификатор профессий ДК 003-95. Иногда очень даже изобретательно используют. Но они не являются официальными источниками, никакой веб-мастер никому не гарантирует того, что пользуется последней версией (издание постоянно дополняется). Официальную версию этого классификатора и даже его издательство их стараниями найти невозможно (не продвигает ее никто, что не удивительно). Получается странная ситуация, когда информацию подают все, кому не лень, никто не гарантирует ее актуальности и достоверности, а официальный владелец неизвестен (невидим через поисковики по крайней мере).

I
На сайте с 26.05.2001
Offline
64
#18

Кстати, согласен с товарищем Тихоновым на все 100, что проблема

а) заключается в сущности используемых стат. методов

б) в недостаточности современных вычислительных ресурсов для отказа

от "статистики"

хочу сказать, что даже такая "тривиальная" операция, как составление смысловой "выжимки" документа, ее автореферата замедлит индексацию в разы. а смысловая "выжимка", кстати говоря, могла бы несколько улучшить качество поиска по коротким запросам и существенно усложнить жизнь спаммерам. одно дело: ломать статистику (с более или менее известными алгоритмами), другое дело программу реферирования (которая гораздо сложнее).

Приходите завтра, завтра будет! (http://itman666.livejournal.com)
F
На сайте с 15.11.2000
Offline
116
#19
Как писал Miha Kuzmin
А я бы вот в яндексе такую бы фишку сделал - если сниппеты одинаковые, то выводить только первый

Есть данные, что именно по такому принципу работает фильтрация дубликатов в Google. В Яндексе алгоритм намного мощнее. Почему тогда встречаются дубли? Вероятно, запускают чистку базы от дублей не так часто, как хотелось бы.

С уважением,

Александр Садовский.

NL
На сайте с 29.01.2003
Offline
212
#20

euhenio, если

Идея новизны поисковика
не есть ноу-хау - то не могли бы поделиться?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий