Для меня ценность указанной вами информации - ноль - Поисковые технологии

Поисковая машина нового поколения

al1734 · 2003-08-22T13:14:33.0000000Z

Итак Новая тема. Пытаемся обсудить проблему создания, необходимости, рентабельности и т.д. Поисковой машины нового поколения.

[Удален]

22 августа 2003, 14:21

#11

А я бы вот в яндексе такую бы фишку сделал - если сниппеты одинаковые, то выводить только первый (самый релевантный) результат. Идея конечно спорная, но видеть три страницы подряд одно и тоже - убивает.

130

spark

22 августа 2003, 14:27

#12

О у меня пункт 2 готов, спасибо Миха

2) количеством дублей и невозможностью определить оригинальный источник

[Удален]

22 августа 2003, 14:31

#13

Вообще я не совсем в курсе, но база приблизительно так устроена:

Есть словарь из нормализованных словоформ.

Есть база с документами, каждый документ представляется списком, в котором элементы есть id от словоформы + еще несколько параметров (вес слова, допустим).

Более-менее верно ?

Опубликован Реестр провайдеров хостинга Где отдохнуть реальному IT Посоветуйте решение пожалуйста

A1

1

al1734

23 августа 2003, 19:38

#14

Насколько я понимаю решений по оценке ценности инфы никто не предложил. А если к этому вопросу подойти с другой стороны, зачем поисковой машине оценивать ту или иную инфу, её степень. Пусть сам "клиент сети" на своём ресурсе оценит её и при регистрации на поисковой машине даст основные сноски на неё. И без этих сносок не регистрировать его.

Как один из вариантов ???

Google Updates - апдейты Минфин США разом запретил Как рекламировать сайт на

130

spark

26 августа 2003, 06:55

#15

Я так и не понял, что вы подразумеваете под ценностью информации и уж тем более, как ее может определить сам "клиент сети".

A1

1

al1734

26 августа 2003, 14:24

#16

Ценность, главное, что несет в себе сайт или другой ресурс.

Для примера. Туристический сайт посещают с целью посмотреть маршруты предлагаемые агенством и их стоимость, где на первом месте стоит даже стоимость и ее, по моему мнению надо ставить на первое место, а не прятать за мишурой. А когда посетитель получит необходимую информацию я думаю он просмотрит и дополнительную которая как правило выставляется наружу.

Яндекс кобласит Новая модель монетизации для Аргументы почему не нужно

130

spark

26 августа 2003, 14:57

#17

Так вот. Для меня ценность указанной вами информации - ноль. Я только что вернулся из отпуска.

Для другого будет ценна именно та информация, которую вы считаете мишурой (описание Тадж-Махала какого-нибудь).

Вероятность того, что ищущий Тадж-Махал захочет его увидеть воочию достаточно велика. Так рассуждают все туристические агентства и правильно делают.

Я о другом пытаюсь сказать. Я это называю "привлекающей информацией", которую в том или ином виде используют большинство сайтов.

Например, работные ресурсы с поражающей методичностью используют на своих сайтах Классификатор профессий ДК 003-95. Иногда очень даже изобретательно используют. Но они не являются официальными источниками, никакой веб-мастер никому не гарантирует того, что пользуется последней версией (издание постоянно дополняется). Официальную версию этого классификатора и даже его издательство их стараниями найти невозможно (не продвигает ее никто, что не удивительно). Получается странная ситуация, когда информацию подают все, кому не лень, никто не гарантирует ее актуальности и достоверности, а официальный владелец неизвестен (невидим через поисковики по крайней мере).

Google Updates - апдейты Google может определять пресс-релизы Google изменил свой подход

I

64

itman

1 сентября 2003, 08:04

#18

Кстати, согласен с товарищем Тихоновым на все 100, что проблема

а) заключается в сущности используемых стат. методов

б) в недостаточности современных вычислительных ресурсов для отказа

от "статистики"

хочу сказать, что даже такая "тривиальная" операция, как составление смысловой "выжимки" документа, ее автореферата замедлит индексацию в разы. а смысловая "выжимка", кстати говоря, могла бы несколько улучшить качество поиска по коротким запросам и существенно усложнить жизнь спаммерам. одно дело: ломать статистику (с более или менее известными алгоритмами), другое дело программу реферирования (которая гораздо сложнее).

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

F

116

funsad

1 сентября 2003, 10:02

#19

Как писал Miha Kuzmin
А я бы вот в яндексе такую бы фишку сделал - если сниппеты одинаковые, то выводить только первый

Есть данные, что именно по такому принципу работает фильтрация дубликатов в Google. В Яндексе алгоритм намного мощнее. Почему тогда встречаются дубли? Вероятно, запускают чистку базы от дублей не так часто, как хотелось бы.

С уважением,

Александр Садовский.

NL

212

NULL

1 сентября 2003, 11:50

#20

euhenio, если

Идея новизны поисковика

не есть ноу-хау - то не могли бы поделиться?

Что такое Power BI и зачем это нужно бизнесу

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Поисковая машина нового поколения