iseg

Рейтинг
80
Регистрация
15.12.2000
Должность
Search Engine Department Manager, Yandex
Интересы
Search Engine Development

Да никто не обижается - я просто обращаю внимание модератора на флуд. Зачем листинги страшного размера в форум копировать?

Понятно, что в любой искалке можно найти кучу дубликатов, плохих запросв и т.д.

В этом треде зашла речь о явной ошибке, которую мы вчера и позавчера искали и исправляли, спасибо всем огромное за это.

А потом начались на мой взгляд, просто наезды - "а у вас этот запрос плохой", "а вот тут дубликатов много"...

Поищите на Гугле слово yandex - 40% дубли, ну и что? Информация то найдена и самая точная. То же самое и с запросом про "украинские поисковые системы" на яндексе

С уважением,

Илья

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
Да они давно уже ужасают после того, как Яндекс начал попытки использовать PageRank при ранкировании. </font>

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
Судя по тому, что услугами Google сейчас пользуются немало известных компаний, его модель не самая плохая. И достойная для подражания. Но если у вас она другая, так ради бога </font>

Вячеслав, я, честно говоря, не понял, чего Вы хотите. Чтобы Яндекс следовал Гуглю или чтобы он этого не делал?

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
Хорошо. Если не PageRank, то что привело к такому результату:
</font>

Этот вопрос на другую тему. Я уже на него где-то отвечал: зеркала давно не чистились из-за технологических проблем. Приносим свои извинения. В понедельник должны почистить.

<font face="Verdana" size="2">Originally posted by Gray:
Илья, выдача действительно разная в зависимости от способов поиска.</font>

Кеш делаеется по избыточному набору cgi-параметров. Видимо, поиск из-под ie5 случился после смены программы, а обычный поиск на какой-то из машин был еще долго закеширован.

Эффект расхождения наблюдали те, кто попадал на машину с кешем старого поиска.

У меня этот эффект не наблюдался ни вчера ни сегодня.

Вот мой текущий список из-под ie5 (вчерашний был почти такой же):

http://www.notebooksales.ru/

http://www.notebooks.ru/

http://www.indel.ru/

http://www.argosy.ru/

http://www.allnotebooks.ru/

http://www.porta.ru/

http://www.mobilis.ru/

http://www.getac.ru/

http://www.micromatix.ru/

http://itware.com.ua/

Илья

P.S.

Если завести по треду на критику каждой поисковой системы и _каждый_ постинг сопровождать полным текстом страницы выдачи, то форум скоро умрет - не хватит места на диске. Зачем флудить?

<font face="Verdana" size="2">Originally posted by Gray:
Нда. Все чудесатее и чудесатее... </font>

Я тоже поискал. Сервер - yweb.

1. http://www.notebooksales.ru/

2. http://www.NOTEBOOKS.ru/

3. http://www.indel.ru/index.html

4. http://www.argosy.ru/

5. http://www.allnotebooks.ru/

6. http://porta.ru/porta.phtml?from=netoscope&to=notebook.htm

7. http://www.mobilis.ru/

8. http://www.getac.ru/

9. http://www.micromatix.ru/

10. http://itware.com.ua/news/2001/08/21/notebook_market.html

Вот примерно такой списочек должен быть

Если не очень похож - жмите рефреш.

Илья

<font face="Verdana" size="2">Originally posted by Gray:
У меня еще смешнее</font>

Сегодня глюк повторился - опять откатили - извините.

Если у кого не прошло - почистите кеш.

2gray - а зачем такие большие цитаты?

Чтобы больше напугать?

Илья

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
Если не секрет, какие приоритеты?
</font>

Не секрет конечно. Подняли приоритет у лемм, совпадающих с запросной формой. Примерно то, что у Апорта называется (раньше называлось?) "оператор восклицательный знак". Должно помогать при поиске для дизамбигуации фамилий типа Сорокин (писатель) vs. Сорокина (телеведущая).

Но проблема была не в этом, а в том, что случайно программы на разных машинах лежали разные.

<font face="Verdana" size="2">Если я правильно понимаю, сейчас у вас два хранилища: в первом хранятся заголовки и текст в ссылках, оно используется при подсчете цитируемости и второе - полнотекстовое. Сначала поиск идет в заголовках и привязках, а уже потом по всей полнотекстовой базе.</font>

Это цитата из статьи Брина на WWW7 - "Анатомия большой гипертекстовой поисковой машины". Хорошо, что Вы или Ваши знакомые ее прочитали. Но при чем тут Яндекс?

Мы возникли много раньше Гугля и и нас все совершенно по другому. (намного круче )

<font face="Verdana" size="2">Судя по тому, что выводит Яндекс сейчас, мне показалось, что очень сильно завышены коэффициенты при рассчете PageRank, что ведет к большому количеству левых "найденных по ссылке".
Или у вас все по другому принципу?
</font>

Дался всем этот PageRank. Мы к идее взвешенного индекса цитирования пришли совершенно самостоятельно.

PageRank - это, строго говоря, не для поиска по словам - это некий вспомогательный алгоритм для оценки абстрактной (внеконтекстной) "популярности страницы". Если бы выдача всегда поизводилась в соответствии с PageRank-ом, то

все вопросы получали бы один и тот же ответ: примерно тот список, что лежит в Яндексном каталоге в корневой странице.

Коэффициенты при расчете PageRank не могут быть завышены - он тогда сходится не будет

Сама модель PageRank весьма упрощена и страдает рядом недостатков. Я уверен, что в прямом, немодифицированном виде ее никто не использует. Если, скажем, Брин читает этот форум, он подтвердит

Для ранжирования результатов поиска гораздо лучше подходит тематически-ориентированный алгоритм HITS (Кляйнберг и ребята из Альмадено) - но, во-первых, он тоже нуждается в серьезных модификациях для защиты от непотизма, во-вторых, его тяжело считать real-time на каждом запросе.

Илья

<font face="Verdana" size="2">Originally posted by wolf:
Нет, Илья, все на свои места отнюдь не вернулось! Такое впечатление, что Яндекс отбросило на полгода назад. </font>

Хм, может где-то закешировалась дневная выдача? Нельзя ли привести примеры самых неудачных запросов?

В любом случае спасибо за замечания.

Илья

Безусловно, да! ДА!

Правильно писать надо так:

&lt;a href="http://www.yandex.ru"&gt;Самая гениальная поисковая система&lt;/a&gt;

Этот текст должен быть помещен в интервале между 54-м и 124 байтами от начала HTML-документа.

Точное следование этой инструкции (соблюдение пунктуации и регистра, смещения от начала текста) гарантирует вам место на выдаче яндекса по любому одиночному слову из первых 40 слов документа, либо в первой десятке выдаче либо, в худшем случае, в секции "Популярные находки". Кроме того это резко ускоряет регистрацию в нашем каталоге, (вплоть до нескольких часов).

Этим сообщением я дезавуирую предыдущие публикации на эту тему http://www.computerra.ru/offline/2001/389/8052/page2.html , по поводу фразы "Вы не любит пролетариат". Эта фраза давно уже практически ничего не гарантирует.

Илья

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
ужасают после того, как Яндекс начал попытки использовать PageRank при ранкировании. </font>

Как раз плохой результат возник от того, что в релевантности цитируемость случайно загасилась (точнее ее стали перебивать другие приоритеты). Это можно понять

даже по исходному постингу.

<font face="Verdana" size="2">Я, например, не могу понять, зачем нужно в первой десятке давать
несколько ссылок на один и тот же сайт или его зеркало с подписью "найден по ссылке".
</font>

А при чем тут цитируемость, опять же?

Да, у нас нерегулярно чистились зеркала, но теперь положение исправляется, надеюсь, их станет (очень скоро) намного меньше. Кроме того, сливание зеркал стало регулярной процедурой.

Илья

<font face="Verdana" size="2">Originally posted by wolf:
Сегодня результаты поиска в Яндексе просто ужасают!</font>

Случайно выложили недостаточно проверенный коммит. Хотели как лучше, конечно. В 5 часов вечера все вернулось на свои места.

Илья

Gray, так я ровно об этом же. Хорошо бы все часто задавемые вопросы и ответы на них вынести в FAQ. А то одни и те же темы по несколько раз обсуждаются.

Всего: 442