Новый поисковый монстр на горизонте

wolf
На сайте с 13.03.2001
Offline
1183
#101
Алексей Гурешов:
Больше вопросов по делу я не увидел.

Вопросы были про продекларированную "лучшесть" поиска.

И еще. Китайское предупреждение. Если будете продолжать вести общение в хамской манере, боюсь, мне придется прибегнуть к полномочиям модератора.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
АГ
На сайте с 11.11.2005
Offline
21
#102

Результаты поиска будут лучше соотвествовать тому, что ищет пользователь. Сравнивать на запросах типа "работа", "погода"

бессмысленно, так как релевантность проверять надо на сложных

запросах, простые любая машина хорошо отработает.

Я не вижу здесь вопроса.

pro-maker
На сайте с 08.12.2003
Offline
281
#103
Алексей Гурешов:
Результаты поиска будут лучше соотвествовать тому, что ищет пользователь. Сравнивать на запросах типа "работа", "погода"
бессмысленно, так как релевантность проверять надо на сложных
запросах, простые любая машина хорошо отработает.

Алексей Гурешов, похоже на содержательность, спасибо. Можно продолжить? :)

Какой подход в предоставлении "релевантной" информации?

Разъясню, чтобы ВЫ не боялись раскрывать свои секреты. В сложных вопросах выдача будет представлена списком сайтов (сейчас в Яндексе), группированием возможных смысловых значений (рядом с выдачей несколько тем) или комбинированием списка самой выдачи (в выдаче - несколько смысловых направлений запроса).

[Удален]
#104
Алексей Гурешов:

Кстати еще получаем некоторое кол-во постбеков что краулер ведет себя очень агрессивно и некоторым кладет мускуль по кол-ву max соединений.

Ну класть не кладет, но действительно работает чрезмерно агрессивно. Возможно, имеет смысл считать скорость ответа на предыдущий запрос, и на основе её вычислять таймаут перед следующим. И уж точно не стоит с незнакомых серверов качать в несколько параллельных потоков. :)

АГ
На сайте с 11.11.2005
Offline
21
#105

списком сайтов

Мне кажется подсказки не к чему тем кто делает сложный запрос, тк фактически он уже закладывает в него необходимые уточнения.

Interitus:
Ну класть не кладет, но действительно работает чрезмерно агрессивно. Возможно, имеет смысл считать скорость ответа на предыдущий запрос, и на основе её вычислять таймаут перед следующим. И уж точно не стоит с незнакомых серверов качать в несколько параллельных потоков. :)

Уже вплотную занялись этой задачей. Думаю к вечеру будет готово решение и ночью мы его включим, чтобы не причинять неудобство.

Вообще в настоящий момент мы способны строить индекс со скорость ~115млн документов в сутки.

wolf
На сайте с 13.03.2001
Offline
1183
#106
Алексей Гурешов:
так как релевантность проверять надо на сложных
запросах, простые любая машина хорошо отработает.

Что понимается под сложными запросами, а что под простыми? Если можно, хотелось бы с примерами.

АГ
На сайте с 11.11.2005
Offline
21
#107

Все что больше двух слов в теории, в практике наверное от трех и более.

wolf
На сайте с 13.03.2001
Offline
1183
#108
Алексей Гурешов:
Все что больше двух слов в теории, в практике наверное от трех и более.

Это сложный? Т.е. следует понимать, что при поиске по трех- и более -словным запросам Вы ожидаете лучшую релевантность, чем у лидеров поиска? А как быть с т.н. "простыми", т.е однословными запросами? Как правило, именно релевантная выдача по ним и составляет проблему. Т.к. запросы слишком широки.

pelvis
На сайте с 01.09.2005
Offline
345
#109

Алексей Гурешов, А Вы говорите о гипотетике вот здесь:

Алексей Гурешов:
Вообще в настоящий момент мы способны строить индекс со скорость ~115млн документов в сутки

Или о реальной нагрузке, которую Ваши сервера способны выдержать? Все так 1300 документов в секунду цифра нешуточная.

И второй вопрос в догонку. Сколько система вообще способна проиндексировать. И с учетом ли это сетевых коэф-тов или без?

Если такая мощь реальна, то как часто будет проводиться обновление базы для того, чтобы оптимизаторы (я к ним не отношусь) поверили в эти цифры?

Продаю вывески. Задарма и задорого (https://www.ledsvetzavod.ru/)
[Удален]
#110
Алексей Гурешов:
Думаю к вечеру будет готово решение и ночью мы его включим, чтобы не причинять неудобство.

Ночью боюсь в случае проблем - репортов не будет. Так что имеет смысл включить днем, чтобы если что - сейчас исправить. Linux way короче. :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий