Алексей Гурешов

Рейтинг
21
Регистрация
11.11.2005

Возможно, спорить не буду.

Прикидка сделана из расчета информации на яндексе.

a). Это реальное число взятое из тестов.

b). Российский датацентр сейчас это около 120тбайт, тоесть примерно 30тбайт мы способны проиндексировать. На вскидку это более 1млрд страниц.

Interitus:
Ночью боюсь в случае проблем - репортов не будет. Так что имеет смысл включить днем, чтобы если что - сейчас исправить. Linux way короче. :)

Жалуются в основном владельцы и пользователи маленьких хостингов, у которых есть жеское кол-во ограничений на коннекты, тоесть на одном сервере физически размещено очень много доменов и ИП адресов, отследить такие практически не возможно или не понятно как :(

Все что больше двух слов в теории, в практике наверное от трех и более.

списком сайтов

Мне кажется подсказки не к чему тем кто делает сложный запрос, тк фактически он уже закладывает в него необходимые уточнения.

Interitus:
Ну класть не кладет, но действительно работает чрезмерно агрессивно. Возможно, имеет смысл считать скорость ответа на предыдущий запрос, и на основе её вычислять таймаут перед следующим. И уж точно не стоит с незнакомых серверов качать в несколько параллельных потоков. :)

Уже вплотную занялись этой задачей. Думаю к вечеру будет готово решение и ночью мы его включим, чтобы не причинять неудобство.

Вообще в настоящий момент мы способны строить индекс со скорость ~115млн документов в сутки.

Результаты поиска будут лучше соотвествовать тому, что ищет пользователь. Сравнивать на запросах типа "работа", "погода"

бессмысленно, так как релевантность проверять надо на сложных

запросах, простые любая машина хорошо отработает.

Я не вижу здесь вопроса.

Какие ТЫ увидел неприятные вопросы для меня? Вопрос о том, где я буду покупать рекламу? Я уже написал, что это секрет. Больше вопросов по делу я не увидел.

wolf:
Смените манеру общения, и не будет никакого сарказма. Агрессивный "пеар" в стиле "Мы будем круче всех, а сам-то ты кто такой?" здесь не приветствуется. Тут многие "плавали - и знают".

Прочитай внимательно диалог с Ceser, а то ты начал читать с фразы "а ты кто?" Вообще надоело, хочешь ругаться - пиши, отвечать я не буду, я тебя попросил не засорять своим флудом полезный для меня топик.

Просто надоел Ваш сарказм.

бета-тестров пока хватает, большое спасибо. Как только будут вакансии сразу дам знать :)

wolf:
Похоже, для вас стало откровением, что некоторые сайты имеют немало внешних ссылок на разные страницы :)

wolf эта ошибка вылезала только в таком случае. А вообще я попрошу Вас не писать в этот топик. Спасибо.

amph, проблему устранили. Понаблюдай пожалуйста как будет себя дальше вести наше существо :)

Кстати еще получаем некоторое кол-во постбеков что краулер ведет себя очень агрессивно и некоторым кладет мускуль по кол-ву max соединений.

Всего: 276