Возможно, спорить не буду.
Прикидка сделана из расчета информации на яндексе.
a). Это реальное число взятое из тестов.
b). Российский датацентр сейчас это около 120тбайт, тоесть примерно 30тбайт мы способны проиндексировать. На вскидку это более 1млрд страниц.
Жалуются в основном владельцы и пользователи маленьких хостингов, у которых есть жеское кол-во ограничений на коннекты, тоесть на одном сервере физически размещено очень много доменов и ИП адресов, отследить такие практически не возможно или не понятно как :(
Все что больше двух слов в теории, в практике наверное от трех и более.
списком сайтов
Мне кажется подсказки не к чему тем кто делает сложный запрос, тк фактически он уже закладывает в него необходимые уточнения.
Уже вплотную занялись этой задачей. Думаю к вечеру будет готово решение и ночью мы его включим, чтобы не причинять неудобство.
Вообще в настоящий момент мы способны строить индекс со скорость ~115млн документов в сутки.
Результаты поиска будут лучше соотвествовать тому, что ищет пользователь. Сравнивать на запросах типа "работа", "погода"
бессмысленно, так как релевантность проверять надо на сложных
запросах, простые любая машина хорошо отработает.
Я не вижу здесь вопроса.
Какие ТЫ увидел неприятные вопросы для меня? Вопрос о том, где я буду покупать рекламу? Я уже написал, что это секрет. Больше вопросов по делу я не увидел.
Прочитай внимательно диалог с Ceser, а то ты начал читать с фразы "а ты кто?" Вообще надоело, хочешь ругаться - пиши, отвечать я не буду, я тебя попросил не засорять своим флудом полезный для меня топик.
Просто надоел Ваш сарказм.
бета-тестров пока хватает, большое спасибо. Как только будут вакансии сразу дам знать :)
wolf эта ошибка вылезала только в таком случае. А вообще я попрошу Вас не писать в этот топик. Спасибо.
amph, проблему устранили. Понаблюдай пожалуйста как будет себя дальше вести наше существо :)
Кстати еще получаем некоторое кол-во постбеков что краулер ведет себя очень агрессивно и некоторым кладет мускуль по кол-ву max соединений.