В данном случае играет правило "Клиент всегда прав".
Если клиенту удобней получить всю информацию уже на первой странице, то зачем его кудато отправлять ?
Имплементировал смарт паука. Наконец сервис стал не офлайновый, а онлайновый.
База обновляется автоматом с лагом гдето в 4 часа, пока что по одному сайту в тестовом режиме.
+ В самых дорогих ресторанах не только приносят еду, но и показывают как ее готовят :)
Добавил простейшую страницу мониторинга спайдера и базы данных поисковика
http://booben.com/Monitoring
Посмотрим как база будет рости. По ощущениям даже если сайтов будет штук 50,
одного инмемори инстанца хватит на лет 5.
🍿
В интернете медиа много.
Если считать только текст, то влезет все в один небольшой датацентр.---------- Добавлено 14.06.2015 в 16:46 ----------
Уже такое есть. Например тотже Фейсбук и Вконтакт эмулирует миллионы блогов, сайтов, новостных лент и прочье, что по хорошему должно быть на сайтах.
Добавил статейку в блог, Ляпы Яндекса и Гугла
Не совсем понятен вопрос.
Это R&D проект, результаты могут быть самыми разными.
В данном случае модифицирую ядро движка для фасетного поиска.
Подробности будут позже.
Поисковый движок следующего поколения.
Интересно, как можно обьяснить сей реверанс Яши ?
Ключевое слово Соцсетевич, на форуме есть
http://booben.com/?q=%D1%81%D0%BE%D1%86%D1%81%D0%B5%D1%82%D0%B5%D0%B2%D0%B8%D1%87&s=sql.ru
но Яндекс не находит
https://yandex.ua/search/?text=site%3Asql.ru%20%D1%81%D0%BE%D1%86%D1%81%D0%B5%D1%82%D0%B5%D0%B2%D0%B8%D1%87&lr=143
Если будет когдато время, может быть, опишу архитектуру подробней.
Но на данном этапе у меня не образовательное направление проекта и на это просто нет времени.
Полностью дублирует. Даже можно указать режим, будем бегать по диску или попробуем все загрузить в ОЗУ.
Интересно как Вы себе это представляете ? Поток данных при индексировании контента, примерно 1 млрд вставок/поисков за час. Головка винчестера будет бегать что сумашедшая.
Диск через пару месяцев покупать новый не жалко ? :)
В моей схеме нету такого понятия как вставка чегото на диске. Есть операция мерж. А мержу впринципе всеравно, он склеивает две части индекса в один. Даже неважно где лежит часть индекса. Можно смержить два независимых индекса на диске в один.
Диплом уже давно отгудел на задачах в разы попроще.
На диске это линейный массив блоков. В ОЗУ это дерево.
Если в существующий индекс добавить 1 000 000 сайтов, то:
1. Все данные будут вставлены в ОЗУ, максимально быстро.
2. Два индекса, существующий на диске и тот который новый в ОЗУ будут смержены. Мерж индексов по сути означает что они будут дефрагментированы и перезаписаны на диске в один монолитный индекс.