Вот раньше интернет был маленький, а пауков много. И иногда пауки одного клана хором нападали на какой-нибудь сайт на хилом хостинге. А хозяин сайта думал, что его ддосят, потому что сайт падал :)
Сейчас же пауки вынуждены ходить по одному. И уже всё реже слышно о бедном сайте, которого опять завалил злой яндекс или альтавист :)
А ещё пауки очень забывчивые. Особенно яндекс часто забывает чью-нибудь морду :) И потом долго не может её вспомнить :d
Удачи! :) Хороший запрос, ничего не скажешь :)
За месяц вылезти по нему в первые 150 - не так плохо :d
Но ссылок придётся купить много...
Да, и по логике должно, и по опыту работает.
Кстати, отдельные поисковики именно так статистику качества выдачи и собирают :), чтобы определить тыркается ли народ в представленный топ10, видимо.
Да, примерно так это и делается.
В ветке /ru/forum/30247 восьмое сообщение содержит решение для экономии кода. Там, кстати, этот вопрос чуть-чуть обсуждён.
Ладно, пробуем сначала простую задачу: пусть есть словарь вообще всех слов. На вход поступает слово, а надо понять, есть ли оно в словаре. От полученного на вход слова вычисляем несколько разных хэш-функций (дурной пример: пусть функция одна - остаток от деления на 256 суммы номеров букв слова). После этого имеет смысл распаковывать только ту часть словаря, для которой этот остаток такой же, причём длина слова тоже должна быть такой же.
Этот пример - вымышленный и довольно дурной. Но он показывает, что не обязательно распаковывать весь словарь, а порой достаточно считанных долей процента от него. Для такой задачи необходимо хорошо продумать структуру словаря, чтобы нужные выборки делались по нему эффективно. Для поддержки морфологии нужна работа с лингвистами, которые бы подсказали удобные признаки для построения хэш-функций.
Короче, мысль в том, что задача решаемая, но чтобы её ъорошо решить надо приложить много усилий.
Я в своё время писал поиск по сайту, используя самописную "добывалку" корней слов где-то строк на 30. Работала вполне хорошо. Иногда приходилось просматривать первую тысячу популярных запросов к машине, чтобы внести новые исключения в алгоритм. Это я к тому, что можно и что-то корявое, но сносно работающее сделать на 30 строках. А уж в 300 Кб можно и получше что-то было сделать. Тем более, у них команда не самоучек, и не из одного человека.
Круто! А я ЕСы потрогать не успел... :( Руки коротки были.
Начинал с Электроники-УКНЦ с 64К - тоже большая радость :)
(трудный день пятница - на оффтоп в серьёзных темах тянет. прошу простить)
Как я понял, нужен пример эффективного алгоритма, который использует кодированные (сжатые) данные, лежащие в оперативной памяти.
Могу привести в качестве иллюстрации свою давнюю реализацию игрока в одну игру для двух человек (Реверси). В памяти я хранил сжатые сценарии (насчитанные на тренировках или в процессе текущей партии), разворачивая на лету только те, которые мне нужны в данный момент. За игру обрабатывалось не более 15 процентов всех сценариев, поэтому это был вполне эффективный подход (т.к. декомпрессия была очень быстрой).
Можно предположить, что и со словарями аналогично - нам ведь под каждый запрос нужен не весь словарь, а только его часть - эта часть и будет "собираться" по необходимости.
Так что не вижу проблемы. Бывают ситуации, когда в оперативной памяти совершенно нормально хранятся сжатые данные. Это не всегда имеет смысл, но для словарных задач, мне кажется, что это весьма распространённый подход. Во всяком случае, в те времена, когда 2 Мб оперативки были пределом мечтаний :) А ради 4 Мб можно было даже жениться :)
А есть ведь ещё индульгенция...
Заплатил сколько надо, после чего уже и не грешник вовсе :)
Спасибо, добавлся.
Сделайте экранирование кавычек при формировании SQL запроса, а то сейчас легко похакать злыдни могут. Будьте бдительны! :)
Или я что-то не понимаю, или мне этот сайт не доступен.
Проверил через несколько проксей - глухо.
Unable to determine IP address from host name for
www.jaja-jak-globusy.com
И даже причина понятна:
Name Server for domain 'www.jaja-jak-globusy.com' is unavailable.
Так что сейчас не понятно, о чём говорить. Кто-нибудь вообще сейчас видит этот сайт?