allexx, это мы с тобой соседи (по Мытищам), получается. :)
Тьфу, блин, блоки относились не к обратному индексу, а восстановлению текста... :) А я-то думал...
!Иван FXS, ну, если в отдельном индексе их (позиции) хранить. Тут ведь от задачи исходим - если тебе, например, требуется быстрый поиск документов, содержащих слова - то позиции слов хранить вообще не обязательно. Если ты по умолчанию ищешь в пределах предложения - можно хранить номер предложения.
Vyacheslav Tikhonov,
-я запутался. Цитатник - это у тебя обратный индекс или прямой? :) Вроде, изначально речь шла про обратный.
!Иван FXS,
-ну, можно хранить их в виде (№ документа, № блока в документе) и "в облегченном виде" вычислять близость слов - по совпадению № блоков, а (позицию слова в блоке) испрользовать при более хитрых запросах с участием расстояний... Вопрос в длине блока...
!Иван FXS, все-таки в некоторых пределах. У Рамблера, кажется, не более 40 слов.
Vyacheslav Tikhonov, я вот про что. У всех поисковиков (Я, Р, например) есть разбиение по блокам текста для хранения координат слов только внутри блока? Или это только у разработанных тобой поисковиков?
Впечатление такое, что ты "за всех" сказал. Если так, то такое хранение должно давать некую экономию в месте без особой потери качества определения расстояний. И это разбиение должно диктоваться какой-то неоюходимостью.
Вот я и хочу выяснить, у всех такие блоки есть или только у тебя. :)
-а можно поподробнее, откуда информация? Какие именно блоки - по коду, по размеру текста, по чему-то еще? И откуда следует необходимость хранения именно в блоках, а не задание координаты от начала текста документа?
Нужно вообще внешний сервис делать, чтобы он автоматом удалял ссылку обманщика из вашего обменного листа. Благодарностью автору будут ссылки, размещаемые без отдачи на сайтах юзеров сервиса. Короче, получится аналог линкатора. :)
Написать, что ли... :)
Зеркало stacy.ru
Не помню...
Да нормально вроде... 15 чел. примерно было... Немного мало места, все рядом друг с другом рассесться не сумели...
Вроде, договаривались второй раз устроить, только не помню, когда... :)