Извините, не 33-я страница, а "&p=33", - у Яндекса она считается 34-й:
- таких глюков - чем дальше в лес ... сорри, дальше вглубь страниц отчета Яндекса - тем больше и на последних страницах только они и остаются!
Может быть Вы просто не потрудились посмотреть?
Я понимаю, что это два РАЗНЫХ подхода:
1. поддерживать словарь ПАРАДИГМ (то бишь - СЛОВ) и ГЕНЕРИРОВАТЬ слофовормы
2. поддерживать словарь СЛОВОФОРМ, а с парадигмами - РАЗБИРАТЬСЯ на этапе анализа.
- каждый- имеет свои плюсы и минусы.
Я обсуждаю второй путь ...
На пересечении этой темы и Q: что принято считать "словоформой"? :
знает ли кто-нибудь что-нибудь о таких ПОСТАНОВКАХ ЗАДАЧИ - составить как можно более полный список (как бы - словарь) словоформ, встречающихся в предельно широком (русскоязычном) контенте?
Мне кажется, что - на уровне здравого смысла - формулировка достаточно понятная. Черт, как всегда, - в деталях.
Что такое "прямой индекс", сорри?
Это - если словарь:
101 мама
...
245 мыла
896 раму
и каталог документов:
19876 "про маму"
- то прямой индекс:
19876 1 101
19876 2 245
19876 3 896
Так?
А разве рационально - с точки зрения ресурсов - хранить несколько индексов (один - для "быстрого поиска", другой - для "подробного")?
Неужели кто-то так делает??
euhenio, - честно, - не понял: если (позицию слова в блоке) мы не храним (храним: (№ документа, № блока в документе)), - то как мы сможем ее "испрользовать при более хитрых запросах с участием расстояний"?
- на данном этапе мне нужно что-то более формальное: отслеживать "родство" между
в-обр-ать
и
в-бер-у
- мне не нужно.
- вряд ли это подтверждает "гипотезу блочности" ...
Кстати, хранить координаты слова в формате:
(№ документа, № блока в документе, позиция слова в блоке)
- разве это более эффективно, чем хранить их в формате:
(№ документа, позиция слова в документе)
???
Какие "блоки", если многие поисковики позволяют ТОЧНО указывать в запросе расстояние между "запрашиваемыми" словами!
- а по-русски ничего не поркомендуете ... про "сигнатурные файлы"?
И потом, инвертированный файл - он ведь индексирует не СЛОВАРЬ, а КОНТЕНТ ... а то, что Вы наприсали про "сигнатурные файлы", - относится, вроде как, к СЛОВАРЮ, а не к КОНТЕНТУ!
- что значит "некие"? Координаты они и есть координаты ... А если "расставить" слова в соответсвии с указанными координатами, - разве не "востановится" исходный контент???