!Иван FXS

!Иван FXS
Рейтинг
119
Регистрация
16.11.2001

Извините, не 33-я страница, а "&p=33", - у Яндекса она считается 34-й:

Результат поиска: страниц — 81483, сайтов — не менее 4608
Статистика слов: высоковольтное — 850642, оборудование — 79349207
Запросов за месяц: высоковольтное — 5459, оборудование — 265759
«высоковольтное ...»
в регионе «Москва» (7572)
Комитет по экономикe и промышленной политике Администрации Санкт-Петербурга
Подведение итогов и торжественная церемония награждения лауреатов конкурса состоится 26 мая 2003 года в дни празднования 300-летия города.
www.cedipt.spb.ru/manage/page?tid=745800004&news=745800030&page=32 (18 КБ) — совпадение фразы
Найденные слова · Похожие документы

- таких глюков - чем дальше в лес ... сорри, дальше вглубь страниц отчета Яндекса - тем больше и на последних страницах только они и остаются!

Может быть Вы просто не потрудились посмотреть?

Я понимаю, что это два РАЗНЫХ подхода:

1. поддерживать словарь ПАРАДИГМ (то бишь - СЛОВ) и ГЕНЕРИРОВАТЬ слофовормы

2. поддерживать словарь СЛОВОФОРМ, а с парадигмами - РАЗБИРАТЬСЯ на этапе анализа.

- каждый- имеет свои плюсы и минусы.

Я обсуждаю второй путь ...

На пересечении этой темы и Q: что принято считать "словоформой"? :

знает ли кто-нибудь что-нибудь о таких ПОСТАНОВКАХ ЗАДАЧИ - составить как можно более полный список (как бы - словарь) словоформ, встречающихся в предельно широком (русскоязычном) контенте?

Мне кажется, что - на уровне здравого смысла - формулировка достаточно понятная. Черт, как всегда, - в деталях.

Что такое "прямой индекс", сорри?

Это - если словарь:

101 мама

...

245 мыла

...

896 раму

и каталог документов:

...

19876 "про маму"

...

- то прямой индекс:

19876 1 101

...

19876 2 245

...

19876 3 896

Так?

А разве рационально - с точки зрения ресурсов - хранить несколько индексов (один - для "быстрого поиска", другой - для "подробного")?

Неужели кто-то так делает??

euhenio, - честно, - не понял: если (позицию слова в блоке) мы не храним (храним: (№ документа, № блока в документе)), - то как мы сможем ее "испрользовать при более хитрых запросах с участием расстояний"?

- на данном этапе мне нужно что-то более формальное: отслеживать "родство" между

в-обр-ать

и

в-бер-у

- мне не нужно.

Как писал euhenio
все-таки в некоторых пределах. У Рамблера, кажется, не более 40 слов.

- вряд ли это подтверждает "гипотезу блочности" ...

Кстати, хранить координаты слова в формате:

(№ документа, № блока в документе, позиция слова в блоке)

- разве это более эффективно, чем хранить их в формате:

(№ документа, позиция слова в документе)

???

Какие "блоки", если многие поисковики позволяют ТОЧНО указывать в запросе расстояние между "запрашиваемыми" словами!

Как писал Vyacheslav Tikhonov
... сигнатурные файлы, в которых применяются так называемые n-граммы, которые затем каким-то образом хешируются и формируют сигнатуру слов.
Более подробно можно почитать здесь.

- а по-русски ничего не поркомендуете ... про "сигнатурные файлы"?

И потом, инвертированный файл - он ведь индексирует не СЛОВАРЬ, а КОНТЕНТ ... а то, что Вы наприсали про "сигнатурные файлы", - относится, вроде как, к СЛОВАРЮ, а не к КОНТЕНТУ!

По инвертированному файлу можно получить только некие координаты каждого слова в текста, сам по себе восстанавливать он ничего не позволяет.

- что значит "некие"? Координаты они и есть координаты ... А если "расставить" слова в соответсвии с указанными координатами, - разве не "востановится" исходный контент???

Всего: 644