оцените идею индексации/хранения индекса для поиска/расчета релевантности

20

4LF

29 января 2006, 10:25

1402

Допустим в поисковике нужно выводить по 10 результатов на странице.

Индекс хранить следующим образом:

При индексировании страницы давать вес слову (по какой либо формуле).

Для каждого слова создавать группу по 10 элементов в каждой, в каждой последующей группе веса слова меньше, и в самой группе слова сортированы по весу; каждая группа это уже сформированный постраничный результат поиска по данному слову.

Теперь если задан многословный запрос... word1 word2 wordN (на счет этого еще не особо думал), то получается нужно делать наложени групп каждого word(i)

[Удален]

30 января 2006, 10:58

#1

1. Формула расчёта веса слова в документе оперирует переменными только одного документа ? Т.е. количество данного слова в других текстах и во всей коллекции не учитывается ?

2. При нахождении объединения массивов @1, @2 ... @N результирующий массив получается размерностью < 10. Что тогда ?

S

17

statev

30 января 2006, 11:40

#2

4LF:
Допустим в поисковике нужно выводить по 10 результатов на странице.
Индекс хранить следующим образом:
При индексировании страницы давать вес слову (по какой либо формуле).
Для каждого слова создавать группу по 10 элементов в каждой, в каждой последующей группе веса слова меньше, и в самой группе слова сортированы по весу; каждая группа это уже сформированный постраничный результат поиска по данному слову.
Теперь если задан многословный запрос... word1 word2 wordN (на счет этого еще не особо думал), то получается нужно делать наложени групп каждого word(i)

Получается, что выдача зависит сама от себя. Какой в ней смысл?

30

lagif

30 января 2006, 11:45

#3

4LF, Так ведь при ранжировании играет роль не только вес слова: словоформа, индекс цитируемости сайта, положение слова в документе (если пожелается), положение страницы на сайте (первая страница отличается от третьей степени вложенности)...

Кроме того, что будете делать при поиске словосочетаний?

Это тоже пройдет...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

4F

20

4LF

30 января 2006, 18:14

#4

Maxim Golubev:
1. Формула расчёта веса слова в документе оперирует переменными только одного документа ? Т.е. количество данного слова в других текстах и во всей коллекции не учитывается ?

да, согласен, TF*IDF здесь проблематично использовать... (придется перегруппировывать блоки)... Мучает просто то что при запросе придется лопатить весь индекс (если брать некоторую его часть, тогда есть ли смысл индексировать N документов, если при поисковом запросе использовать только его часть)... Думаю над "пред-ранжированием"...

Maxim Golubev:
2. При нахождении объединения массивов @1, @2 ... @N результирующий массив получается размерностью < 10. Что тогда ?

while ( resn < 10 ) { getNextGroup... }

statev:
Получается, что выдача зависит сама от себя. Какой в ней смысл?

почему? поясните, плиз...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

AA

70

AlexA

31 января 2006, 14:03

#5

4LF,

4LF:
да, согласен, TF*IDF здесь проблематично использовать... (придется перегруппировывать блоки)...

А зачем Вам весь индекс держать в таком виде? Нужны только первые страницы (т.е. 30-50 ссылок) на самые популярные слова. Правда, тогда получается обычный кэш запросов.

С уважением, Антонов Александр.

O

30

oleksandrenko

7 февраля 2006, 11:36

#6

Я правильно понял: при индексации каждому слову соответсвуют страницы, где встречается это слово и эти страницы упорядочены по весу слова на этой странице?

Если я понял правильно, то при такой структуре возникнет проблема при выборке страниц при запросе из нескольких слов. Надо будет найти пересечение по множествам (страниц), которые соответствуют разным словам, а это будет сделать проще, если страницы упорядочены по индексу.

Подскажите пожалуйста про анкорные Google Updates - апдейты Страницы в индексе, но

4F

20

4LF

8 февраля 2006, 17:45

#7

oleksandrenko:
Я правильно понял: при индексации каждому слову соответсвуют страницы, где встречается это слово и эти страницы упорядочены по весу слова на этой странице?

да примерно так...

oleksandrenko:
при такой структуре возникнет проблема при выборке страниц при запросе из нескольких слов. Надо будет найти пересечение по множествам (страниц), которые соответствуют разным словам, а это будет сделать проще, если страницы упорядочены по индексу.

согласен это будет проще... но когда скажембудут испольщованы 2 часто употребляемых слова, после об'единения списков получится большой длины результат, который затем нужно отранжировать (что займет не мало времени)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

9 февраля 2006, 01:41

#8

Ну так объединение неупорядоченных списков наверняка больше времени займет, чем ранжирование. (если конечно вы свою модель не доработаете до возможности не вычислять полностью все множество документов).

I

64

itman

9 февраля 2006, 06:28

#9

На эту тему, есть статья "Execution Performance Issues in Full-Text Information Retrieval, Eric. W Brown." Так вот, согласно моему опыту реализации этой идеи, не слишком это здорово. Потому что, например, при конъюнктивных запросах из 2 и более слов первые позиции занимают отнюдь не те страницы, в которых, часто встречаются первое и второе слово запроса, а там, где эти слова располагаются близко.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Маркетинг для шоколадной фабрики. На 34% выше средний чек

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов