Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science

Originally posted by LiM:
А что это за анализатор такой?.. Мож что полезное...

Анализатор позиции сайтов http://topping.com.ua/position

Originally posted by spark:
Оказывается, еще с 10 апреля.

Я думал ты в курсе. В твоем анализаторе заходы с поисковика листа учитывает как рамблер.

Статистику могу подправить. Как его теперь обозвать - ex-List?

Originally posted by AiK:
В Perl CookBook есть подобный пример - там тэги меняют на что-то ещё. Думаю это "что-то ещё" заменить труда не составит.

Ага, оно-то не составит:

$html=~s/<(\S+(\s+\S+)?).*?(>.+< )?(\/$1)/<$1$3$4/g;

$html=~s/<(h\d+)>(.*?)>(.+)?<(.*)?>(<\/$1)/<$1>$3$5/g;

Только будет ли работать во всех случаях?

2DM: а зачем, если не секрет, это нужно?

Originally posted by Interitus:
А как давно? Просто рефы идут непосредственно со страниц каталога (с поиска я и не видел никогда), а поиском я только прочитав это сообщение попробовал воспользоваться.

Алексей

Оказывается, еще с 10 апреля. http://internet.ru/article/lentanews/2002/04/10/7537.html

Originally posted by Developer:

Вопрос простой - как лучше хранить этот инвертированный файл? Я н-р, хранил его до сих пор в БД. Целесообразно ли это? Какие есть другие варианты, когда у вас есть архив в несколько GB как в Галактике?

Я полагаю, наиболее оптимальный вариант самому сделать СУБД для работы индексами в инвертированных файлах (на Си или C++). При этом я, к примеру, для экономии ресурсов использую несколько типов индексов - временные и основные.

А реляционная база загнется уже на объеме в несколько сотен миллионов записей.

Originally posted by Developer:

Вопрос простой - как лучше хранить этот инвертированный файл? Я н-р, хранил его до сих пор в БД. Целесообразно ли это? Какие есть другие варианты, когда у вас есть архив в несколько GB как в Галактике?

Я полагаю, наиболее оптимальный вариант самому сделать СУБД для работы индексами в инвертированных файлах (на Си или C++). При этом я, к примеру, для экономии ресурсов использую несколько типов индексов - временные и основные.

А реляционная база загнется уже на объеме в несколько сотен миллионов записей.


Вот пример:
запрос "гироскоп" (найдено 423 док.)
список слов
ГИРОСКОП
РАКЕТА
КОСМИЧЕСКИЙ
ЛАЗЕРНЫЙ
ПОЛЕТ
РАКЕТНЫЙ
НАВИГАЦИОННЫЙ
БОРТОВОЙ
ПРИБОР
ОРБИТА
ДАТЧИК
ДВИГАТЕЛЬ
САМОКАТ
ГИРОСКОПИЧЕСКИЙ
ОРБИТАЛЬНЫЙ

Пример, конечно, понятный. Позволяет ли сейчас система также получить свойство в виде ОПИСАНИЯ, например:

Гироскоп

ГИРОСКОП С ТРЕМЯ СТЕПЕНЯМИ СВОБОДЫ, ДВУХСТЕПЕННЫЙ ГИРОСКОП, твердотельный волновой гироскоп?


Вот пример:
запрос "гироскоп" (найдено 423 док.)
список слов
ГИРОСКОП
РАКЕТА
КОСМИЧЕСКИЙ
ЛАЗЕРНЫЙ
ПОЛЕТ
РАКЕТНЫЙ
НАВИГАЦИОННЫЙ
БОРТОВОЙ
ПРИБОР
ОРБИТА
ДАТЧИК
ДВИГАТЕЛЬ
САМОКАТ
ГИРОСКОПИЧЕСКИЙ
ОРБИТАЛЬНЫЙ

Пример, конечно, понятный. Позволяет ли сейчас система также получить свойство в виде ОПИСАНИЯ, например:

Гироскоп

ГИРОСКОП С ТРЕМЯ СТЕПЕНЯМИ СВОБОДЫ, ДВУХСТЕПЕННЫЙ ГИРОСКОП, твердотельный волновой гироскоп?

Originally posted by Developer:
поисковые системы (и мы в т.ч.) не использует для "основной" работы - поиска реляционные базы. Только свои индексы и словари.

А хранение индексов и словарей где осуществляют? В файлах и используют BTrieve или что-нибудь подобное?

Поисковые системы обычно организуют на специальных структурах данных, при этом наиболее часто используются инвертированные (inverted files) или сигнатурные (signature files)файлы: http://instruct.uwo.ca/gplis/601/week2/table1.html

Способов хранения словаря, то есть лексикона, может быть сколько угодно (он обычно составляет не более нескольких процентов от объема текста), начиная от структур с бинарным поиском и кончая n-граммами.

Originally posted by Developer:
поисковые системы (и мы в т.ч.) не использует для "основной" работы - поиска реляционные базы. Только свои индексы и словари.

А хранение индексов и словарей где осуществляют? В файлах и используют BTrieve или что-нибудь подобное?

Поисковые системы обычно организуют на специальных структурах данных, при этом наиболее часто используются инвертированные (inverted files) или сигнатурные (signature files)файлы: http://instruct.uwo.ca/gplis/601/week2/table1.html

Способов хранения словаря, то есть лексикона, может быть сколько угодно (он обычно составляет не более нескольких процентов от объема текста), начиная от структур с бинарным поиском и кончая n-граммами.

Всего: 847