Комментарии - Vyacheslav Tikhonov - Профиль вебмастера - Форум об интернет-маркетинге

18 апреля 2002, 00:07

Originally posted by LiM:
А что это за анализатор такой?.. Мож что полезное...

Анализатор позиции сайтов http://topping.com.ua/position

16 апреля 2002, 06:29

Originally posted by spark:

Оказывается, еще с 10 апреля.

Я думал ты в курсе. В твоем анализаторе заходы с поисковика листа учитывает как рамблер.

Статистику могу подправить. Как его теперь обозвать - ex-List?

Подскажите решение

16 апреля 2002, 06:16

Originally posted by AiK:
В Perl CookBook есть подобный пример - там тэги меняют на что-то ещё. Думаю это "что-то ещё" заменить труда не составит.

Ага, оно-то не составит:

$html=~s/<(\S+(\s+\S+)?).*?(>.+< )?(\/$1)/<$1$3$4/g;

$html=~s/<(h\d+)>(.*?)>(.+)?<(.*)?>(<\/$1)/<$1>$3$5/g;

Только будет ли работать во всех случаях?

2DM: а зачем, если не секрет, это нужно?

List ищет рамблеровским движком

13 апреля 2002, 06:19

Originally posted by Interitus:
А как давно? Просто рефы идут непосредственно со страниц каталога (с поиска я и не видел никогда), а поиском я только прочитав это сообщение попробовал воспользоваться.

Алексей

Оказывается, еще с 10 апреля. http://internet.ru/article/lentanews/2002/04/10/7537.html

Морфология, ключевые понятия и семантические связи текста.

10 апреля 2002, 16:44

Originally posted by Developer:

Вопрос простой - как лучше хранить этот инвертированный файл? Я н-р, хранил его до сих пор в БД. Целесообразно ли это? Какие есть другие варианты, когда у вас есть архив в несколько GB как в Галактике?

Я полагаю, наиболее оптимальный вариант самому сделать СУБД для работы индексами в инвертированных файлах (на Си или C++). При этом я, к примеру, для экономии ресурсов использую несколько типов индексов - временные и основные.

А реляционная база загнется уже на объеме в несколько сотен миллионов записей.

Морфология, ключевые понятия и семантические связи текста.

10 апреля 2002, 16:44

Originally posted by Developer:

Вопрос простой - как лучше хранить этот инвертированный файл? Я н-р, хранил его до сих пор в БД. Целесообразно ли это? Какие есть другие варианты, когда у вас есть архив в несколько GB как в Галактике?

Я полагаю, наиболее оптимальный вариант самому сделать СУБД для работы индексами в инвертированных файлах (на Си или C++). При этом я, к примеру, для экономии ресурсов использую несколько типов индексов - временные и основные.

А реляционная база загнется уже на объеме в несколько сотен миллионов записей.

Морфология, ключевые понятия и семантические связи текста.

8 апреля 2002, 19:42

Вот пример:
запрос "гироскоп" (найдено 423 док.)
список слов
ГИРОСКОП
РАКЕТА
КОСМИЧЕСКИЙ
ЛАЗЕРНЫЙ
ПОЛЕТ
РАКЕТНЫЙ
НАВИГАЦИОННЫЙ
БОРТОВОЙ
ПРИБОР
ОРБИТА
ДАТЧИК
ДВИГАТЕЛЬ
САМОКАТ
ГИРОСКОПИЧЕСКИЙ
ОРБИТАЛЬНЫЙ

Пример, конечно, понятный. Позволяет ли сейчас система также получить свойство в виде ОПИСАНИЯ, например:

Гироскоп

ГИРОСКОП С ТРЕМЯ СТЕПЕНЯМИ СВОБОДЫ, ДВУХСТЕПЕННЫЙ ГИРОСКОП, твердотельный волновой гироскоп?

Морфология, ключевые понятия и семантические связи текста.

8 апреля 2002, 19:42

Вот пример:
запрос "гироскоп" (найдено 423 док.)
список слов
ГИРОСКОП
РАКЕТА
КОСМИЧЕСКИЙ
ЛАЗЕРНЫЙ
ПОЛЕТ
РАКЕТНЫЙ
НАВИГАЦИОННЫЙ
БОРТОВОЙ
ПРИБОР
ОРБИТА
ДАТЧИК
ДВИГАТЕЛЬ
САМОКАТ
ГИРОСКОПИЧЕСКИЙ
ОРБИТАЛЬНЫЙ

Пример, конечно, понятный. Позволяет ли сейчас система также получить свойство в виде ОПИСАНИЯ, например:

Гироскоп

ГИРОСКОП С ТРЕМЯ СТЕПЕНЯМИ СВОБОДЫ, ДВУХСТЕПЕННЫЙ ГИРОСКОП, твердотельный волновой гироскоп?

Морфология, ключевые понятия и семантические связи текста.

8 апреля 2002, 19:20

Originally posted by Developer:

поисковые системы (и мы в т.ч.) не использует для "основной" работы - поиска реляционные базы. Только свои индексы и словари.

А хранение индексов и словарей где осуществляют? В файлах и используют BTrieve или что-нибудь подобное?

Поисковые системы обычно организуют на специальных структурах данных, при этом наиболее часто используются инвертированные (inverted files) или сигнатурные (signature files)файлы: http://instruct.uwo.ca/gplis/601/week2/table1.html

Способов хранения словаря, то есть лексикона, может быть сколько угодно (он обычно составляет не более нескольких процентов от объема текста), начиная от структур с бинарным поиском и кончая n-граммами.

Морфология, ключевые понятия и семантические связи текста.

8 апреля 2002, 19:20

Originally posted by Developer:

поисковые системы (и мы в т.ч.) не использует для "основной" работы - поиска реляционные базы. Только свои индексы и словари.

А хранение индексов и словарей где осуществляют? В файлах и используют BTrieve или что-нибудь подобное?

Поисковые системы обычно организуют на специальных структурах данных, при этом наиболее часто используются инвертированные (inverted files) или сигнатурные (signature files)файлы: http://instruct.uwo.ca/gplis/601/week2/table1.html

Способов хранения словаря, то есть лексикона, может быть сколько угодно (он обычно составляет не более нескольких процентов от объема текста), начиная от структур с бинарным поиском и кончая n-граммами.

Все что нужно знать о DDоS-атаках грамотному менеджеру

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Vyacheslav Tikhonov