Выделение ключевых слов.

1 234
K
На сайте с 27.11.2000
Offline
80
#21

Поскольку штука эта работает на данных Меты (www.meta.ua) - каталог, лингвистика, поисковый индекс, то, в принципе, для сайтов из нашего индекса это можно учитывать.

Для других сайтов можно делать выкачки пачек (не менее 5-7 страниц для устойчивой работы алгоритма), на них распознавать навигационную разметку и не учитывать потом слова из неё.

С уважением, Андрей Коваленко aka Keva
DeveloperRu
На сайте с 27.02.2009
Offline
72
#22
Keva:
Поскольку штука эта работает на данных Меты (www.meta.ua) - каталог, лингвистика, поисковый индекс, то, в принципе, для сайтов из нашего индекса это можно учитывать.

Для других сайтов можно делать выкачки пачек (не менее 5-7 страниц для устойчивой работы алгоритма), на них распознавать навигационную разметку и не учитывать потом слова из неё.

пытался с шинглами работать - получается неплохо шинглами по 3 слова

а как можно распознавать навигационную разметку ? строить DOM ?

Ответы на вопросы (http://telenok.com)
SJ
На сайте с 16.03.2008
Offline
78
#23
DeveloperRu:
а как можно распознавать навигационную разметку ? строить DOM ?

Зачем?

Если у вас есть 10 страниц с сайта, то найти "одинаковые" в текстовом представлении фрагменты не так уж сложно :)

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
K
На сайте с 27.11.2000
Offline
80
#24
DeveloperRu:
пытался с шинглами работать - получается неплохо шинглами по 3 слова

а как можно распознавать навигационную разметку ? строить DOM ?

Это уж слишком :)

Я выделяю элементы блочного форматирования, строю для них образы (по словам, из которых они состоят) и ищу их в других документах.

Нашёл в нескольких - готовый кандидат в разметку.

VT
На сайте с 27.01.2001
Offline
130
#25
а как можно распознавать навигационную разметку ? строить DOM ?

Кстати говоря. навигация обычно обрамлена ссылками, что может быть полезно для определения ключевых слов, относящихся к сайту в целом. В обычных текстах подобные вещи встречаются редко, разве что в названиях разделов на внутренней странице.

K
На сайте с 27.11.2000
Offline
80
#26
Vyacheslav Tikhonov:
Кстати говоря. навигация обычно обрамлена ссылками, что может быть полезно для определения ключевых слов, относящихся к сайту в целом...

Да, согласен. Однако, если учитывать их при поиске полноценно для каждой страницы, то мы знаем, что получится :)

DA
На сайте с 02.06.2009
Offline
0
#27
Keva:
Выложил пре-альфу определения тематики документа.

Не работает ваша прога. Ошибка 404

[Удален]
#28
drugAya-Arh:
Не работает ваша прога. Ошибка 404

Да, не работает. Мне бы тоже хотелось потестить. Можно получить в будущем очень интересный продукт.

orphelin
На сайте с 02.07.2006
Offline
261
#29

drugAya-Arh, alegra, да вроде все работает по этой ссылке:

Keva:
Пардон, не ту ноту взял

http://keva.ru/docThema.html :-)
webcat
На сайте с 19.10.2005
Offline
137
#30

Так и не поняла, если для рекламы, то почему принцип "наоборот" используют?

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий