Ассоциации запросов

123
V
На сайте с 20.06.2001
Offline
24
vs
#11

<font face="Verdana" size="2">Originally posted by AiK:
Запрос "программирование", среди ассоциаций есть и такие:
знакомства
ария
кулинария

Запрос assembler:
мелодии для мобильных телефонов
кабинет министров украины
...
rammstein

...
А "каратэ", а радио?
</font>

Спасибо за информацию. Похоже, что во всех

этих случаях нам достаточно будет

передвинуть порог - чтоб выдавались только

самые весомые ассоциации. если я не

ошибаюсь, во всех примерах, которые вы

приводите, мусор идет в середине или в конце.

Влад

С уважением, Влад Шабанов vs@rambler-co.ru
E
На сайте с 05.07.2001
Offline
59
#12

Я написал прогу на perl'е которая выдерает это по нужному списку слов.

Я сделал список слов по моей тематике и получилось:

Окончательно получил от раблЁра около 2000 (немножко больше) после отсеивания (ручного конечно) 500 с копйками.

Получилось что 3/4 мусора.

Провел еще эксперементы с другими темами, получилось примерно то же самое.

------------------

Пожалуй этого достаточно.

Пожалуй этого достаточно.
VT
На сайте с 27.01.2001
Offline
130
#13

<font face="Verdana" size="2">Originally posted by ewspam:
Я написал прогу на perl'е которая выдерает это по нужному списку слов.

Я сделал список слов по моей тематике и получилось:
Окончательно получил от раблЁра около 2000 (немножко больше) после отсеивания (ручного конечно) 500 с копйками.
Получилось что 3/4 мусора.
Провел еще эксперементы с другими темами, получилось примерно то же самое.

</font>

А ты попробуй со своего сайта убрать все тэги и сам пересчитай для отдельных страниц релевантность каждого взятого запроса. И не нужно будет вручную все это обрабатывать.

[This message has been edited by Vyacheslav Tikhonov (edited 21-07-2001).]

E
На сайте с 05.07.2001
Offline
59
#14

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
Originally posted by ewspam:
Я написал прогу на perl'е которая выдерает это по нужному списку слов.

Я сделал список слов по моей тематике и получилось:
Окончательно получил от раблЁра около 2000 (немножко больше) после отсеивания (ручного конечно) 500 с копйками.
Получилось что 3/4 мусора.
Провел еще эксперементы с другими темами, получилось примерно то же самое.

</font>

А ты попробуй со своего сайта убрать все тэги и сам пересчитай для отдельных страниц релевантность каждого взятого запроса. И не нужно будет вручную все это обрабатывать.

[This message has been edited by Vyacheslav Tikhonov (edited 21-07-2001).]

Что то не понял смысла этого шамаства?!...

------------------

Пожалуй этого достаточно.

N
На сайте с 20.07.2001
Offline
3
#15

2ewspam

<font face="Verdana" size="2">Originally posted by ewspam:
Я написал прогу на perl'е которая выдерает это по нужному списку слов.
</font>

другими словами, твоя прога определяет частотные вхождения слов в полученый список?

Что то вроде http://topwords.lgg.ru/atext/index.htm?

2Vjacheslav

присоеденяюсь к ewspam - к чему такие манипуляции сложные? Понять насколько существующие страницы релевантны?

с уважением, njnj
N
На сайте с 20.07.2001
Offline
3
#16

2 ewspam

Да, а сложно было бы к твоей проге добавить такие фичи:

1) указание расстояния слова в док-те от начала тектса

2)определение позиций определённого стринга в тексе док-та

она бы обросла удивительной полезноятью

respects

VT
На сайте с 27.01.2001
Offline
130
#17

<font face="Verdana" size="2">Originally posted by ewspam:
Я написал прогу на perl'е которая выдерает это по нужному списку слов.

Я сделал список слов по моей тематике и получилось:
Окончательно получил от раблЁра около 2000 (немножко больше) после отсеивания (ручного конечно) 500 с копйками.
Получилось что 3/4 мусора.
Провел еще эксперементы с другими темами, получилось примерно то же самое.

</font>

Вот чтобы вручную не отсеивать весь этот мусор, можно оценить каждый отдельно взятый запрос. Отсортированный таким образом список запросов будет составлять кластер, по которому в дальнейшем можно будет также оценивать релевантность каждой страницы.

E
На сайте с 05.07.2001
Offline
59
#18

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
Вот чтобы вручную не отсеивать весь этот мусор, можно оценить каждый отдельно взятый запрос. Отсортированный таким образом список запросов будет составлять кластер, по которому в дальнейшем можно будет также оценивать релевантность каждой страницы.</font>

Каким это образом можно оценить каждый отдельно взятый запрос? Плохо понимаю, видимо я немножко тупой...

------------------

Пожалуй этого достаточно.

N
На сайте с 20.07.2001
Offline
3
#19

Я не могу взять в толк, о чем речь

to Vyacheslav Tikhonov:

- предлагается проанализировать сруктуру каждой страницы по заданной теме на соответсвие ассоциированному запросу?

И как определять наиболее " подходящий " теме запрос, если страница доворльно ёмкая?А если таких страниц 155 и маленькая тележка?В любом случае, придётся анализировать по многим запросам,работы дочертиков.. где тут избавление от "вручную" ,где тут Эврика

to evspam:

если можно подробней, то очень бы хотелось понять, что та самая " прога на перле " откуда выдирает?Если не сложно, плз

VT
На сайте с 27.01.2001
Offline
130
#20

<font face="Verdana" size="2">Originally posted by njnj:
Я не могу взять в толк, о чем речь
to Vyacheslav Tikhonov:
- предлагается проанализировать сруктуру каждой страницы по заданной теме на соответсвие ассоциированному запросу?
</font>

Именно так

<font face="Verdana" size="2">
И как определять наиболее " подходящий " теме запрос, если страница доворльно ёмкая?А если таких страниц 155 и маленькая тележка?В любом случае, придётся анализировать по многим запросам,работы дочертиков.. где тут избавление от "вручную" ,где тут Эврика
</font>

Использовать те же алгоритмы, которые применяет поисковая система. Затем отсортировать запросы по частоте, выбрать порог и выбросить все не попавшие запросы. Как это делает Рамблер. Останутся только характерные для данной темы запросы.

<font face="Verdana" size="2">
to evspam:
если можно подробней, то очень бы хотелось понять, что та самая " прога на перле " откуда выдирает?Если не сложно, плз
</font>

А прога у него примерно такая

#!/usr/bin/perl

use LWP::Simple;

$keyword="деньги";

$url="http://search.rambler.ru/cgi-bin/rambler_search?words=$keyword&start=1&sa=1";

my $content=get("$url");

@content=split(/\n/,$content);

open(que,"&gt;queries");

foreach $line (@content)

{

$line=~s/\&quot\;/"/gi;

if ($line=~/\;words\=\S+&gt;(.+)&lt;\/a&gt;&lt;br&gt;/i)

{ print que "$1\n"; }

};

close(que);

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий