Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science

<font face="Verdana" size="2">Originally posted by funsad:
Виновата оказалась реализация, а не скрипт. Вторая ссылка (на site-submissions) работает нормально.

С уважением,
Александр Садовский.
</font>

Да нет, с этим как раз все понятно. Меня другое удивило: то, что во многих поисковиках http://www.microsoft.com нет даже в полусотне.

Results

Alta Vista: Not in top 50

Excite: Not in top 50

HotBot: #1

Google: #1

Infoseek: Not in top 50

LookSmart: Not in top 50

Lycos: #1

Magellan: Not in top 50

WebCrawler: Not in top 50

Yahoo!: Not in top 50

<font face="Verdana" size="2">Originally posted by Nicholas:
2katya: разве это от URL зависит? Домен com'овский.

Возможно, дело даже не в этом. Yahoo, конечно, использует движок Google, но базы-то у них совершенно разные. Google в данном случае выступает скорее в роли партнера и проиндексирует сайт через 2 и более недели после регистрации.</font>


2Vyacheslav Tikhonov: как это разные? в чем же тогда разные?! Насколько я понимаю у Yahoo! есть два поиска:
1)http://google.yahoo.com/bin/query?p=""
2)http://search.yahoo.com/search?p=""
первый и есть "чисто" гугловский поиск, разве не так?

2wolf: http://www2.google.com пробовал, тоже самое. Забавно смотрятся отчеты спайлога, когда он показывает переходы с Yahoo!(Google), идешь проверять и.. нифига

Будем ждать.

http://www.google.com/search?q=search+engines

http://google.yahoo.com/bin/search?p=search+engines

Результаты поиска разные, причем различаются даже позиции самих сайтов. Либо в Yahoo они разбавлены каталогом, либо у них просто используется гугловский движок, а база своя.

<font face="Verdana" size="2">Originally posted by mager:
Спасибо большое за ответ.Но неужели ничего
нет для русских поисковиков?Сам я что-либо
переделать вряд ли смогу
</font>

2funsad: да, полезная штука, что там говорить. Я был, например, немного удивлен, когда запросил "microsoft" и http://www.microsoft.com.

2mager: скрипт очень прост, но есть специфика: нужно добавить Cookies для просмотра более 10 сайтов за раз.

На каких поисковиках вы хотели бы еще отслеживать позицию, кроме Большой тройки?

<font face="Verdana" size="2">Originally posted by njnj:
to v_Tihonov:
пасиба, но
тогда ещё один сакраментальный вопрос:
куда надо поселить этот скрипт(carefull -non programmer level )чтобы это заработало у меня на компе?
</font>

Если под ActivePerl под виндой, то в первой строке нужно вместо #!/usr/bin/perl ставить

что-то вроде #!c:/program files/perl/bin/perl -Ic:/program files/perl/lib -Ic:/program files/perl/site/lib -Ic:/program files/perl/site/lib/LWP чтобы указать пути, где лежит LWP-библиотека. Под UNIX требуется только ее наличие в системе.

<font face="Verdana" size="2">
Ха! Где ж их взять, алгоритмы эти? Поисковики берегут их как зеницу ока. Может у тебя есть пару алгоритмиков для общественности? Яндекса с Рамблером, например? Я думаю, народ с удовольствием на них посмотрит.

</font>

Читай форум топик за топиком с самого начала и мотай на ус.

Все довольно прозрачно

<font face="Verdana" size="2">Originally posted by wolf:
Да, есть такое дело. Подожди пару недель, и в Гугле страница появится на том же месте, где она сейчас в google.yahoo. Причем, какие-нибудь америкосы уже наверняка видят твою страницу в Гугле. По-моему, дело в каких-то региональных настройках - такое впечатление, что для нас, сирых, гугловская база медленне обновляется. У меня тоже так было: в google.yahoo страница есть, чувак из Америки в Google ее видит, а я - нет.</font>

Возможно, дело даже не в этом. Yahoo, конечно, использует движок Google, но базы-то у них совершенно разные. Google в данном случае выступает скорее в роли партнера и проиндексирует сайт через 2 и более недели после регистрации. Это типичная ситуация для каталогов:

Getting Your Site Into Portals and Search Engines Using ODP Data

http://dmoz.org/add.html

<font face="Verdana" size="2">Originally posted by njnj:
Я не могу взять в толк, о чем речь
to Vyacheslav Tikhonov:
- предлагается проанализировать сруктуру каждой страницы по заданной теме на соответсвие ассоциированному запросу?
</font>

Именно так

<font face="Verdana" size="2">
И как определять наиболее " подходящий " теме запрос, если страница доворльно ёмкая?А если таких страниц 155 и маленькая тележка?В любом случае, придётся анализировать по многим запросам,работы дочертиков.. где тут избавление от "вручную" ,где тут Эврика
</font>

Использовать те же алгоритмы, которые применяет поисковая система. Затем отсортировать запросы по частоте, выбрать порог и выбросить все не попавшие запросы. Как это делает Рамблер. Останутся только характерные для данной темы запросы.

<font face="Verdana" size="2">
to evspam:
если можно подробней, то очень бы хотелось понять, что та самая " прога на перле " откуда выдирает?Если не сложно, плз
</font>

А прога у него примерно такая

#!/usr/bin/perl

use LWP::Simple;

$keyword="деньги";

$url="http://search.rambler.ru/cgi-bin/rambler_search?words=$keyword&start=1&sa=1";

my $content=get("$url");

@content=split(/\n/,$content);

open(que,"&gt;queries");

foreach $line (@content)

{

$line=~s/\&quot\;/"/gi;

if ($line=~/\;words\=\S+&gt;(.+)&lt;\/a&gt;&lt;br&gt;/i)

{ print que "$1\n"; }

};

close(que);

<font face="Verdana" size="2">Originally posted by ewspam:
Я написал прогу на perl'е которая выдерает это по нужному списку слов.

Я сделал список слов по моей тематике и получилось:
Окончательно получил от раблЁра около 2000 (немножко больше) после отсеивания (ручного конечно) 500 с копйками.
Получилось что 3/4 мусора.
Провел еще эксперементы с другими темами, получилось примерно то же самое.

</font>

Вот чтобы вручную не отсеивать весь этот мусор, можно оценить каждый отдельно взятый запрос. Отсортированный таким образом список запросов будет составлять кластер, по которому в дальнейшем можно будет также оценивать релевантность каждой страницы.

<font face="Verdana" size="2">Originally posted by ewspam:
Я написал прогу на perl'е которая выдерает это по нужному списку слов.

Я сделал список слов по моей тематике и получилось:
Окончательно получил от раблЁра около 2000 (немножко больше) после отсеивания (ручного конечно) 500 с копйками.
Получилось что 3/4 мусора.
Провел еще эксперементы с другими темами, получилось примерно то же самое.

</font>

А ты попробуй со своего сайта убрать все тэги и сам пересчитай для отдельных страниц релевантность каждого взятого запроса. И не нужно будет вручную все это обрабатывать.

[This message has been edited by Vyacheslav Tikhonov (edited 21-07-2001).]

<font face="Verdana" size="2">Originally posted by Ashmanov:
Если выбросить половину, остаются как бы тематически близкие слова, то есть кластер есть, но размазанный, слабый:

Те, кто ищут 'релевантность', ищут также:
ребалансировка
словарь терминов
дезадаптация
контент-анализ
коррекция
факторы
информация
информационные ресурсы
определение
промоушн
толковый словарь русского языка
память
толковый словарь
образование
словарь
поисков
маркетинг,
...

ну и так далее

Тут ведь заранее не знаешь, добавление какого из этих слов даст прирост позиции в поисковиках и приток посетителей.

Это, конечно, мусор, но очень полезный. Логи сайта выглядят ещё более странно, а тут логи, которые никогда не были видны пользователю.

[This message has been edited by Ashmanov (edited 14-07-2001).]
</font>

А не преследуется ли задача создания тезауруса русского языка подобным образом? Ведь через некоторое время при большом количестве запросов мусор можно будет отфильтровать и получить почти чистые кластера.

<font face="Verdana" size="2">Originally posted by AiK:
Эдакий Алфред Кох, он же Вячеслав Тихонов,(кличка троян) в колготках и с оружием в руках, требующий немедленной психологической коррекции и ребалансировки </font>

... в администрации пермской области

Подобные запросы собираются за сеанс или за какой-то промежуток времени?

Кстати, по запросу "индексация" первым дает

"решение задач иродова"

Всего: 847