Да нет, с этим как раз все понятно. Меня другое удивило: то, что во многих поисковиках http://www.microsoft.com нет даже в полусотне.
Results
Alta Vista: Not in top 50
Excite: Not in top 50
HotBot: #1
Google: #1
Infoseek: Not in top 50
LookSmart: Not in top 50
Lycos: #1
Magellan: Not in top 50
WebCrawler: Not in top 50
Yahoo!: Not in top 50
http://www.google.com/search?q=search+engines
http://google.yahoo.com/bin/search?p=search+engines
Результаты поиска разные, причем различаются даже позиции самих сайтов. Либо в Yahoo они разбавлены каталогом, либо у них просто используется гугловский движок, а база своя.
2funsad: да, полезная штука, что там говорить. Я был, например, немного удивлен, когда запросил "microsoft" и http://www.microsoft.com.
2mager: скрипт очень прост, но есть специфика: нужно добавить Cookies для просмотра более 10 сайтов за раз.
На каких поисковиках вы хотели бы еще отслеживать позицию, кроме Большой тройки?
Если под ActivePerl под виндой, то в первой строке нужно вместо #!/usr/bin/perl ставить
что-то вроде #!c:/program files/perl/bin/perl -Ic:/program files/perl/lib -Ic:/program files/perl/site/lib -Ic:/program files/perl/site/lib/LWP чтобы указать пути, где лежит LWP-библиотека. Под UNIX требуется только ее наличие в системе.
Читай форум топик за топиком с самого начала и мотай на ус.
Все довольно прозрачно
Возможно, дело даже не в этом. Yahoo, конечно, использует движок Google, но базы-то у них совершенно разные. Google в данном случае выступает скорее в роли партнера и проиндексирует сайт через 2 и более недели после регистрации. Это типичная ситуация для каталогов:
Getting Your Site Into Portals and Search Engines Using ODP Data
http://dmoz.org/add.html
Именно так
Использовать те же алгоритмы, которые применяет поисковая система. Затем отсортировать запросы по частоте, выбрать порог и выбросить все не попавшие запросы. Как это делает Рамблер. Останутся только характерные для данной темы запросы.
А прога у него примерно такая
#!/usr/bin/perl
use LWP::Simple;
$keyword="деньги";
$url="http://search.rambler.ru/cgi-bin/rambler_search?words=$keyword&start=1&sa=1";
my $content=get("$url");
@content=split(/\n/,$content);
open(que,">queries");
foreach $line (@content)
{
$line=~s/\"\;/"/gi;
if ($line=~/\;words\=\S+>(.+)<\/a><br>/i)
{ print que "$1\n"; }
};
close(que);
Вот чтобы вручную не отсеивать весь этот мусор, можно оценить каждый отдельно взятый запрос. Отсортированный таким образом список запросов будет составлять кластер, по которому в дальнейшем можно будет также оценивать релевантность каждой страницы.
А ты попробуй со своего сайта убрать все тэги и сам пересчитай для отдельных страниц релевантность каждого взятого запроса. И не нужно будет вручную все это обрабатывать.
[This message has been edited by Vyacheslav Tikhonov (edited 21-07-2001).]
А не преследуется ли задача создания тезауруса русского языка подобным образом? Ведь через некоторое время при большом количестве запросов мусор можно будет отфильтровать и получить почти чистые кластера.
... в администрации пермской области
Подобные запросы собираются за сеанс или за какой-то промежуток времени?
Кстати, по запросу "индексация" первым дает
"решение задач иродова"