Информация здесь все-таки из нашей поисковой машины и за период с февраля по август 2001. Пока нет возможности обработать логи за последние месяцы, хотя уже давно обещаю.
Пинг на данный момент для сайтов предоставляет только поиск по каталогу, то есть является аналогом Mail.ru, Refer.ru и т.д. Удовлетворить он может только навигационные потребности пользователей.
Несмотря на это поиском все-таки пользуются. На сегодняшний день обрабатывается около 350 тыс. запросов в месяц против, скажем, 1,4 мил. запросов той же Меты, которая предоставляет полнотекстовый доступ.
Что-то все это начинает напоминать прошлогоднюю ситуацию со Спайлогом. Скоро соску будут всем показывать. А все недовольные получат ошибку 403.
Вся проблема в том, что Си язык низкоуровневый, а тот же perl или php языки очень высокого уровня. Проще говоря, при программировании на Си приходится самому создавать структуры более высокого уровня, в то время как в perl это все уже сделали за тебя.
Кроме того, в perl'e просто непревзойденная концепция регулярных выражений, не имеющая аналогов ни в каком другом языке (конечно, в PHP regexp тоже есть, но не такие удобные). Например, программу обработки текстов, на которую при реализации на Си можно потратить неделю, на perl (если есть опыт) можно сделать за пару минут. Естественно, работать она будет на несколько порядков медленнее, но более чем часто все же себя оправдывает.
Конечно, для обучения таким языкам нужно дъявольское терпение и огромное желание, но в результате в конце концов иногда чувствуешь себя чуть ли не богом программирования
Можно поставить ограничение на n-е количество страниц одного уровня вложенности. При этом в процессе сканирования можно подписывать весь документ хеш-функцией и, если параметры будут изменяться (как в Вашем примере), а контент будет прежний, сразу останавливать робота на сканируемом сайте. Конечно, будет медленнее, но зато качество повыше.
Ну почему же? На лету, по идее, можно сразу разделять страницы на навигационные (как у Грея в предыдущем топике) и информационные. То есть сразу собирать карту сайта. А по карте можно попытаться и выделить самые важные страницы.
Вообще не очень здорово сначала качать все подряд, а уже потом анализировать. Гораздо лучше наоборот, к примеру, как у IBM Almadden.
Планируется ли в будущем появление в Рамблере какой-либо модели поведения пользователя наподобие PageRank?
А разве ценность текста на отдельной странице никак не оценивается? Например, посчитать количество семантических связей между словами и среднюю длину предложения. У вас же вроде нормальная морфология.
Вообще это утверждение немного удивляет. Разделяйте в линке скрипт и его параметры и обрабатывайте соответствующим образом. Сходу могу посоветовать что-то вроде этого:
$url="/foo/bar/xxx.yyy?b=2&c=3";if ($url=~/^(\S+)?\?(\S+)/){ my $scriptroot=$1; my $parstr=$2; my @par=split(/\&/,$parstr); my @sortpar=sort @par; print "$scriptroot\n @par\n @sortpar";};
В @sortpar всегда будет одна и та последовательность параметров и не нужно будет ходить лишний раз по ссылкам при перестановках параметров.
[This message has been edited by Vyacheslav Tikhonov (edited 19-01-2002).]
Да? http://www.google.com/search?num=50&hl=ru&newwindow=1&q=%22%E2%EB%E0%E4%E8%EC%E8%F0+%E2%EB%E0%E4%E8%EC%E8%F0%EE%E2%E8%F7%22+%EF%F3%F2%E8%ED+site%3Alenta.ru
Да нет, все нормально работает. Сравните результаты:
http://www.google.com/search?num=50&hl=ru&ne wwindow=1&q=%E2%EB%E0%E4%E8%EC%E8%F0+*+%EF%F3%F2%E8%ED&btnG=%CF%EE%E8%F1%EA+%E2+Google
и
http://www.google.com/search?num=50&hl=ru&newwindow=1&q=%E2%EB%E0%E4%E8%EC%E8% F0+%EF%F3%F2%E8%ED
Конструкция George _ Bush не всегда видна потому что Google, похоже, обычно показывает в качестве описания отрывки не отдельного документа со строгой фразой, а два самых важных, как правило, корневой и с имеющий на сайте максимальный ранк по данному запросу. Так что не факт, что там нет George _ Bush.
Да ну. Это ж маркетинг
[This message has been edited by Vyacheslav Tikhonov (edited 18-01-2002).]
Можно посмотреть еще в Европоиске Меты: http://meta-ukraine.com/es/
Там даже краткая характеристика каждой системы дана.
Стоп-слова можно взять из MnogoSearch. Спасибо Александру Баркову
# Russian stopwords, charset koi8-r
# By Alexander Barkov <bar@izhcom.ru>
#
Charset: koi8-r
Language: ru
а
без
более
бы
был
была
были
было
быть
в
вам
вас
весь
во
вот
все
всего
всех
вы
где
да
даже
для
до
его
ее
если
есть
еще
же
за
здесь
из
или
им
их
к
как
ко
когда
кто
ли
либо
мне
может
мы
на
надо
наш
не
него
нее
нет
ни
них
но
ну
о
об
однако
он
она
они
оно
от
очень
по
под
при
с
со
так
также
такой
там
те
тем
то
того
тоже
той
только
том
ты
у
уже
хотя
чего
чей
чем
что
чтобы
чье
чья
эта
эти
это
я
Стемминг - метод, при котором из ключевых слов в лексиконе (словаре поисковой системы) и поискового запроса исключаются все суффиксы и окончания. Описание алгоритма стемминга можно найти у Портера: http://snowball.sourceforge.net/russian/stemmer.html
Сравнение различных алгоритмов стемминга и областей, где он применим, есть у Зобеля на http://www.mds.rmit.edu.au/~msf/papers/adcs98.pdf
А куда деваться при отсутствии морфологии?
[This message has been edited by Vyacheslav Tikhonov (edited 02-01-2002).]