Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science

Originally posted by telsa:
Да, конечно, не "только" украинской аудитории.
Меня весьма удивляет количество предоставляемых ими запросов.
Это за какой период они выдают информацию?

Информация здесь все-таки из нашей поисковой машины и за период с февраля по август 2001. Пока нет возможности обработать логи за последние месяцы, хотя уже давно обещаю.


Вот это-то и печально (200 запросов для "техника" или 28 для "travel"). Не пользуются люди пингом для поиска.
Боюсь мои данные никуда не будут годиться

Пинг на данный момент для сайтов предоставляет только поиск по каталогу, то есть является аналогом Mail.ru, Refer.ru и т.д. Удовлетворить он может только навигационные потребности пользователей.

Несмотря на это поиском все-таки пользуются. На сегодняшний день обрабатывается около 350 тыс. запросов в месяц против, скажем, 1,4 мил. запросов той же Меты, которая предоставляет полнотекстовый доступ.

Что-то все это начинает напоминать прошлогоднюю ситуацию со Спайлогом. Скоро соску будут всем показывать. А все недовольные получат ошибку 403.

Originally posted by Gray:
Саша, я с тобой не соглашусь. Твоя проблема в том, что ты знаешь C, поэтому отталкиваешься от удобства работы с популярными компиляторами и развитости языка. Я, к примеру, C не изучал, т.е. не знаю его вовсе. Синтаксис perl мне интуитивно не понятен, а вот PHP осваивается нормально, простой и понятный язык.

Вся проблема в том, что Си язык низкоуровневый, а тот же perl или php языки очень высокого уровня. Проще говоря, при программировании на Си приходится самому создавать структуры более высокого уровня, в то время как в perl это все уже сделали за тебя.

Кроме того, в perl'e просто непревзойденная концепция регулярных выражений, не имеющая аналогов ни в каком другом языке (конечно, в PHP regexp тоже есть, но не такие удобные). Например, программу обработки текстов, на которую при реализации на Си можно потратить неделю, на perl (если есть опыт) можно сделать за пару минут. Естественно, работать она будет на несколько порядков медленнее, но более чем часто все же себя оправдывает.

Конечно, для обучения таким языкам нужно дъявольское терпение и огромное желание, но в результате в конце концов иногда чувствуешь себя чуть ли не богом программирования

Originally posted by vs:
К сожалению, есть много примеров, когда это не работает. Причем не всегда на живых серверах можно эксперименты ставить (пересортировать, скачать заново и сравнить) - бывает даже, что они от этого ломаются. То же самое касается необязательных параметров.
Кстати, а что Вы будете делать с теми, кто динамику маскирует? Когда нету символа '?' в URL.

Можно поставить ограничение на n-е количество страниц одного уровня вложенности. При этом в процессе сканирования можно подписывать весь документ хеш-функцией и, если параметры будут изменяться (как в Вашем примере), а контент будет прежний, сразу останавливать робота на сканируемом сайте. Конечно, будет медленнее, но зато качество повыше.


Что же касается анализа полезности, то на лету его делать очень сложно - нужно ведь совокупность страниц сервера анализировать.

Ну почему же? На лету, по идее, можно сразу разделять страницы на навигационные (как у Грея в предыдущем топике) и информационные. То есть сразу собирать карту сайта. А по карте можно попытаться и выделить самые важные страницы.


А качаем мы параллельно очень много серверов. Поэтому робот качает все подряд, а потом уже другие программы клеят дубли, выкидывают явный мусор и т. д.

Вообще не очень здорово сначала качать все подряд, а уже потом анализировать. Гораздо лучше наоборот, к примеру, как у IBM Almadden.

Планируется ли в будущем появление в Рамблере какой-либо модели поведения пользователя наподобие PageRank?

Originally posted by vs:
2) Постараться, чтобы среди страниц не было "мусора" - страниц, на которых только дизайн и нет никакого наполнения. Есть любители писать скрипты так, что если параметры неправильные, скрипт просто выдает дизайн (всякие рамки, навигацию и прочую беллетристику) и код 200 (успех). А потом на страницах своего же сайта кладут эти самые ссылки с непрвильными параметрами.
В результате наш робот бродит по одинаковм страницам, не содержащим ничего хорошего, а до нормальных текстов добирается очень нескоро.

А разве ценность текста на отдельной странице никак не оценивается? Например, посчитать количество семантических связей между словами и среднюю длину предложения. У вас же вроде нормальная морфология.


3) Крайне желательно, чтобы URL были простыми и незамысловатыми. Пример: С точки зрения практически любого поисковика, URL

/foo/bar/xxx.yyy?a=1&b=2&c=3
,
/foo/bar/xxx.yyy?b=2&c=3&a=1
и
/foo/bar/xxx.yyy?b=2&c=3

совсем разные вещи, хотя обычно скрипты разбирают параметры независимо от порядка и с учетом default значений для тех параметров, которые в QUERY_STRING отсутствуют.
Соответственно, на этапе выкачки оказывается, что мы накачали 100 тыс. ссылок, из которых на самом деле уникальных - 2 тыс, а остальное - вариации перестановок параметров, добавление случайных чисел (session id и прочая дрянь) и т. д.

Вообще это утверждение немного удивляет. Разделяйте в линке скрипт и его параметры и обрабатывайте соответствующим образом. Сходу могу посоветовать что-то вроде этого:


$url="/foo/bar/xxx.yyy?b=2&c=3";
if ($url=~/^(\S+)?\?(\S+)/)
{
my $scriptroot=$1;
my $parstr=$2;
my @par=split(/\&/,$parstr);
my @sortpar=sort @par;
print "$scriptroot\n @par\n @sortpar";
};

В @sortpar всегда будет одна и та последовательность параметров и не нужно будет ходить лишний раз по ссылкам при перестановках параметров.

[This message has been edited by Vyacheslav Tikhonov (edited 19-01-2002).]

Originally posted by iseg:
Спасибо за отличный пример, ярко подтверждающий мои слова.

На Ленте.Ру (третий сервер сверху) совершенно _точно_ нет конструкций Владимир __ Путин. Просмотрел внимательно все документы.

Да? http://www.google.com/search?num=50&hl=ru&newwindow=1&q=%22%E2%EB%E0%E4%E8%EC%E8%F0+%E2%EB%E0%E4%E8%EC%E8%F0%EE%E2%E8%F7%22+%EF%F3%F2%E8%ED+site%3Alenta.ru

Originally posted by iseg:
Не очень-то. Во-первых, выдача почти не отличается от запроса George Bush . Во-вторых, там полно документов, в которых не видно конструкций George _ Bush.

Да нет, все нормально работает. Сравните результаты:

http://www.google.com/search?num=50&hl=ru&ne wwindow=1&q=%E2%EB%E0%E4%E8%EC%E8%F0+*+%EF%F3%F2%E8%ED&btnG=%CF%EE%E8%F1%EA+%E2+Google

и

http://www.google.com/search?num=50&hl=ru&newwindow=1&q=%E2%EB%E0%E4%E8%EC%E8% F0+%EF%F3%F2%E8%ED

Конструкция George _ Bush не всегда видна потому что Google, похоже, обычно показывает в качестве описания отрывки не отдельного документа со строгой фразой, а два самых важных, как правило, корневой и с имеющий на сайте максимальный ранк по данному запросу. Так что не факт, что там нет George _ Bush.


И неявный ответ (о котором я и раньше догадывался): "видимо, нет, иначе зачем было бы вводить такой странный специальный оператор".

Да ну. Это ж маркетинг

[This message has been edited by Vyacheslav Tikhonov (edited 18-01-2002).]

Originally posted by Kai+:
Есть у нас в рашке пара популярных национальных поисковиков типа - яндех, ремблер...
Наверняка есть такие же у немцев, англичан, испанцев и пр. Где бы ссылочки надыбать?

Можно посмотреть еще в Европоиске Меты: http://meta-ukraine.com/es/

Там даже краткая характеристика каждой системы дана.

Originally posted by Sad Spirit:
...где бы взять?

Стоп-слова можно взять из MnogoSearch. Спасибо Александру Баркову

# Russian stopwords, charset koi8-r

# By Alexander Barkov <bar@izhcom.ru>

#

Charset: koi8-r

Language: ru

а

без

более

бы

был

была

были

было

быть

в

вам

вас

весь

во

вот

все

всего

всех

вы

где

да

даже

для

до

его

ее

если

есть

еще

же

за

здесь

и

из

или

им

их

к

как

ко

когда

кто

ли

либо

мне

может

мы

на

надо

наш

не

него

нее

нет

ни

них

но

ну

о

об

однако

он

она

они

оно

от

очень

по

под

при

с

со

так

также

такой

там

те

тем

то

того

тоже

той

только

том

ты

у

уже

хотя

чего

чей

чем

что

чтобы

чье

чья

эта

эти

это

я

Originally posted by JuriC:
Что такое стемминг?

Стемминг - метод, при котором из ключевых слов в лексиконе (словаре поисковой системы) и поискового запроса исключаются все суффиксы и окончания. Описание алгоритма стемминга можно найти у Портера: http://snowball.sourceforge.net/russian/stemmer.html


Есть ли какие-нибудь работы по измерению эффективности стемминга?

Сравнение различных алгоритмов стемминга и областей, где он применим, есть у Зобеля на http://www.mds.rmit.edu.au/~msf/papers/adcs98.pdf


Где наиболее полезен стемминг и на сколько применим стемминг для русского?

А куда деваться при отсутствии морфологии?

[This message has been edited by Vyacheslav Tikhonov (edited 02-01-2002).]

Всего: 847