oSa

Рейтинг
1
Регистрация
08.03.2003
Должность
search engines creator
Интересы
search engines
so so...
Как писал mathematician

Удивлялся я тому, что нигде на уапортале не указано (может не нашел?) что ето уже поисковик а не только каталог.
Сразу вопрос.
Используется ли тепер при поиске описание? Какие принципи ранжирования используются?

Нет, пока еще не указано, когда все будет готово, тогда и будут прессрелизы и проч...

Описание учитывается, о ранжировании я расскажу потом, когда все будет готово.

Как писал Gray
Я, в основном, о скорости. Если ответ на поиск выдается минуту, и это сейчас, то что будет, когда этим поиском начнут пользоваться?

Да уже пользуются. По статистике средняя продолжительность 9 сек. Планируемая - не больше 3сек. Еще не все готово, просьба подождать немного.

Как писал Gray
oSa, надеюсь, помните недавнюю историю с поиском на Топпинге?

Помню, и все же у нас не метапоиск, и если robots.txt не считался, то скорее всего это баг и мы его зафиксим.

Как писал Vyacheslav Tikhonov

А что ж с поиском по каталогу, закрыли?

Вообще странно он как-то ищет, очень долго (почти минуту). Используете какую-то СУБД?

Нет не закрыли, скорее ввели дополнение к поиску по каталогу.

Долго ищет, потому как разработка еще не завершена, попробуйте еще раз где-то через месяц (на данный момент разброс времени поиска от 0.01 сек до нескольких минут).

Приветствую mathematician!

Я занимаюсь посковиком Uaportal.com.

Раньше я думал (и кажется так оно и было) что uaportal только каталог украинских сайтов.

Мы вносим в каталог некоторые не-украинские сайты, если они имеют отношение к Украине либо если это достаточно уникальный ресурс (т.е. если ничего подобного нету в Украине)

Как писал mathematician
"
/ukr
uaportal.com
Mozilla 4.0 (MSIE 5.0 compatible); Uaportal crawler
Sunday, 30-Mar-2003 01:51:15 GMT
"

Там сначала ресурс, потом IP, потом UA потом время

И так страниц 200 за один день
Такую "мелочь" как robots.txt он не спрашивал.

Не спрашивал? Хм...вообще-то должен был спросить. Дайте адрес сайта, я проверю в чем там дело.

Как писал Vyacheslav Tikhonov

Существует два подхода определения близости двух документов ...

Отлично, это то что мне было надо, спасибо Вячеслав.

Как писал spark

это вы с Сергеем Брином беседуете? :) Его здесь пока не замечено.

Для страницы, на которой мы с вами находимся Гугль дает:
Контент, похоже, не играет решающего значения :)

Сергея Брина не видел :) даже не знаю кто это....

Хм... да уж, похожесть по контенту особо не радует... Я попробовал в яндексе поискать похожие страницы - Яндекс нашел более-менее похожие по довольно общей теме, но по смыслу все-таки они не сильно похожи...

Как писал wolf
По схожести контента и/или backward links.

собственно это понятно... я имею в виду, какие технологии могут быть использованы для определения схожести контента?

т.е. к примеру, что мне приходит на ум - это выделить клчевые слова для каждой страницы и затем искать страницы с такими же ключевыми словами. Так как сравнение по всем словам долго и неэффективно.

Но здесь не совсем понятно как определять ключевые слова для страницы, по какому критерию?

А что еще используется, какие другие алгоритмы?