vs

Рейтинг
24
Регистрация
20.06.2001
Должность
разработчик

<font face="Verdana" size="2">Originally posted by !Иван FXS:
Добрый день!

Тем не менее, не могли бы Вы проконсультировать меня, какие поисковые машины лучше подходят для такого типа задачи?
С чего начать?
</font>

Попробуйте воспользоваться поиском новостей на Рамблере. Индекс этой базы обновляется несколько раз в день. Также Вам может быть полезен поиск по Рамблер-Медиа. В нем, кстати, тоже база обновляется очень часто.

С уважением,

Влад

[This message has been edited by vs (edited 22-11-2001).]

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
На CPAN лежит библиотека Lingua. Модуль DetectCharset, в нее входящий, предназначен для определения кодировки документа.
Только перед тем, как пропустить запрос через детектор, его нужно перевести из hex в ASCII.
</font>

Только проверьте, что "чай" и "рбк" не путаются Для коротких запросов вы, пользуясь исключительно строкой запроса, никогда надежно кодовую страницу не определите.

Полезно было бы посмотреть на обращение пользователя к анализируемому сайту. В смысле, поглядеть, что у него за браузер и в какой кодировке отдают таким браузерам ответ поисковые машины. Там, правда, очень запутанная логика и одной только строки "Mozilla/4.0 (compatible; MSIE 5.01; Windows NT)" может не хватить, но точность распознавания кодовой страницы для коротких запросов повысить можно.

С уважением,

Влад

<font face="Verdana" size="2">Originally posted by Iva3000:
А как звать Рамблеровских роботов? А то кого только не было - и Гугл, и Инктоми, и Аскдживс (никуда не сабмитились), а вот Рамблера не нашла </font>

Тут написано:

http://www.rambler.ru/doc/faq.shtml#11

С уважением,

Влад

[This message has been edited by vs (edited 19-11-2001).]

<font face="Verdana" size="2">Originally posted by Gray:
Согласитесь, что практически любая страница этого сайта более релевантна приведенному запросу, чем сайт о системах видеонаблюдения ....</font>

Завтра посмотрю логи поисковика и скажу, что об этом думают простые пользователи (не web-мастера). Если окажется, что по такой ссылке не кликают (я сам заранее не знаю, я, как и web-мастера, типичным пользователем не являюсь), то Вы правы.

Влад

[This message has been edited by vs (edited 04-11-2001).]

<font face="Verdana" size="2">Originally posted by Gray:
Лично мне кажется, что особых оснований повышать ранг страницы
при точном совпадении падежа нет, если только речь не идет о точном
совпадении запроса.
</font>

Есть много случаев, когда повышение ранга при буквальном совпадении полезно. В других случаях - не вредно. Надо только подобрать правильное соотношение между надбавкой (извините за бухгалтерский термин ;-) за совпадение словоформы и надбавкой за title.

Приведу несколько примеров:

1) поиск по запросу, слова которого имеют омонимы

Например, "устав"

http://search.rambler.ru/cgi-bin/rambler_search?words=%F3%F1%F2%E0%E2

Обратитет внимание: первая пятерка (из top100) ранжируется отдельно,

с учетом посещаемости. Там встречаются формы глагола уставать

(особенно интересен пункт №5 :-). А дальше идет список, где сплошной

устав без признаков уставания.

Яндекс также поднимает вверх документы, содержащие слово "устав", но

за счет ссылочного ранжирования. Именно поэтому запрос "устал" (или

"уставать", все равно) выдает все те же уставы.

Пример 2: поиск фамилии Горяга (привет физикам :-)

http://search.rambler.ru/cgi-bin/rambler_search?words=%C3%EE%F0%FF%E3%E0

Видно, что учебники и статьи сверху.

Про то же самое писали еще и вот здесь:

А вообще, Gray, Вы на меня не обижайтесь, но Ваша агрументация немного похожа на толковый словарь web-мастера (поиск работает плохо, т. к. мой сайт не в первой десятке :-) searchengines.ru - это ж не поисковая система, хотя и хороший сайт о поисковых системах.

С уважнием,

Влад Шабанов

[This message has been edited by vs (edited 04-11-2001).]

[This message has been edited by vs (edited 04-11-2001).]

<font face="Verdana" size="2">Originally posted by Belax:
1. Почему в RAMBLER у меня страница упала с 5 места далеко за 300'ые.
2. Почему у всех вверху написано САЙТ
WWW.LALALA.RU а у меня этого нет
</font>

1. Обратитесь в службу поддержки Рамблера

search.support@rambler-co.ru

2. Потому что по запросу на Вашем сайте

нашлась только одна страница (или несколько

эквивалентных).

С уважением,

Влад Шабанов

<font face="Verdana" size="2">Originally posted by Serjio:
Здравствуйте, Влад!
Я прочитал Ваш постинг, но так и не понял одну очень интересующую меня и, я думаю, всех остальных вещь - с какой периодичностью происходит индексация новых просабмиченных сайтов/переиндексация. Дело в том, что месяц назад я просабмитил один сайт, его через 2 недели проиндексировали полностью Яндекс и Апорт - Апорт примерно на 2 дня раньше. А индексации Рамблера я пока не ощутил... В указанном Вами постинге 12 октября Вы писали, что через 2-3 недели Рамблер будет индексировать документы со скоростью раз в 2 недели. Это действительно так будет? Время то истекает...
</font>

Время действительно идет очень быстро.

Сейчас паук Рамблера только освежает базу -

повторно выкачивает уже известные страницы и

определяет, что в них изменилось или

добавилось. Как только обновление техники

закончится (пока в процессе), выкачка и

индексация перейдут в обычный режим.

Влад

<font face="Verdana" size="2">Originally posted by paul:
Присоединяюсь к ожиданиям предыдущего послания. Ко мне Рамблер заходил последний раз в июле.

Яндекс был пару недель назад...
</font>

Сейчас с www.avc.ru взята 91 страница.

Ничего определенного про обновления сейчас

сказать не могу. Подробнее см. мой постинг

ниже.

С уважением,

Влад Шабанов

[This message has been edited by vs (edited 30-10-2001).]

[This message has been edited by vs (edited 30-10-2001).]

[This message has been edited by vs (edited 30-10-2001).]

<font face="Verdana" size="2">Originally posted by wolf:
Сегодня во второй половине дня Рамблер убрал из результатов поиска примесь из Топ100 (занимавшую первые пять позиций результатов поиска). Релевантность результатов поиска, и так невысокая, упала практически до нуля. Интересно, это надолго (если не навсегда), или очередной глюк?</font>

У нас вчера была небольшая проблема с серверами. Сегодня все должно быть

нормально.

С уважением,

Влад Шабанов

P.S.

Краткий словарь web-мастера:

1) Поиск ваще не ищет

Мой сайт не попал в первую десятку

(пятнашку)

2) Индекс не обновляется уже полгода:

Паук ходит на мой сервер за страницами

так редко, что я не могу провести всех

эксперимнтов по накрутке и

заспамливанию.

3) Вырубили тааакую полезную-важную функцию:

Я накручивал поиск при помощи этой

функции, а теперь придется все

переделывать.

:-)

<font face="Verdana" size="2">Originally posted by funsad:
Без всяких пресс-релизов и новостей Рамблер ввел удивительно удобную возможность получения текста страницы без обращения к оригиналу. Рядом с описаниями сайтов теперь можно видеть ссылку "Восстановить текст".

Из четырех заметных игроков рунета такая возможность теперь есть у трех: Google, Апорт и Рамблер. А что же Яндекс, неужели и после этого ограничится ссылками "Показать найденные слова"?

С уважением,
Александр Садовский.
</font>

Я тут мучительно вспоминал-смотрел по

исходникам, когда эта возможность впервые

появилась: где-то в апреле-мае. И уже с тех

пор разок переделывалась. А вы говорите, не

ищет, за документами ходит :-)

В общем, будет вам за это дизайн КРИЧАЩИЙ,

PR-жестокий и доставка ответных страниц

поиска по почте заказным письмом с

уведомлением о вручении :-)

С уважением,

Влад Шабанов

P.S. Про стили и форматирование. Мы храним

текст и немного информации о форматировании

(bold, headings, и т. д.) Еще храним таблицы,

но из-за проблем с вписыванием вложенных

таблиц в наш дизайн там не все показывается.

Восстановление текста делается без обращения

к серверу, откуда наш паук эту страницу

взял.

2puk: пожалуйста, приведите примеры

документов восстановление которых Вам кажется

некорректным.

Всего: 129