Stack запускает новый поисковик

L
На сайте с 02.07.2001
Offline
47
#41
... Например, выборочно сверять, у кого присланный индекс не совпал с индексом, составленным самим поисковиком...

Таким образом можно отлавливать явные фальсификации. И то, наверняка, во многих случаях достоверную проверку будет осуществить непросто (Добавились новые документы на сайт, сайт изменил структуру, был недоступен и т.п.) Кроме программной части потребуется еще штат "контролеров", которые будут отделять козлищ от агнцев и разбираться с незаслуженно обиженными.

Мне кажется, идея отдать создание индекса на откуп владельцам ресурсов чем-то похожа на ситуцию с ключевыми словами и описаниями в метатегах. Пока веб был "научной" средой и авторы текстов были заинтересованы, чтобы их тексты находились только теми, кто их действительно хочет найти, это работало. А сейчас слова в метатегах на многих сайтах - это шум, на который большинство поисковиков перестало обращать внимание.

Владелец сайта не может объективно представлять свой ресурс в поисковой системе, у него задачи другие :)

С уважением, Алексей Чуксин Украинская поисковая система -Украина (http://meta.ua/)
Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#42
Первоначальное сообщение от funsad Для остальных участников, вот ссылки на упомянутые документы:

ни у кого не осталось копии ?

E
На сайте с 05.07.2001
Offline
59
#43

Какие функции индекса будут отдаваться сайтам?

Если вычисление релевантности - да проблем они себе найдут.

Но если например на сайтах будет происходит подготовка к подсчету релевантности(! только подготовка, очищение от мусора, нормализация слов и т.п.)... Т.е. предобработка сайта, а уже в черепахе будет подсчитываться релевантность. Я думаю, будет все как надо.

Пожалуй этого достаточно.
VT
На сайте с 27.01.2001
Offline
130
#44
Но если например на сайтах будет происходит подготовка к подсчету релевантности(! только подготовка, очищение от мусора, нормализация слов и т.п.)... Т.е. предобработка сайта, а уже в черепахе будет подсчитываться релевантность. Я думаю, будет все как надо.

Да нет, речь здесь идет о подмене содержимого самих страниц сайта, от чего без модерирования никак не уберечься. Хотя можно заставить робота маскироваться под броузер, по праздникам подключаться к серверу через какой-нибудь анонимный прокси и сравнивать реальные страницы со страницами в индексе.

MA
На сайте с 02.07.2001
Offline
16
#45

): Плохие новсти... Седни пришлось запретить доступ к документам роботу Turtle - валил сервер(зависал каждые пол часа)! 5 обращений в секунду от одного робота это сильно! И это при том, что до этого сервер справлялся с нагрузкой стабильно. Нет конечно виноват скорее всего неправильно настроенный сервер(Lotus Domino), несколько сайтов на одном сервере, другие причины... но факт остается фактом - до выяснения этих причин, исправления, установки нового сервера, распаралеливания нагрузки доступ к этому роботу закрыт!)))%

MA
На сайте с 02.07.2001
Offline
16
#46

~3000 запросов за 5 мин.!!! DoS атака на лицо! Я конечно понимаю что это дело хорошее так быстро индексировать, но зачем валить сервак-то?

LM
На сайте с 30.11.2001
Offline
71
LiM
#47
Первоначальное сообщение от Mark Adamenko
~3000 запросов за 5 мин.!!! DoS атака на лицо! Я конечно понимаю что это дело хорошее так быстро индексировать, но зачем валить сервак-то?

Увы, такой "болезнью" страдает не только Turtle, но и Яндекс, Рамблер и Апорт... :(

Если Рамблер с Апортом по каким-то причинам еще мало грузят сервак (хотя даже их приход я могу точно сказать по сводной суточной статистике, т.к. там просто виден огромный пик хитов и килобайт), то Яндекс откровенно балансирует на гране DoS атаки.

Видно, из крупных поисковиков, кроме Google, никто толком и не читал рекомендации для индексирующих роботов, где четко и ясно сказано, что к одному IP-адресу робот в минуту должен делать не более 10 запросов (говорю по памяти - число может быть и не такое, но все же).

С уважением, Андрей Хроленок. Загляни в FAQ по оптимизации и продвижению сайтов (http://www.seoman.ru/FAQ/) Анализатор страниц сайтов (http://www.seoman.ru/analizer/)
MA
На сайте с 02.07.2001
Offline
16
#48

Как это ни странно с рамблером, апортом и яндексом таких проблем не возникало - наоборот могли бы сканировать почаще. Теоретически с Turtle проблема решена - Дмитрий сказал, что внес изменения в алгоритм. Седни вечером снимем фильтр - посмотрим.(;

NW
На сайте с 10.07.2001
Offline
69
#49

Гугл на один сервер с полной зоной C и несколькими сотнями сайтов делает до 100 запросов в секунду, в среднем 20-30 в течение нескольких часов. DoS? Нет, даже камни не полностью загружены бывают.

Maxim A. Ralnikovhttp://ralnikov.com
WM
На сайте с 25.07.2002
Offline
137
#50

Может, кому интересно будет - ответ на мой вопрос о том, что влияет на вес страницы в черепахе. Отвечал Teodor Sigaev.

[q]Могу описать алгоритм вычисление веса документа в общих чертах.

1. На вес документа влияет вес вхождения поискового слова зависит от его местоположения, учитываются следующие таги (каждый со своим весом):

<title>,<H1-6>,<B>,<STRONG>,<I>,<U>, первые 512 байт документа, <a href>

2. Вес поискового слова документе повышается в зависимости от количества

повтореинй слова документе, но до определенного предела.

3. Вес вхождения поискового слова увеличивается в случае если слово документе и

в запросе в верхнем регистре

4. Близость поисковых слов учитывается только в пределах одной фразы.

5. PageRank

6. Учитывается наличие ссылок с поисковыми слова из других документов, при этом

учитывается PageRank ссылающихся документов.

7. Вес слова несколько понижается, если это слово - сильно частотное.

В общих чертах так, но надо учитывать, что здесть есть море различных

коэффициэнтов и/или алгоритмов замешивания этих параметров. Сейчас мы вельми

активно этим играемся :).[/q]

* Партнёрки, с которых кормлюсь ( http://statievsky.ru/kak-zarabotat-v-internete/ ) * Увеличение дохода в SAPE! ( http://cmse.ru/?ref=b581a5e5 )

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий