Индекс будет подсчитываться в общих чертах - Bing, Rambler, Baidu, Yahoo

Stack запускает новый поисковик

funsad · 2002-06-05T11:00:56.0000000Z

Компания Stack, создавшая Рамблер , решила выйти на рынок с новой универсальной поисковой системой. Как сообщают "Финансовые Известия" , за счет технологических решений компания планирует снизить теребования к оборудованию. Это приведет не только к ускорению переиндексации (1-2 дня), но и снижению затрат на поисковик, что позволит довести рентабельность бизнеса с обычных 3-5% до 15%. Колмановская (Яндекс) и Слугин (Рамблер) отозвались о перспективах нового поисковика скептически. Проект стартует в июне этого года. Вероятней всего, наблюдаемые с начала этого года записи в логах "Turtle/1.1", сменившиеся затем на "TurtleScaner/1.0.development" и, следом, на "TurtleScanner/1.0.development", относятся именно к новому поисковику фирмы Stack. С уважением, Александр Садовский.

L

47

lexus

19 июня 2002, 11:01

#41

... Например, выборочно сверять, у кого присланный индекс не совпал с индексом, составленным самим поисковиком...

Таким образом можно отлавливать явные фальсификации. И то, наверняка, во многих случаях достоверную проверку будет осуществить непросто (Добавились новые документы на сайт, сайт изменил структуру, был недоступен и т.п.) Кроме программной части потребуется еще штат "контролеров", которые будут отделять козлищ от агнцев и разбираться с незаслуженно обиженными.

Мне кажется, идея отдать создание индекса на откуп владельцам ресурсов чем-то похожа на ситуцию с ключевыми словами и описаниями в метатегах. Пока веб был "научной" средой и авторы текстов были заинтересованы, чтобы их тексты находились только теми, кто их действительно хочет найти, это работало. А сейчас слова в метатегах на многих сайтах - это шум, на который большинство поисковиков перестало обращать внимание.

Владелец сайта не может объективно представлять свой ресурс в поисковой системе, у него задачи другие :)

С уважением, Алексей Чуксин Украинская поисковая система -Украина (http://meta.ua/)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

298

Григорий Селезнев

20 июня 2002, 07:10

#42

Первоначальное сообщение от funsad Для остальных участников, вот ссылки на упомянутые документы:
Д. В. Крюков. Поисковая система "Turtle". Физиология и анатомия.
Другие документы, касающиеся Turtle

ни у кого не осталось копии ?

E

59

ewspam

20 июня 2002, 07:37

#43

Какие функции индекса будут отдаваться сайтам?

Если вычисление релевантности - да проблем они себе найдут.

Но если например на сайтах будет происходит подготовка к подсчету релевантности(! только подготовка, очищение от мусора, нормализация слов и т.п.)... Т.е. предобработка сайта, а уже в черепахе будет подсчитываться релевантность. Я думаю, будет все как надо.

Пожалуй этого достаточно.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

20 июня 2002, 08:31

#44

Но если например на сайтах будет происходит подготовка к подсчету релевантности(! только подготовка, очищение от мусора, нормализация слов и т.п.)... Т.е. предобработка сайта, а уже в черепахе будет подсчитываться релевантность. Я думаю, будет все как надо.

Да нет, речь здесь идет о подмене содержимого самих страниц сайта, от чего без модерирования никак не уберечься. Хотя можно заставить робота маскироваться под броузер, по праздникам подключаться к серверу через какой-нибудь анонимный прокси и сравнивать реальные страницы со страницами в индексе.

MA

16

Mark Adamenko

21 июня 2002, 11:16

#45

): Плохие новсти... Седни пришлось запретить доступ к документам роботу Turtle - валил сервер(зависал каждые пол часа)! 5 обращений в секунду от одного робота это сильно! И это при том, что до этого сервер справлялся с нагрузкой стабильно. Нет конечно виноват скорее всего неправильно настроенный сервер(Lotus Domino), несколько сайтов на одном сервере, другие причины... но факт остается фактом - до выяснения этих причин, исправления, установки нового сервера, распаралеливания нагрузки доступ к этому роботу закрыт!)))%

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

MA

16

Mark Adamenko

21 июня 2002, 14:35

#46

~3000 запросов за 5 мин.!!! DoS атака на лицо! Я конечно понимаю что это дело хорошее так быстро индексировать, но зачем валить сервак-то?

LM

71

LiM

22 июня 2002, 04:23

#47

Первоначальное сообщение от Mark Adamenko
~3000 запросов за 5 мин.!!! DoS атака на лицо! Я конечно понимаю что это дело хорошее так быстро индексировать, но зачем валить сервак-то?

Увы, такой "болезнью" страдает не только Turtle, но и Яндекс, Рамблер и Апорт... :(

Если Рамблер с Апортом по каким-то причинам еще мало грузят сервак (хотя даже их приход я могу точно сказать по сводной суточной статистике, т.к. там просто виден огромный пик хитов и килобайт), то Яндекс откровенно балансирует на гране DoS атаки.

Видно, из крупных поисковиков, кроме Google, никто толком и не читал рекомендации для индексирующих роботов, где четко и ясно сказано, что к одному IP-адресу робот в минуту должен делать не более 10 запросов (говорю по памяти - число может быть и не такое, но все же).

С уважением, Андрей Хроленок. Загляни в FAQ по оптимизации и продвижению сайтов (http://www.seoman.ru/FAQ/) Анализатор страниц сайтов (http://www.seoman.ru/analizer/)

MA

16

Mark Adamenko

24 июня 2002, 14:04

#48

Как это ни странно с рамблером, апортом и яндексом таких проблем не возникало - наоборот могли бы сканировать почаще. Теоретически с Turtle проблема решена - Дмитрий сказал, что внес изменения в алгоритм. Седни вечером снимем фильтр - посмотрим.(;

Решена проблема бана сайтов Битрикс: фильтры "Аксессуары по Яндекс кобласит

NW

69

NightWing

25 июня 2002, 08:22

#49

Гугл на один сервер с полной зоной C и несколькими сотнями сайтов делает до 100 запросов в секунду, в среднем 20-30 в течение нескольких часов. DoS? Нет, даже камни не полностью загружены бывают.

Maxim A. Ralnikovhttp://ralnikov.com

Научите бороться с DDoS-атаками Резко упал трафик гугл Яндекс кобласит

WM

137

Данила

1 августа 2002, 20:11

#50

Может, кому интересно будет - ответ на мой вопрос о том, что влияет на вес страницы в черепахе. Отвечал Teodor Sigaev.

[q]Могу описать алгоритм вычисление веса документа в общих чертах.

1. На вес документа влияет вес вхождения поискового слова зависит от его местоположения, учитываются следующие таги (каждый со своим весом):

<title>,<H1-6>,<B>,<STRONG>,<I>,<U>, первые 512 байт документа, <a href>

2. Вес поискового слова документе повышается в зависимости от количества

повтореинй слова документе, но до определенного предела.

3. Вес вхождения поискового слова увеличивается в случае если слово документе и

в запросе в верхнем регистре

4. Близость поисковых слов учитывается только в пределах одной фразы.

5. PageRank

6. Учитывается наличие ссылок с поисковыми слова из других документов, при этом

учитывается PageRank ссылающихся документов.

7. Вес слова несколько понижается, если это слово - сильно частотное.

В общих чертах так, но надо учитывать, что здесть есть море различных

коэффициэнтов и/или алгоритмов замешивания этих параметров. Сейчас мы вельми

активно этим играемся :).[/q]

* Партнёрки, с которых кормлюсь ( http://statievsky.ru/kak-zarabotat-v-internete/ ) * Увеличение дохода в SAPE! ( http://cmse.ru/?ref=b581a5e5 )

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Что такое Power BI и зачем это нужно бизнесу

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Stack запускает новый поисковик