unimaximus

Рейтинг
91
Регистрация
09.02.2003

А потом кто-то все равно поставит на них ссылку, если там контент востребованный

Ну короче я бы не стал тут напрягатся, есть куча других сайтов например сейчас важных, которые не индексируются нифига из-за кривости рук админов. Причем админы на письма не отвечают. Как пример из анализатора ашманова:

[kk2@crawler1 ~]$ wget www.ozon.ru

--14:31:37-- http://www.ozon.ru/

Resolving www.ozon.ru... 212.176.93.80

Connecting to www.ozon.ru|212.176.93.80|:80... connected.

HTTP request sent, awaiting response... 302 Found

Location: http://www.ozon.ru/ [following]

--14:31:38-- http://www.ozon.ru/

Reusing existing connection to www.ozon.ru:80.

HTTP request sent, awaiting response... 302 Found

Location: http://www.ozon.ru/ [following]

--14:31:38-- http://www.ozon.ru/

Reusing existing connection to www.ozon.ru:80.

HTTP request sent, awaiting response... 302 Found

Location: http://www.ozon.ru/ [following]

--14:31:38-- http://www.ozon.ru/

Reusing existing connection to www.ozon.ru:80.

HTTP request sent, awaiting response... 302 Found

Location: http://www.ozon.ru/ [following]

--14:31:38-- http://www.ozon.ru/

Reusing existing connection to www.ozon.ru:80.

HTTP request sent, awaiting response... 302 Found

Location: http://www.ozon.ru/ [following]

--14:31:38-- http://www.ozon.ru/

Reusing existing connection to www.ozon.ru:80.

HTTP request sent, awaiting response... 302 Found

Location: http://www.ozon.ru/ [following]

--14:31:38-- http://www.ozon.ru/

Reusing existing connection to www.ozon.ru:80.

HTTP request sent, awaiting response... 302 Found

Location: http://www.ozon.ru/ [following]

--14:31:38-- http://www.ozon.ru/

Reusing existing connection to www.ozon.ru:80.

HTTP request sent, awaiting response... 302 Found

Location: http://www.ozon.ru/ [following]

--14:31:38-- http://www.ozon.ru/

Reusing existing connection to www.ozon.ru:80.

HTTP request sent, awaiting response... 302 Found

Location: http://www.ozon.ru/ [following]

--14:31:38-- http://www.ozon.ru/

Reusing existing connection to www.ozon.ru:80.

HTTP request sent, awaiting response... 302 Found

Location: http://www.ozon.ru/ [following]

--14:31:38-- http://www.ozon.ru/

Reusing existing connection to www.ozon.ru:80.

HTTP request sent, awaiting response... 302 Found

Location: http://www.ozon.ru/ [following]

--14:31:38-- http://www.ozon.ru/

Reusing existing connection to www.ozon.ru:80.

HTTP request sent, awaiting response... 302 Found

Location: http://www.ozon.ru/ [following]

--14:31:38-- http://www.ozon.ru/

Reusing existing connection to www.ozon.ru:80.

HTTP request sent, awaiting response... 302 Found

Location: http://www.ozon.ru/ [following]

--14:31:38-- http://www.ozon.ru/

Reusing existing connection to www.ozon.ru:80.

HTTP request sent, awaiting response... 302 Found

Location: http://www.ozon.ru/ [following]

--14:31:38-- http://www.ozon.ru/

Reusing existing connection to www.ozon.ru:80.

HTTP request sent, awaiting response... 302 Found

Location: http://www.ozon.ru/ [following]

--14:31:38-- http://www.ozon.ru/

Reusing existing connection to www.ozon.ru:80.

HTTP request sent, awaiting response... 302 Found

Location: http://www.ozon.ru/ [following]

--14:31:38-- http://www.ozon.ru/

Reusing existing connection to www.ozon.ru:80.

HTTP request sent, awaiting response... 302 Found

Location: http://www.ozon.ru/ [following]

--14:31:38-- http://www.ozon.ru/

Reusing existing connection to www.ozon.ru:80.

HTTP request sent, awaiting response... 302 Found

Location: http://www.ozon.ru/ [following]

--14:31:38-- http://www.ozon.ru/

Reusing existing connection to www.ozon.ru:80.

HTTP request sent, awaiting response... 302 Found

Location: http://www.ozon.ru/ [following]

--14:31:38-- http://www.ozon.ru/

Reusing existing connection to www.ozon.ru:80.

HTTP request sent, awaiting response... 302 Found

Location: http://www.ozon.ru/ [following]

--14:31:38-- http://www.ozon.ru/

Reusing existing connection to www.ozon.ru:80.

HTTP request sent, awaiting response... 302 Found

Location: http://www.ozon.ru/ [following]

20 redirections exceeded.

[kk2@crawler1 ~]$

или еще

[kk2@crawler1 ~]$ wget www.s7.ru

--14:32:15-- http://www.s7.ru/

Resolving www.s7.ru... 194.84.74.35

Connecting to www.s7.ru|194.84.74.35|:80... connected.

HTTP request sent, awaiting response... 302 Found

Location: /?aspxerrorpath=/index.aspx [following]

--14:32:15-- http://www.s7.ru/?aspxerrorpath=/index.aspx

Reusing existing connection to www.s7.ru:80.

HTTP request sent, awaiting response... 500 Internal Server Error

14:32:15 ERROR 500: Internal Server Error.

Vitо:
Тоесть вы считаете, что если на сайт никто не ссылается, то это обязательно говно-сайт? ИМХО это не правильная точка зрения.

в 99.99% случаев контент там не востребованный. Зачем поисковику забивать базу мусором?

В общем миллиардная база уже у них, работает довольно стабильно.

А зачем нам сайты на которые нет ни одной ссылки вообще?

Уже 900млн страниц, нарастить до 20млрд не проблема вообще - ждем железки,

с которым кстати нас динамит компания комтек, которая изначально делала яндекс :)

Вот такая вот хрень, а пока мы работаем на движком и алгоритмами :)

PS. На личку отвечу всем за выходные, сейчас нет времени совсем :(

Добавили склейку сквозняков. То, что переодически отваливаются беки - апдейт на будущей неделе, там эта проблема уползет.

Получается так, что все топовые запросы на которых делаются основные деньги мы продаем сами, а мелочовка уходит в бегун, в принципе пока нас это устраивает.

Jefa:
http://www.webalta.ru/search?q=links%3Ahttp%3A%2F%2Fwww.searchengines.ru%2F&source=9
2-я страница на 80% из searchengines.ru/блаблабла
3-я и далее вперемешку с 1ps.
Один домен просматривал до победной 1000, так внешних ссылок только несколько встретил, остальные все на внутряк этого же домена.

Это исправить, как говорили выше, и будет уже неплохо для старта.
unimaximus, есть над чем работать ;)

Все беки отсторированы по весу, разделений никаких пока не делается.

Будет, чуть попозже все в читаемом виде :)

Я владелец поисковика :)

Всего: 215