Индексация больших сайтов

12 3
IX
На сайте с 12.03.2003
Offline
55
3848

Подобные вопросы уже обсуждались на форуме, но, к сожалению, я конкретики по проблеме не нашел. Потому рискнуть рассказать о своей ситуации.

Есть динамический сайт с несколькими десятками тысяч страниц (строятся из базы данных). На данный момент Яндекс проиндексировал только 500 с чем-то (ввожу слово, встречающееся на всех страницах - Яндекс говорит: еще с сервера 500 документов). Возникают следующие вопросы:

1. Как заставить Яндекс проиндексировать ВСЕ страницы, и возможно ли это? Есть ли верхний предел количества страниц, которые яндекс может проиндексировать в одном домене?

2. Как заставить проиндексировать весь сервер как можно быстрее? Влияет ли на желание Яндекса индексировать последующие страницы частота обновления предыдущих? Или в случае частых обновлений он будет переиндексировать уже индексированные, а процесс индексирования новых страниц наоборот замедлится?

3. Как другие поисковики (рамблер, апорт, гугл) работают с большими сайтами?

AiK
На сайте с 27.10.2000
Offline
257
AiK
#1

Давайте начнём танцевать от печки. Несколько десятков тысяч страниц ни один пользователь в жизни обходить не будет. К тому же, динамически получаемые из базы. Рекомендую поискать на форуме термин "автоматически сгенерированный контент" и обратить внимание на то, что за это бывает.

Дальше, задумаемся над тем, сколько страниц предстоит обойти поисковику, чтобы просто собрать эти несколько десятков тысяч URL.

За один проход поисковики собирают порядка 100 документов (для забывших математику напоминаю, что числа в диапазоне от 100 до 999 имеют один и тот же порядок :)). Т.е. для индексации 10К страниц понадобится не менее 10 визитов роботов, и это при условии, что в промежутках между визитами документы не изменялись. Далее, учитываем, что Google и Апорт обходят документы в порядке убывания их PR. У Апорта есть квоты на число индексируемых страниц в зависимости от ИЦ сайта. Скорее всего так же поступает и Яндекс (я про приоритет, а не квоты). Про Рамблер такого утверждать не буду, но и у него наверняка есть какой-то критерий важности, в соответствии с которым он упорядочивает обход. Вероятно это посещаемость. Ну и заглавные страницы счётчика топ100 он обходит чаще.

Итого, делаем вывод, что при огромном количестве страниц на сайте всегда будут находится документы, которые либо не будут индексироваться, либо будут переиндексироваться черезвычайно редко. Так что первый совет - уменьшить число страниц раз в 10.

Попутно замечу, что число проиндексированных страниц в Яндексе удобнее проверять так

Далее, чтобы улучшить "обходимость" сайта нужно создавать карту сайта.

Чтобы у робота была возможность получить список уникальных url сайта без дополнительных телодвижений. Карту логично рабивать на разделы, и на каждой странице выводить разумное число URL.

[Удален]
#2
на каждой странице выводить разумное число URL

50-70 - разумно?

T
На сайте с 18.11.2002
Offline
21
#3

а если сайт имеет, скажем около 50 страниц, это мало? это как-то влияет на его вес и значимость?

А Вы говорите...
spark
На сайте с 24.01.2001
Offline
130
#4

влияет несомненно. Но не столь кардинально, чтобы искусственно раздувать размеры сайта :)

AiK
На сайте с 27.10.2000
Offline
257
AiK
#5
50-70 - разумно?

Смотря для кого или чего :)

Для пользователя разумно 10-15 ссылок (поисковики по столько на страницу и выдают). Для поисковиков - по разному. У меня до 100 ссылок на страницу выдаётся - холвеи очень дорвеистыми получились :).

А вот чужие ссылки я бы не рекомендовал в таких количествах кучковать - многовато.

wolf
На сайте с 13.03.2001
Offline
1183
#6
(для забывших математику напоминаю, что числа в диапазоне от 100 до 999 имеют один и тот же порядок ).

Уважаемый знаток математики, скажите пожалуйста, а числа 99 и 100 имеют один порядок или разные? ;) Т.е. можно ли сказать, что число 99 одного порядка с числом 100? А число 30? ;)

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
AA
На сайте с 16.04.2001
Offline
70
#7

Скорее всего, диапазон десятичного порядка для любого X разумно определить, как (lgX-0,5;lgX+0,5).

Т.о. в этом смысле 30 не имеет того же порядка, что и 100 (lg30=1,477).

Впрочем, как и 999 (lg999=2,9996).

Эта операция ("один порядок") не обладает свойством ассоциативности: a и b одного порядка, b и с одного порядка не означает, что a и c одного порядка.

И в этом нет никакого противоречия.

С уважением, Антонов Александр.
LD
На сайте с 12.06.2002
Offline
71
#8
свойством ассоциативности

может, транзитивности всё-таки? :)

AA
На сайте с 16.04.2001
Offline
70
#9

Правильно, пожалуй, данном случае проще говорить не об операции, а отношении.

wolf
На сайте с 13.03.2001
Offline
1183
#10
Скорее всего, диапазон десятичного порядка для любого X разумно определить, как (lgX-0,5;lgX+0,5).

А вот физики утверждают, что если два числа отличаются друг от друга менее, чем в 10 раз, то они одного порядка. А математики определяют порядок числа (натурального) как количество цифр, из которых состоит натуральное число, изображенное в определенной позиционной системе счисления

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий