Влияние artisteer на индексацию сайта?

123
W
На сайте с 09.04.2010
Offline
24
#11

war21x3b, smart1k, спасибо за доп инфу. вы меня правильно поняли и я получил ответ который хотел ))

LM
На сайте с 18.10.2009
Offline
117
#12
smart1k:
ТС наверное имел ввиду одинаковую структуру шаблонов и css классы артистир. Что конечно влияет на "уникальность" страницы. Но ИМХО - это не весомый фактор.

Бред какой-то... Какая разница поисковику, уникален код шаблона или нет?

Шаблоны, сгенерированные в artisteer никаким образом на индексацию не влияют. И никогда не повлияют...

WS
На сайте с 17.11.2010
Offline
25
#13
war21x3b:
Индексирует, так как хтмл код режется. Проблема с шаблоном может быть при невалидном коде...

Режется он конечно режется, только вот скачивать его роботу все равно приходится и обрабатывать тоже (по крайне мере я не могу представить способа как можно скачать текст без html), а поскольку ресурсы любого поисковика ограниченные, вполне логично предположить что если бот скачает 5Мб страницу и получить с неё всего 2Кб реального текста, и сайт не имеет высоких показателей у ПС, он может забить на скачивание остальных страниц сайта, ибо кпд затрат ресурсов к получению полезного текста в кеше ПС слишком мало (Занимался принципами работы ботов ПС, некоторый кпд полезности дальнейшего скачивания страниц сайта у них всегда есть, ибо основная задача поисковика получить максимум полезной информации при минимуме затрат ресурсов).

WhiteSmartFox добавил 08-12-2010 в 11:30

WhiteSmartFox:
Проблема с шаблоном может быть при невалидном коде...

Не валидный код как раз не большая проблема, если теги режутся целиком это боту глубоко пофиг. Главное чтобы он мог выделить текст страницы и ссылки (ну и теги title, h1 и т.п.). Ибо как я говорил ресурсы ПС ограничены и заниматься всякими глупостями вроде проверки валидности кода или совпадения элементов html и css классов у него просто нет ресурсов (Как заявляют в Яндексе добавление любой проверки увеличивающей время обработки страниц на 1% умноженное на 200 серверов, означает необходимость покупки 2 новых серверов за большие $).

WhiteSmartFox добавил 08-12-2010 в 11:32

war21x3b:
Сие клоакинг. За клоакинг банят...

Это я имел в виду, теоретически автор может взять шаблон с клоакингом даже не подозревая об этом и получить бан.

A
На сайте с 03.02.2009
Offline
61
#14

На своем опыте не заметил разницы, а вот исходящие ссылки, которые artisteer сует в футер я вырезаю руками.

W2
На сайте с 04.06.2008
Offline
78
#15

2 WhiteSmartFox : ...Режется он конечно режется, только ... ресурсы любого поисковика ограниченные ...забить на скачивание остальных страниц сайта, ибо кпд затрат ресурсов к получению полезного текста...

Яндекс как и Г. ведут борьбу за полноту индекса. Поиск - это то что привлекает к яндексу трафик, а трафик, посредством директа содержит яндекс. Трудно представить что поисковик откажется от индексации какого либо сайта только из - за большого отношения кода к контенту... Считаю что в данном случае ресурсы поисковика можно рассматривать как "неограниченные".

...(Занимался принципами работы ботов ПС, некоторый кпд полезности дальнейшего скачивания страниц сайта у них всегда есть, ибо основная задача поисковика получить максимум полезной информации при минимуме затрат ресурсов)...

Если есть интересная информация - был бы рад поговорить на эту тему в личке.

с уважением war21x3b
orphelin
На сайте с 02.07.2006
Offline
261
#16
WhiteSmartFox:
робот может решить что лучше проидексировать несколько десятков страниц другого сайта, чем одну страницу такого тяжелого

сам придумал?

WhiteSmartFox:
в шаблоне есть скрытый любым способом текст

это фишка артистира?

LM
На сайте с 18.10.2009
Offline
117
#17
orphelin:
это фишка артистира?

Это настраивается при экспорте шаблона.

WS
На сайте с 17.11.2010
Offline
25
#18
war21x3b:
Трудно представить что поисковик откажется от индексации какого либо сайта только из - за большого отношения кода к контенту...

Они сами говорят что откажется ссылка:

Яндекс индексирует основные типы документов, распространенных в Сети. Но существуют ограничения, от которых зависит, как будет проиндексирован документ, и будет ли проиндексирован вообще:
...
Для индексирования важен размер документа — документы больше 10Мб не индексируются.

Т.е. Яндекс теоретически вообще не будет индексировать никакой документ (Word, PDF, и даже Flash не говоря уже о HTML) больше 10 Мб не зависимо от кол-ва полезного контента. Есть подозрение, что html > 1-2 Мб может вызвать туже реакцию, просто из логики если вебмастер не может сделать нормальный размер страницы на 99% это плохой сайт.

Опять таки если даже проиндексирует один раз скорее всего в следующий раз зайдет очень не скоро => будет страдать скорость появления обновлений в кеше.

WhiteSmartFox добавил 08-12-2010 в 15:59

orphelin:
сам придумал?

Почему? У меня в webmaster.yandex.ru есть ошибки индексации:

Ошибки: страницы не были проиндексированы из-за ошибок в html-коде или неверного ответа сервера:
Слишком большой документ - 89

Причем там размер страниц куда меньше Мб, а у этого сайта более миллиона страниц в поиске Я (если верить webmaster'у). Справедливости ради надо сказать что там на страницах было много и просто текстового контента, а не только html (но тем не менее размер для индексации имеет значение).

P.S. Ок, давайте зададим вопрос: Есть у кого -либо кто читает эту тему сайт с весом страниц (чистого HTML) под 3-5 Мб каждая и как хорошо и часто его индексирует Я или Гугл?

W2
На сайте с 04.06.2008
Offline
78
#19

Вот я специально сделаю страницу с 5 мб кода. Просто из любопытства уже.

Про ограничение в 10 мб знаю, но ни где не находил сведений, достойных внимания, о том, что страницы где много кода индексируются и банятся как то по другому.

На сколько я себе это представляю - бот качает страницу, режет от туда теги, а уже только потом яндекс варит контент страницы в своём адском котле.

WS
На сайте с 17.11.2010
Offline
25
#20

Вот нашел в архиве форума про размер страниц в индексе гугла , увы конечно 5 лет назад это ну ооочень давно для ПС (там сошлись на 500 Кб максимальный размер для гугла), вот есть английская версия от 2008 года http://www.webmasterworld.com/google/3693423.htm, в ней говорится что имеет значение не только сам размер, но и скорость возврата страницы и PR страницы и сайта, но тоже около 600 кб наибольший размер после которого гуглбот может начать игнорировать часть страниц.

WhiteSmartFox добавил 08-12-2010 в 18:36

war21x3b:
На сколько я себе это представляю - бот качает страницу, режет от туда теги, а уже только потом яндекс варит контент страницы в своём адском котле.

Я себе представлю это так ПС определяет ссылочную массу сайта, время домена и т.п. признаки качественности сайта и от этого вычисляет некоторый бюджет времени которое может потратить бот на этом сайте после которого он уйдет к другому, соответственно бот может выкачать 1000 маленьких страниц за это время или 10 больших (конечно ещё имеет значение скорость генерации страницы и ответа сервера). Если у сайта заоблочный ТИЦ или PR бот выкачает с сайта все что можно, а вот если маленький, то сколько получится (иначе не было бы тем почему Яндекс выкачал 10% от сайта и дальше не хочет индексировать).

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий