Как "передвигаются" и как "спотыкаются" Спайдеры - Занимательная вивисекция

12
ПG
На сайте с 23.01.2007
Offline
7
1275

Вопрос - каким образом передвигаются по страницам спайдеры ?

Тобишь - идут они сверху-вниз страницы ; если увидят у себя на пути Flash или Javascript как они поступают ? Они доходят до явы или флеша и ... просто их не индексируют ? или же "спотыкаются" и "обижаются" так, что уходят с индексируемой страницы на следующую ? или они просто пропускают их и идут дальше индексировать линки на странице ? Если так, то - гипотетически - страница полностью состоит из флеша - одна БОЛЬШАЯ "КАРТИНКА" с кучей "мультяшных" (не знаком со слэнгом, как Вы такие ссылки называете?) линков, НО в самом конце страницы есть одна простенька текстовая ссылка ! дойдет-ли до нее спайдер, хватит ли у него "терпения", или же он сразу как увидит флеш или яву поварачивает и идет по следующим страницам ?

И еще один вопрос - все те настройки, которые сейчас стараются засунуть в какой-нибудь "text.css", как они могут помешать Спайдеру верно проиндексировать страницу ? Ему что "терпения" не хватит по этим дебрям пройтись ?

Да и еще вопрос допустим на странице есть "кривой" Ява-скрипт, а под ним находится несколько ссылок вставленных в обычном HTML-коде как спайдер себя поведет ? Он опустится, "споткнется" об Ява-скрипт ", "обидется" и уйдет не проиндексировав данные линки ?

Признателен за ответы

O
На сайте с 20.02.2006
Offline
139
#1

1)Имхо пропустит яву и проиндексирует ссылку, если страница у вас в пределах разумного, не 1 Mb..., спайдер не дойдет до конца, если страница слишком большая. Я так понимаю у них есть свой лимит.

2) Никак

3) Имхо пропустит

SK
На сайте с 31.01.2005
Offline
72
#2

Спайдеры не "передвигаются" по странице, не "спотыкаются" о элементы страниц, и тем более ни на кого (или чего) не "обижается".

Он просто берет и качает страницы, которые стоят у него в очереди, на свой сервер.

Исключение составляют моменты с выдачей ему ответов, заголовков и прочей ерунды, которая отличается от той, которая ему указана. Тогда он не качает и указывает причину своего поведения (опять же на своем сервере).

А вот разбором скачаного занимаются другие программы.

Форум "ПолитДиалог" (http://forum.politdialog.ru/): мы не правые, не левые, не за власть, не против нее. Мы - граждане России, все зависит только от нас! С уважением, Сергей Кротов.
dantess
На сайте с 06.11.2004
Offline
133
#3
Практичный Gendo:

Да и еще вопрос допустим на странице есть "кривой" Ява-скрипт, а под ним находится несколько ссылок вставленных в обычном HTML-коде как спайдер себя поведет ? Он опустится, "споткнется" об Ява-скрипт ", "обидется" и уйдет не проиндексировав данные линки ?

Просто отключите у себя в браузере JS и внешние CSS - и увидите все глазами робота (по интересующим Вас сейчас моментам - по крайней мере).

ПG
На сайте с 23.01.2007
Offline
7
#4
O1eg:
1)Имхо пропустит яву и проиндексирует ссылку, если страница у вас в пределах разумного, не 1 Mb..., спайдер не дойдет до конца, если страница слишком большая. Я так понимаю у них есть свой лимит.

Хоть и не планирую делать такой "вес", но, все-же, интересно - по поводу лимита, пожалуйста, по подробнее

SerK:
Спайдеры не "передвигаются" по странице, не "спотыкаются" о элементы страниц, и тем более ни на кого (или чего) не "обижается"..

Где-то был спором о том, что Спайдеру может помешать проиндексировать ВСЮ страницу наличие на странице Явы или Флеша; что, буд-то, углядев на где-то в середине Яву или Флеш спайдер "упрется в стену" и уйдет со странице так и не дойдя до конца ... ведь враки ?!

А что по поводу тех "страшных" историй, что если вписать тэги

<meta name="revisit" content="5 days">

<meta name="revisit-after" content="5 days"> и не обновлять в течении , скажем, двенадцати дней спайдер "обидется" и пару недель вобще заходить не будет или "это фантастика" ?

Спасибо

Б
На сайте с 27.11.2006
Offline
44
#5

Враки!!!

<meta name="revisit" content="5 days">

<meta name="revisit-after" content="5 days">

на это робот не смотрит, он сам знает, когда ему зайти и тп, у него свой алгоритм работы.

Обижаться он и вправду не умеет - робат же :)

SM
На сайте с 29.01.2007
Offline
0
#6
Практичный Gendo:
Где-то был спором о том, что Спайдеру может помешать проиндексировать ВСЮ страницу наличие на странице Явы или Флеша; что, буд-то, углядев на где-то в середине Яву или Флеш спайдер "упрется в стену" и уйдет со странице так и не дойдя до конца ... ведь враки ?!

Imho не упрется он никуда конечно :)

Страница скачивается полностью "от <html> до </html>" непонятные теги просто игнорируются либо могут проиндексироваться как текст.

AN
На сайте с 05.06.2004
Offline
243
#7
Практичный Gendo:
если увидят у себя на пути Flash или Javascript как они поступают ? Они доходят до явы или флеша и ... просто их не индексируют ? или же "спотыкаются" и "обижаются" так, что уходят с индексируемой страницы на следующую ?

Flash Яндекс сейчас индексирует:)

JS - просто пропускает и идет дальше.

Практичный Gendo:
А что по поводу тех "страшных" историй, что если вписать тэги
<meta name="revisit" content="5 days">
<meta name="revisit-after" content="5 days"> и не обновлять в течении , скажем, двенадцати дней спайдер "обидется" и пару недель вобще заходить не будет или "это фантастика" ?

:) Это из серии СЕО-анекдотов.

На самом деле - большинство поисковиков (и все ведущие) эти теги просто игнорируют.

Размещу ваши баннеры на посещаемых сайтах. Места еще есть! Возможен безнал. (/ru/forum/324945) Нужны копирайтеры/рерайтеры - медики. Пишите в личку. (/ru/forum/676932)
ПG
На сайте с 23.01.2007
Offline
7
#8

Что бы там ни шло после </head>, какие бы дебри не были бы расписаны в стилях, что бы ни было в загаловках Ява-скриптов; Спайдер все-равно это пройдет и просканирует сам "текст - контент" ?!

AN
На сайте с 05.06.2004
Offline
243
#9
Практичный Gendo:
Что бы там ни шло после </head>, какие бы дебри не были бы расписаны в стилях, что бы ни было в загаловках Ява-скриптов; Спайдер все-равно это пройдет и просканирует сам "текст - контент" ?!

Да, при условии, что

а) код валиден: все теги закрываются, соблюдается вложенность и т.п. "Споткнуться" может как раз на ошибках такого рода.

б) как уже сказали выше, почти у всех поисковиков есть ограничения на размер страницы, сверх которого они не индексируют. Начинаются эти ограничения где-то после 100 Кб (у всех по-разному).

ПG
На сайте с 23.01.2007
Offline
7
#10

По поводу веса страницы - тобишь Спайдер приходи, обсчитывает размер страницы, думает "Великовато, однако" и идет на следующие страницы ? Или же начинает индексировать, доходит до середины, замечает, что "ей, а не жирно ли Вам такие картинки и фоны тут вешать ?" и идет на следующую страницу ?

Известно-ли какой лимит веса страницы для Яндекса, Гугла, Рамблера ,,, хоят бы первых двух ?

Большое Спасибо за информацию

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий