Как Google понимает ссылки в JavaScript

dma84
На сайте с 21.04.2009
Offline
168
1039

Давно известно, что Гоша индексирует js код и выдёргивает оттуда урлы, причём как абсолютные, так и относительные. Но вот как он это делает, удивило.

Выделить УРЛ из строки - задача плёвая, вытащить относительный УРЛ тоже можно, чем и занимается Гоша. Он вытаскивает абсолютные УРЛы и индексит их, относительные тоже тупо дёргает как строку, но вот про выполнение JS кода речи не идёт.

Ситуация:

Есть JavaScript функция, которая при определённых параметрах грузит/инклудит (кому как нравится) js скрипт. Вот пример формирования адреса скрипта:

script.src = '/folder/script_name_' + value + '_bla_bla_bla.js';

В данном случае, Гоша дёргает часть УРЛа '/folder/script_name_' и бежит его индексировать, отсюда ошибки в Вебмастере.

Много времени меня добивала 404-я ошибка вида http://site.ru/a, все мои поиски выявить злосчастный УРЛ были обречены, но после недавнего обновления Гугл Вебмастера ситуация прояснилась, скорее всего такие ошибки вылезают из сторонних скриптов, которые Гоша с удовольствием кушает. Хотя даже после обновления выявить скрипт, из которого берётся УРЛ проблематично, приведённую выше ошибку я нашёл только потому, что помнил где и как формируется такой адрес. Вот нафига это нужно? Тупой парсинг js кода - это бред, с таким же успехом можно парсить и комментарии.

Мало того, что прятать УРЛы в JavaScript - бесполезное занятие, теперь мы получили ещё одну проблему в виде "битых" адресов, спасибо Гоше.

MG
На сайте с 20.01.2012
Offline
17
#1

Я вообще хотел подметить, что Гоша стал неплохо разбираться в JS коде. Сделал перелинковку на продвижение низкочастотников. Обратных ссылок на категории и тем более на морду не делал. ТОлько JS кодом. В итоге проиндексировались странички, которые как бы не должы были.

dma84
На сайте с 21.04.2009
Offline
168
#2
Mister_grey2010:
Я вообще хотел подметить, что Гоша стал неплохо разбираться в JS коде. Сделал перелинковку на продвижение низкочастотников. Обратных ссылок на категории и тем более на морду не делал. ТОлько JS кодом. В итоге проиндексировались странички, которые как бы не должы были.

Смотря что иметь в виду под "разбирается", я описал всю суть разбора кода, если у вас ссылки в коде описаны одной неразрывной строкой, то тут и дурак разберётся

F
На сайте с 06.02.2012
Offline
138
#3

Извиняюсь за наивный вопрос....

А прятать в "nofollow" тоже бесполезное занятие?

Смысл в ненужной потере веса или нежелательной индексации... ?

---------- Добавлено 15.03.2012 в 11:43 ----------

Ещё я хотел спросить, где правильно поставить rel="nofollow" вот в таком варианте ссылки, чтоб она не передавала вес:

<INPUT onclick="location.href='http://google.ru/' " type=button value="Google" />

богоносец
На сайте с 30.01.2007
Offline
774
#4
dma84:
ошибка вида http://site.ru/a

Попробуйте Disallow: /a

Ещё бывает.

Можете покопаться в примере... подключение JS — в другом файле... выполнения XSLT автор не может дождаться.

Mister_grey2010:
проиндексировались странички, которые как бы не должы были

Это может произойти по другим причинам... как и Яндекс проиндексил SMS-ки и пр.

A
На сайте с 08.05.2008
Offline
49
#5
богоносец:
Попробуйте Disallow: /a

Плюсую.

Закрывайте гуглокривости через роботсы и будет всё нормально.

dma84
На сайте с 21.04.2009
Offline
168
#6
богоносец:
Попробуйте Disallow: /a
Arech:
Плюсую.
Закрывайте гуглокривости через роботсы и будет всё нормально.

Пока это единственный вариант, но это тупость, каждый кривой УРЛ запрещать в роботсе

webrock
На сайте с 05.04.2010
Offline
261
#7
Mister_grey2010:
Я вообще хотел подметить, что Гоша стал неплохо разбираться в JS коде.

разбирается уже давно и практически, в любом коде.

на то он и Google...

Полный аудит сайтов. (/ru/forum/765361)
A
На сайте с 08.05.2008
Offline
49
#8
webrock:
разбирается уже давно и практически, в любом коде.

на то он и Google...

Если бы он разбирался "практически в любом коде", не было бы таких тупых ошибок.

Другое дело, что у гугла, по видимому, несколько источников информации о js-скриптах. Первый - от индексатора, где встроен очень простой quick&dirty анализатор, который и плодит подобные тупые ошибки. Судя по тому, что Гугл умудряется таки иногда достать информацию, на получении которой фейлит quick&dirty, у него есть ещё как минимум один источник. Возможно, от системы снятия скриншотов сайтов, где перед рендерингом страницы полноценно выполняется практически весь код, включая подтягивание данных по ajax и т.д. и т.п.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий