Как Google понимает ссылки в JavaScript

168

dma84

15 марта 2012, 06:14

1041

Давно известно, что Гоша индексирует js код и выдёргивает оттуда урлы, причём как абсолютные, так и относительные. Но вот как он это делает, удивило.

Выделить УРЛ из строки - задача плёвая, вытащить относительный УРЛ тоже можно, чем и занимается Гоша. Он вытаскивает абсолютные УРЛы и индексит их, относительные тоже тупо дёргает как строку, но вот про выполнение JS кода речи не идёт.

Ситуация:

Есть JavaScript функция, которая при определённых параметрах грузит/инклудит (кому как нравится) js скрипт. Вот пример формирования адреса скрипта:

script.src = '/folder/script_name_' + value + '_bla_bla_bla.js';

В данном случае, Гоша дёргает часть УРЛа '/folder/script_name_' и бежит его индексировать, отсюда ошибки в Вебмастере.

Много времени меня добивала 404-я ошибка вида http://site.ru/a, все мои поиски выявить злосчастный УРЛ были обречены, но после недавнего обновления Гугл Вебмастера ситуация прояснилась, скорее всего такие ошибки вылезают из сторонних скриптов, которые Гоша с удовольствием кушает. Хотя даже после обновления выявить скрипт, из которого берётся УРЛ проблематично, приведённую выше ошибку я нашёл только потому, что помнил где и как формируется такой адрес. Вот нафига это нужно? Тупой парсинг js кода - это бред, с таким же успехом можно парсить и комментарии.

Мало того, что прятать УРЛы в JavaScript - бесполезное занятие, теперь мы получили ещё одну проблему в виде "битых" адресов, спасибо Гоше.

MG

17

Mister_grey2010

15 марта 2012, 07:19

#1

Я вообще хотел подметить, что Гоша стал неплохо разбираться в JS коде. Сделал перелинковку на продвижение низкочастотников. Обратных ссылок на категории и тем более на морду не делал. ТОлько JS кодом. В итоге проиндексировались странички, которые как бы не должы были.

Google объяснил, когда нужно Google о том, стоит Google: почему rel=canonical может

168

dma84

15 марта 2012, 07:28

#2

Mister_grey2010:
Я вообще хотел подметить, что Гоша стал неплохо разбираться в JS коде. Сделал перелинковку на продвижение низкочастотников. Обратных ссылок на категории и тем более на морду не делал. ТОлько JS кодом. В итоге проиндексировались странички, которые как бы не должы были.

Смотря что иметь в виду под "разбирается", я описал всю суть разбора кода, если у вас ссылки в коде описаны одной неразрывной строкой, то тут и дурак разберётся

F

138

fordzon

15 марта 2012, 07:38

#3

Извиняюсь за наивный вопрос....

А прятать в "nofollow" тоже бесполезное занятие?

Смысл в ненужной потере веса или нежелательной индексации... ?

---------- Добавлено 15.03.2012 в 11:43 ----------

Ещё я хотел спросить, где правильно поставить rel="nofollow" вот в таком варианте ссылки, чтоб она не передавала вес:

Мэтт Каттс: не применяйте Google рекомендует использовать nofollow Google изменил подход к

777

богоносец

15 марта 2012, 09:54

#4

dma84:
ошибка вида http://site.ru/a

Попробуйте Disallow: /a

Ещё бывает.

Можете покопаться в примере... подключение JS — в другом файле... выполнения XSLT автор не может дождаться.

Mister_grey2010:
проиндексировались странички, которые как бы не должы были

Это может произойти по другим причинам... как и Яндекс проиндексил SMS-ки и пр.

A

49

Arech

15 марта 2012, 11:51

#5

богоносец:
Попробуйте Disallow: /a

Плюсую.

Закрывайте гуглокривости через роботсы и будет всё нормально.

168

dma84

15 марта 2012, 12:33

#6

богоносец:
Попробуйте Disallow: /a

Arech:
Плюсую.
Закрывайте гуглокривости через роботсы и будет всё нормально.

Пока это единственный вариант, но это тупость, каждый кривой УРЛ запрещать в роботсе

261

webrock

15 марта 2012, 12:39

#7

Mister_grey2010:
Я вообще хотел подметить, что Гоша стал неплохо разбираться в JS коде.

разбирается уже давно и практически, в любом коде.

на то он и Google...

Полный аудит сайтов. (/ru/forum/765361)

A

49

Arech

15 марта 2012, 20:23

#8

webrock:
разбирается уже давно и практически, в любом коде.

на то он и Google...

Если бы он разбирался "практически в любом коде", не было бы таких тупых ошибок.

Другое дело, что у гугла, по видимому, несколько источников информации о js-скриптах. Первый - от индексатора, где встроен очень простой quick&dirty анализатор, который и плодит подобные тупые ошибки. Судя по тому, что Гугл умудряется таки иногда достать информацию, на получении которой фейлит quick&dirty, у него есть ещё как минимум один источник. Возможно, от системы снятия скриншотов сайтов, где перед рендерингом страницы полноценно выполняется практически весь код, включая подтягивание данных по ajax и т.д. и т.п.

Новый инструмент для вебмастеров Google рассказал о проблемах В Google рассказали, что

Что такое Power BI и зачем это нужно бизнесу

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи