Ссылки в скриптах

12 3
Polite Moose
На сайте с 22.04.2002
Offline
85
4109

Тема относится не толко к отечественным поисковикам, но, думаю, что и тут она неплохо приживется.

Менялся я как-то на днях ссылками c неким сайтом. У меня открытый для индексирования каталог с прямыми ссылками, у них несколько страниц "партнеры". Попала моя ссылка на их сайте на страницу, скажем, номер пять. Полез я проверять, доступна ли ссылка для поисковиков и пользователей без явы (Для этих целей у меня Опера с отключением всего, что только можно).

Дойти до нужной страницы не удалось, навигация на яве, а нормальные ссылки только на основные разделы. Но при этом, при просмотре "все страницы сайта" - выяснилось, что искомые страницы Яндекс (и Апорт тоже) знает. Списался с вебмастером, он уверяет, что ручного сабмита не было, и нормальных ссылок на эти страницы тоже нет. Он и сам удивлен, что Яндекс его знает.

Что же было в коде? Примерно такая конструкция:

<script>

slideMenu = new createSlideMenu("slideMenu")

... тут привязка к координатам и офрмление...

//Menu 1 -----------------------

slideMenu.makeMenu('top','о фирме','/dir/index.shtml')

//Menu 2 .... и так далее ...-----

//Menu 14 -----------------------

slideMenu.makeMenu('top','материалы','/dir/mat.shtml')

//Menu 15 -----------------------

slideMenu.makeMenu('top','наши партнеры')

slideMenu.makeMenu('sub','с 1 по 10','/dir/partn.shtml')

slideMenu.makeMenu('sub','с 11 по 20','/dir/partn1.shtml')

slideMenu.makeMenu('sub','с 21 по 30','/dir/partn2.shtml')

slideMenu.makeMenu('sub','с 31 по 40','/dir/partn3.shtml')

slideMenu.makeMenu('sub','с 41 по 50','/dir/partn4.shtml')

slideMenu.makeMenu('sub','с 51 по 60','/dir/partn5.shtml')

slideMenu.makeMenu('sub','с 61 по 70','/dir/partn6.shtml')

slideMenu.makeMenu('sub','с 71 по 80','/dir/partn7.shtml')

slideMenu.makeMenu('sub','с 81 по 90','/dir/partn8.shtml')

//Menu 16 -----------------------

...

//Initiating the menu !!

slideMenu.init()

</script>

Получается, что и Яндекс и Апорт извлекли адреса страниц из данного списка, не смотря на то, что это скрипт. Вряд ли по подобным ссылкам передается PR, но страницы проиндексированы.

Гугль знает далеко не все даже доступные страницы (сайт новый), а Рамблер знает только главную. Тут данных нет.

К сожелению не могу дать адрес сайта, и к тому же, вебмастер, по моему наущению уже поставил нормальные ссылки + делает нормальную карту сайта. Но факт остается фактом.

Вопрос: как же так? Получается, что даже не разбирая скрипты, робот может извлекать ссылки, если они даны в доступном виде? Что будет с PR страниц найденых таким образом?

Я, например, использовал всегда, для скрытия нежелательных ссылок (например счетчиков), конструкцию вида:

document.write('<a href="http://ццц.сайт.ru/" target=_blank>');

document.write('<img src="http://ццц.сайт.ru/ууу.gif" ');

document.write('alt="пузомерка каталога сайт.ru" width=88 height=31 border=0></a>');

Стоит ли придумывать более хитрые способы маскировки, там, где она конечно же нужна? В последнем примере, мне безразлично, узнает поисковик о том, что есть ццц.сайт.ru или нет, мне важно, что бы PR на такую ссылку не передавался?

Удачи, доброго пива (http://www.fifth-ocean.ru/) и настроения! Релевантность определяется не тИЦ, не ВИЦ, не количеством ссылок, не частотой ключевого слова, а соответствием запросу!
AiK
На сайте с 27.10.2000
Offline
257
AiK
#1
Получается, что и Яндекс и Апорт извлекли адреса страниц из данного списка, не смотря на то, что это скрипт.

Полагаю, что не обязательно была разборка скрипта.

[Удален]
#2

Если страница открыта, то в базу поисковика она может попасть не только в результате обхода ссылок сайта. Например, может попасть в результате индексации открытых логов прокси.

F
На сайте с 15.11.2000
Offline
116
#3
Как писал Polite Moose
Стоит ли придумывать более хитрые способы маскировки

Универсальный способ маскировки -- вынести внешние ссылки на одну страницу, которую запретить в robots.txt.

Кстати, интересный вопрос, который, возможно, даст решение проблемы. Если все внешние ссылки оформлять как редирект типа www.site.ru/link/1, www.site.ru/link/2 и т.д., а в robots.txt запретить /link/, что произойдет?

а) поисковик увидит ссылку, и, не пытаясь получить по ней доступ, выкинет ее из очереди на индексацию;

б) поисковик попытается получить доступ к странице и обнаружит, что это внешняя ссылка, и станет ее учитывать.

Более логично поведение согласно п."а" -- если сказано, что нельзя, зачем пытаться? Если это не так (что подтверждается практикой), то кто мешает основных роботов обнаруживать по user-agent и выдавать им ошибку 403? Все это можно сделать на уровне mod_rewrite.

С уважением,

Александр Садовский.

Polite Moose
На сайте с 22.04.2002
Offline
85
#4
Полагаю, что не обязательно была разборка скрипта.

Из приведенных примеров видно, что и разбирать ничего не надо. Особенно во втором случае. Все ссылки "лежат на поверхности". Бери и пользуйся. Меня в данном случае волнует вопрос с передачей PR. Так же интересно, как подходит к этому делу робот - получается, видимо, что он не игнорирует всё в промежутке <script>...</script>, а пытается извлечь то, что можно из имеющегося текста.

Кстати, у меня, однажды, в выдаче Гугля, в кусок текста со страницы попал фрагмент кода счетчика, кажется, Mail.ru, который был между <script> ... </script>

Если страница открыта, то в базу поисковика она может попасть не только в результате обхода ссылок сайта. Например, может попасть в результате индексации открытых логов прокси.

Возможно, но маловероятно, поскольку сайт (текущая его форма и сами страницы с партнерами) довольно свежий. К тому же, Апорт, который тоже знал "спорные" страницы, не копает так глубоко, что бы найти где-то логи прокси.

wolf
На сайте с 13.03.2001
Offline
1183
#5
Кстати, у меня, однажды, в выдаче Гугля, в кусок текста со страницы попал фрагмент кода счетчика, кажется, Mail.ru, который был между <script> ... </script>

Бывает. Я заметил, что поисковики криво парсят некоторые вещи в коде страницы. Кстати, этим можно пользоваться. ;)

К тому же, Апорт, который тоже знал "спорные" страницы, не копает так глубоко, что бы найти где-то логи прокси.

Они могли и не так глубоко быть зарыты. Кстати, вполне возможно, что один из сайтов, ссылка на который была на этой странице, мог держать открытый отчет, сгенеренный анализатором лога. Вот по реферреру страничку и могли найти. Кстати, Апорт до фига таких открытых очетов знает. См., например: http://sm.aport.ru/scripts/template.dll?r=googlebot+2.1

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
InSAn
На сайте с 13.01.2003
Offline
60
#6
Как писал funsad

Универсальный способ маскировки -- вынести внешние ссылки на одну страницу, которую запретить в robots.txt.

Кстати, интересный вопрос, который, возможно, даст решение проблемы. Если все внешние ссылки оформлять как редирект типа www.site.ru/link/1, www.site.ru/link/2 и т.д., а в robots.txt запретить /link/, что произойдет?
а) поисковик увидит ссылку, и, не пытаясь получить по ней доступ, выкинет ее из очереди на индексацию;
б) поисковик попытается получить доступ к странице и обнаружит, что это внешняя ссылка, и станет ее учитывать.

100% - п. а)

Почему?

Именно таким образом стоят ссылки на Яндексе -robots.txt :

User-Agent: *

...

Disallow: /redir

А все внешние ссылки идут через /redir

Например, с главной ссылка на новости:

www.yandex.ru/redir?dtype=lastnews&url=http://...

ADPRO - Мы знаем, что Вам нужно! (http://adpro.ua)
euhenio
На сайте с 21.09.2001
Offline
357
#7
согласно п."а" -- если сказано, что нельзя, зачем пытаться? Если это не так (что подтверждается практикой), то кто мешает основных роботов обнаруживать по user-agent и выдавать им ошибку 403?

-Саша, то есть ты видел, что поисковики нарушают robots.txt?

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )
L
На сайте с 06.09.2001
Offline
67
#8

Я, например, использовал всегда, для скрытия нежелательных ссылок (например счетчиков), конструкцию вида:

document.write('<a href="http://ццц.сайт.ru/" target=_blank>');
document.write('<img src="http://ццц.сайт.ru/ууу.gif" ');
document.write('alt="пузомерка каталога сайт.ru" width=88 height=31 border=0></a>');

Стоит ли придумывать более хитрые способы маскировки, там, где она конечно же нужна? В последнем примере, мне безразлично, узнает поисковик о том, что есть ццц.сайт.ru или нет, мне важно, что бы PR на такую ссылку не передавался?

По моему опыту в Гугле, он никогда не следует по ссылкам, запрятанным в жабаскрипте. По крайней мере никогда не показывает эти ссылки в выдаче по запросу link: для сайта, на который ссылки ведут (PR ссылающейся страницы достаточный для показа ее по запросу link:. Т.е. Гугл игнорирует такие ссылки и PR в Гугле по таким ссылкам не передается. (Кстати, GoogleGuy на WW высказывался в таком духе - вы мол можете консервировать PR как хотите, но никто не даст вам гарантии, что это работает сейчас или не будет работать в будущем)

Что касается линков через редиректы, то Гугль ходит по ним без всяких проблем, даже по таким: /cgi-bin/redir.cgi?p=xxx

Передается ли по ним PR - никто не знает. Taбке, например, утверждал, что передается "какая-то доля", которая зависит от PR ссылающейся страницы и длины(в символах) самой ссылки. Хотя странно это как-то звучит.

по вопросу funsad-а - в Гугле работает пункт а). По крайней мере у меня так внешние ссылки железно закрывались.

TrafficHolder.com - Buy/Sell Adult Traffic (http://www.trafficholder.com/aff.php?samuelapirrone)
AiK
На сайте с 27.10.2000
Offline
257
AiK
#9
-Саша, то есть ты видел, что поисковики нарушают robots.txt?

Я видел :) Во-первых, robots.txt не оказывает мгнвенного воздействия.

Я и спустя два месяца после закрытия раздела получаю заходы от тормозных роботов. Это видно по 403 ошибке.

Во-вторых, кто-то из разработчиков на этом форуме выссказался в том смысле, что robots.txt можно трактовать как запрет индексации, но не обхода. Причём обходят явно не всё закрытое, а избирательно. Возможно при наличии "интересных" ссылок.

LD
На сайте с 12.06.2002
Offline
71
#10
Причём обходят явно не всё закрытое, а избирательно. Возможно при наличии "интересных" ссылок.

А нельзя ли поподробнее для чайников? :)

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий