- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Тема относится не толко к отечественным поисковикам, но, думаю, что и тут она неплохо приживется.
Менялся я как-то на днях ссылками c неким сайтом. У меня открытый для индексирования каталог с прямыми ссылками, у них несколько страниц "партнеры". Попала моя ссылка на их сайте на страницу, скажем, номер пять. Полез я проверять, доступна ли ссылка для поисковиков и пользователей без явы (Для этих целей у меня Опера с отключением всего, что только можно).
Дойти до нужной страницы не удалось, навигация на яве, а нормальные ссылки только на основные разделы. Но при этом, при просмотре "все страницы сайта" - выяснилось, что искомые страницы Яндекс (и Апорт тоже) знает. Списался с вебмастером, он уверяет, что ручного сабмита не было, и нормальных ссылок на эти страницы тоже нет. Он и сам удивлен, что Яндекс его знает.
Что же было в коде? Примерно такая конструкция:
<script>
slideMenu = new createSlideMenu("slideMenu")
... тут привязка к координатам и офрмление...
//Menu 1 -----------------------
slideMenu.makeMenu('top','о фирме','/dir/index.shtml')
//Menu 2 .... и так далее ...-----
//Menu 14 -----------------------
slideMenu.makeMenu('top','материалы','/dir/mat.shtml')
//Menu 15 -----------------------
slideMenu.makeMenu('top','наши партнеры')
slideMenu.makeMenu('sub','с 1 по 10','/dir/partn.shtml')
slideMenu.makeMenu('sub','с 11 по 20','/dir/partn1.shtml')
slideMenu.makeMenu('sub','с 21 по 30','/dir/partn2.shtml')
slideMenu.makeMenu('sub','с 31 по 40','/dir/partn3.shtml')
slideMenu.makeMenu('sub','с 41 по 50','/dir/partn4.shtml')
slideMenu.makeMenu('sub','с 51 по 60','/dir/partn5.shtml')
slideMenu.makeMenu('sub','с 61 по 70','/dir/partn6.shtml')
slideMenu.makeMenu('sub','с 71 по 80','/dir/partn7.shtml')
slideMenu.makeMenu('sub','с 81 по 90','/dir/partn8.shtml')
//Menu 16 -----------------------
...
//Initiating the menu !!
slideMenu.init()
</script>
Получается, что и Яндекс и Апорт извлекли адреса страниц из данного списка, не смотря на то, что это скрипт. Вряд ли по подобным ссылкам передается PR, но страницы проиндексированы.
Гугль знает далеко не все даже доступные страницы (сайт новый), а Рамблер знает только главную. Тут данных нет.
К сожелению не могу дать адрес сайта, и к тому же, вебмастер, по моему наущению уже поставил нормальные ссылки + делает нормальную карту сайта. Но факт остается фактом.
Вопрос: как же так? Получается, что даже не разбирая скрипты, робот может извлекать ссылки, если они даны в доступном виде? Что будет с PR страниц найденых таким образом?
Я, например, использовал всегда, для скрытия нежелательных ссылок (например счетчиков), конструкцию вида:
document.write('<a href="http://ццц.сайт.ru/" target=_blank>');
document.write('<img src="http://ццц.сайт.ru/ууу.gif" ');
document.write('alt="пузомерка каталога сайт.ru" width=88 height=31 border=0></a>');
Стоит ли придумывать более хитрые способы маскировки, там, где она конечно же нужна? В последнем примере, мне безразлично, узнает поисковик о том, что есть ццц.сайт.ru или нет, мне важно, что бы PR на такую ссылку не передавался?
Полагаю, что не обязательно была разборка скрипта.
Если страница открыта, то в базу поисковика она может попасть не только в результате обхода ссылок сайта. Например, может попасть в результате индексации открытых логов прокси.
Стоит ли придумывать более хитрые способы маскировки
Универсальный способ маскировки -- вынести внешние ссылки на одну страницу, которую запретить в robots.txt.
Кстати, интересный вопрос, который, возможно, даст решение проблемы. Если все внешние ссылки оформлять как редирект типа www.site.ru/link/1, www.site.ru/link/2 и т.д., а в robots.txt запретить /link/, что произойдет?
а) поисковик увидит ссылку, и, не пытаясь получить по ней доступ, выкинет ее из очереди на индексацию;
б) поисковик попытается получить доступ к странице и обнаружит, что это внешняя ссылка, и станет ее учитывать.
Более логично поведение согласно п."а" -- если сказано, что нельзя, зачем пытаться? Если это не так (что подтверждается практикой), то кто мешает основных роботов обнаруживать по user-agent и выдавать им ошибку 403? Все это можно сделать на уровне mod_rewrite.
С уважением,
Александр Садовский.
Из приведенных примеров видно, что и разбирать ничего не надо. Особенно во втором случае. Все ссылки "лежат на поверхности". Бери и пользуйся. Меня в данном случае волнует вопрос с передачей PR. Так же интересно, как подходит к этому делу робот - получается, видимо, что он не игнорирует всё в промежутке <script>...</script>, а пытается извлечь то, что можно из имеющегося текста.
Кстати, у меня, однажды, в выдаче Гугля, в кусок текста со страницы попал фрагмент кода счетчика, кажется, Mail.ru, который был между <script> ... </script>
Возможно, но маловероятно, поскольку сайт (текущая его форма и сами страницы с партнерами) довольно свежий. К тому же, Апорт, который тоже знал "спорные" страницы, не копает так глубоко, что бы найти где-то логи прокси.
Бывает. Я заметил, что поисковики криво парсят некоторые вещи в коде страницы. Кстати, этим можно пользоваться. ;)
Они могли и не так глубоко быть зарыты. Кстати, вполне возможно, что один из сайтов, ссылка на который была на этой странице, мог держать открытый отчет, сгенеренный анализатором лога. Вот по реферреру страничку и могли найти. Кстати, Апорт до фига таких открытых очетов знает. См., например: http://sm.aport.ru/scripts/template.dll?r=googlebot+2.1
Универсальный способ маскировки -- вынести внешние ссылки на одну страницу, которую запретить в robots.txt.
Кстати, интересный вопрос, который, возможно, даст решение проблемы. Если все внешние ссылки оформлять как редирект типа www.site.ru/link/1, www.site.ru/link/2 и т.д., а в robots.txt запретить /link/, что произойдет?
а) поисковик увидит ссылку, и, не пытаясь получить по ней доступ, выкинет ее из очереди на индексацию;
б) поисковик попытается получить доступ к странице и обнаружит, что это внешняя ссылка, и станет ее учитывать.
100% - п. а)
Почему?
Именно таким образом стоят ссылки на Яндексе -robots.txt :
User-Agent: *
...
Disallow: /redir
А все внешние ссылки идут через /redir
Например, с главной ссылка на новости:
www.yandex.ru/redir?dtype=lastnews&url=http://...
-Саша, то есть ты видел, что поисковики нарушают robots.txt?
Я, например, использовал всегда, для скрытия нежелательных ссылок (например счетчиков), конструкцию вида:
document.write('<a href="http://ццц.сайт.ru/" target=_blank>');
document.write('<img src="http://ццц.сайт.ru/ууу.gif" ');
document.write('alt="пузомерка каталога сайт.ru" width=88 height=31 border=0></a>');
Стоит ли придумывать более хитрые способы маскировки, там, где она конечно же нужна? В последнем примере, мне безразлично, узнает поисковик о том, что есть ццц.сайт.ru или нет, мне важно, что бы PR на такую ссылку не передавался?
По моему опыту в Гугле, он никогда не следует по ссылкам, запрятанным в жабаскрипте. По крайней мере никогда не показывает эти ссылки в выдаче по запросу link: для сайта, на который ссылки ведут (PR ссылающейся страницы достаточный для показа ее по запросу link:. Т.е. Гугл игнорирует такие ссылки и PR в Гугле по таким ссылкам не передается. (Кстати, GoogleGuy на WW высказывался в таком духе - вы мол можете консервировать PR как хотите, но никто не даст вам гарантии, что это работает сейчас или не будет работать в будущем)
Что касается линков через редиректы, то Гугль ходит по ним без всяких проблем, даже по таким: /cgi-bin/redir.cgi?p=xxx
Передается ли по ним PR - никто не знает. Taбке, например, утверждал, что передается "какая-то доля", которая зависит от PR ссылающейся страницы и длины(в символах) самой ссылки. Хотя странно это как-то звучит.
по вопросу funsad-а - в Гугле работает пункт а). По крайней мере у меня так внешние ссылки железно закрывались.
Я видел :) Во-первых, robots.txt не оказывает мгнвенного воздействия.
Я и спустя два месяца после закрытия раздела получаю заходы от тормозных роботов. Это видно по 403 ошибке.
Во-вторых, кто-то из разработчиков на этом форуме выссказался в том смысле, что robots.txt можно трактовать как запрет индексации, но не обхода. Причём обходят явно не всё закрытое, а избирательно. Возможно при наличии "интересных" ссылок.
А нельзя ли поподробнее для чайников? :)