Возвращайте 410.
Согласно стандартам - 404 это "страница почему-то не найдена", а 410 - "да, такая страница тут была, но ее больше нету и пожалуйста - забудьте об ее существовании, еслы вы бот".
В теории - Гугл утверждает, что его бот реагирует на 404 и 410 одинаково, но на практике 410-е удаляются из индекса раза в 3-4 быстрее.
Два десятка сайтов в .ru - IP, домен второго уровня, структура, дизайн, отдельный домен отдающий статику (он вообще в .ua) - все общее. Отличается только тематика и соответственно контент.
В августе перелинковали их между собой "yesfollow" сквозняками в несколько спиралей (каждый ссылается на несколько остальных и в итоге находится в нескольких кольцах разной длины) - в результате на след. день трафик с гугла сразу вырос с ~3k до ~4k, но на след. день упал до ~2k, еще через пару дней поднялся до ~2.5. Сквозняки убрали и оставили такую перелинковку только на мордах и страницах первого уровня (примерно 0.05-0.1% от общего количества) и через неделю трафик вернулся на прежний уровень. Дальше - за 4 месяца плавный рост до 6к, но там таки дошли руки до разметки микроданными, сайтмапов, юзабилити (и ПФ) и других мелочей.
Поэтому мой опыт на чистый эксперимент не тянет и однозначно связанный позитив от такой перелинковки только увеличение PR с 0-3 до 2-4 по всей сетке.
Яндекс - в течении месяца подъем от 2.5 до 4, падение обратно до 2.5 и меееедленный рост до 3к - он просто нас "не любит" за то, что несмотря на домен в .ru 80% контента и 60% трафика "украинские" :p
~20 сайтов <topicX>.<brand1>.com.ua + ~20 <topicX>.<brand2>.ru + ~20 <topicX>.ru - но "UA-xxxxxxx-x" общий один на все 50+ сайтов + пара-тройка со своими собственными "UA" - и естественно собственным контентом, который не пересекается с сайтами на основном "UA". полет нормальный.
Статистика - общая для UA или любого его подмножества.
Возможности аггрегировать статистику разных UA - GA не предоставляет.
Смысл группировать сайты одного общего UA и раскидывать домены по разным профилям - вполне понятен - разграничение доступа и отсутствие проблемм с точностью, которые возникают при использовании сегментов.
Разные "UA" на разные домены по-сути одного сайта - совершенно непонятно зачем оно может понадобиться, и вообще выглядит стремно. Как по мне - лучше явно дать понять гуглу что сайт один, и пусть он сам скеивает дублирующийся контент чем чем конкурировать самому с собой и напрашиваться на санкции.
Страница с похожими товарами возвращаемая с кодом 410. Гугл утверждает, что не делает разницы между 404 и 410, но согласно RFC на HTTP - правильный код ошибки в данном случае именно 410. Не могу смаштабировать г-доску объявлений на 5 лямов страниц до ИМ на 5к, но по нашей внутренней статистике googlebot возвращается на 404-е раза в 3 чаще, чем на 410-е, а живые пользователи предпочитают релевантный контент морде
1 - В переменных - ограничение на размер имя+значение 64байта, с учетом юникода это всего 32 символа, и вообще в отличии от событий - с русским они не очень дружат, поэтому лучше использовать английский, транслит и т.д.
2 - Скрипт (кроме собственно загрузки "ga.js") взять в
$(document).ready(function(){// Ваш код});
- В момент выполнения скрипта DOM может быть еще не (полностью) построен и все ваши "var login = $('.regForm input:first').val();" получаются UB
2.1 - "input:first" Оперой до сих пор не поддерживается 😡
3 - Использовать "_trackEvent" НЕ из обработчика событий крайне нежелательно - это "портит статистику" - даже если пользователь зашел на страницу и тут-же ее закрыл (тоесть bounce в чистом виде) - в результате отправки событий GA считает, посещение уже не как bounce, а как нормальное + exit
Стремиться к тому, чтобы объявлений первого типа было на на порядки больше, чем второго.
Даже у импортированного прайса между одинаковыми на первый взгляд позициями найдутся существенные отличия - как минимум это будет цена и информация об поставщике - все это тоже должно присутствовать на странице объявления и добавит ему уникальности. Желательно разметить все микроданными - товар, фирма(человек).
Внутренняя перелинковка нужна в любом случае - ссылки на несколько других (желательно аналогичных или сопутствующих) товаров и по возможности первые предложение-два из их описаний - и все страницы будут вполне себе уникальными.
Если вы легально импортите реальные предложения клиентов, которые заинтересованы в размещении своих товаров именно на вашем сайте - возможно у них уже есть красивые прайсы с подробными описаниями и т.д. С того-же яндех-маркет-а приходили достаточно неплохо и подробно заполненные прайсы, а с prom.ua - вообще описания товаров на несколько страниц уникального текста.
90% трафика с поисковиков на достаточно неплохо раскрученном сайте такого типа это именно НЧ, по ВЧ имеет смысл продвигать сам сайт а не отдельные объявления.
UA, ~3 ляма страниц в гугловском индексе. PR4 на главной и хз сколько десятков с PR4 внутренних. 85-90% трафика с поисковиков - на внутрение страницы с PR0 и менее 10 заходов в месяц.
На главный сайт гугловский трафик за май +~10% в сравнении с мартом и ~20% в сравнении с апрелем, прогнозы на июнь - 700-720K визитов с гугла и хотя-бы 850 всего.
Над сайтом работают скорее программисты :p
В конце марта перевели пару десятков сателитов из зоны RU на новый движок с разными вкусностями типа разметки микроданными, ежедневного скармливания гуглу актуальных сайтмапов, правильной внутренней перелинковкой и т.д. и отпустили их в "полноценную самостоятельную жизнь" заменив все линки на на главный соотв. внутренними. Судя по всему - в апреле именно они о отобрали 10% трафика.
Апрель-май - работа в штатном режиме, из того что могло повлиять на трафик - только закрытие некоторых дублей с помощью 301-ых или canonical links и измения верстки (с 100% сохранением внешнего вида) там где в превьюхах гугл вместо контента выделял меню, формы расширенного поиска и т.п. или отображал не те микроданные.
Не совсем понял вашу проблемму. Ни пользователи ни боты в принципе не должны видеть URL-ов типа http://<site-ip>/..., только http:/<my-site-domain>/...
В качестве балансировщика для сотни-двух тысяч посетителей в день вполне справляется один nginx на самом дешевом root-server-е от хейзнера. Если этого недостаточно - дальнейшее масштабирование должно делаться уже на уровне DNS, при этом опять-же - никаких IP, только домены.
Этот контент с т.з. гугла получается скорее "ихним", чем "Вашим" 😡
- (1) позаботьтесь об том, чтобы скормить его googlebot-у первым (внутренняя перелинковка, которая строится при посщениях бота рулит)
- (2) пометьте его как "свой" с помощью microdata, microformats, rdf и т.д.
- (3) не отдавайте контент до того, как он проиндексирован на вашем сайте