Многомиллионностраничный динамический сайт - как правильнее отдаться Гуглу?

12
A
На сайте с 29.12.2005
Offline
118
1465

Сайт - площадка, на которой выставляются на продажу товары/детали сугубо промышленного назначения.

Сотни продавцов, у каждогов прайсе 10-100000 наименований товаров, те понятно, откуда берутся миллионы страниц.

Каждое наименование товара - это, обычно, некий артикул, широко употребляемый в узких профессиональных кругах.

Имеется каталог товаров изрядной глубины, ведущий от морды до каждого товара.

Страница товара имеет вид www.site.rrr/category/item-12345678.html

На этих страницах есть внутренняя перелинковка, боюсь даже излишне аггрессивная: предыдущий/следующий, похожие позиции и поискать это - ссылка на внутренний поиск.

Сразу объясню, зачем "поискать". Несмотря на наличие некоторого отраслевого стандарта на наименования товаров, реально, по причине человеческого фактора, в базу попадают десятки вариантов одного и того же наименования, поэтому существуют десятки очень похожих страниц, практически дублей. "Поискать" в такой ситуации часто дает более удобоваримый консолидированный вариант. Те это задумывалось для людей.

Таким образом, с нескольких миллионов страниц с товарами есть ссылки на внутренний поиск вида: www.site.rrr/search/?q=артикул

Механизмы поиска изощренные, поэтому кроме страниц, четко соответствующих странице товара, существует практически бесконечное количество дополнительных страниц. Фактически, что ни напиши в поисковом запросе, что нибудь да сгенерится.

Сайту уже второй десяток лет, всяческие регалии типа ЯК, DMOZ, ТИЦ>1000 итп присутствуют. Видимо, траст все таки ненулевой.

Поисковый трафик 2-3 тысячи уников в сутки пополам с гугла и яндекса.

За время жизни проекта были эксперименты по индексации. На индексацию всегда отдавались только страницы из каталога товаров. Внутренний поиск НЕ индексировался.

Пробовал отдавать, как все артикулы без разбора, так и ограничивать их количество.

При индексации всего подряд яндекс уперся в 1млн страниц, гугл в 3-4 млн страниц. Это было года 3-4 назад.

Потом я прогнал кейколлектором все артикулы через мильен проксей по вордстату и выделил ядро в 100 тыс наименований, которые и отданы на индексацию сейчас. Независимо от количества страниц в индексе фактический поисковый трафик по порядку величины остается неизменным.

Пару лет назад, в качестве эксперимента отдал гуглу в индексацию результаты внутреннего поиска одновременно с каталогом. Суммарный трафик не изменился, но перераспределился по целевой странице и стал 2:1 в пользу страниц с внутренним поиском. Те гуглу больше нравятся эти страницы, что, впрочем, достаточно очевидно, тк на них больше контента и он более релевантен. В выдаче он часто показывает сразу обе страницы, а вебастертулзе поругивается на дубли тайтлов (они там одинаковые).

Теперь вопрос: Хочу отдать на индексацию гуглу именно все страницы с результатами поиска. И не отдавать их яндексу. Как это сделать лучше?

В robots.txt разделить их можно и запретить гуглу индексировать каталог, но тогда он не проиндексирует ссылки ведущие на результаты поиска, а их нужно откуда то брать. И внешних нет. А миллион ссылок с сапы не вариант.

Рассматриваю вариант поставить на карточке товара link rel=canonical на страницу с результатами поиска и для гугла открыть оба раздела. Но как отреагирует яндекс на то, что на его страницах стоит canonical на страницы, запрещенные для него, яндекса , к индексации?

И еще, в общем случае, страница товара не является дублем того, что сгенерит результат поиска. Страницы иногда могут отличаться очень сильно по объему. Правомерно ли вообще тут применять rel=canonical?

Sower
На сайте с 30.12.2009
Offline
659
#1

Если движок позволяет, можно прописать инструкции для каждого робота в самих страницах (в мета тегах).

__________________Бесплатная накрутка ПФ: посещаемость, просмотры, переходы с поисковиков по ключевикам, итд.
__________________Все посетители живые, не боты. (http://livesurf.ru/promo/80271)
Covax
На сайте с 09.02.2012
Offline
119
#2

Я бы в данном случае сделал пересмотр семантики и упор не на продвижение страниц товаров, а реализовал, так скажем лэндинг категории, с учетом оптимизации и внутренней перелинковки. Ну и как обычно, практически у любого проекта есть аналогичные - анализируйте как реализованы успешные сайты, применяйте у себя лучшее.

A
На сайте с 29.12.2005
Offline
118
#3
Sower:
Если движок позволяет, можно прописать инструкции для каждого робота в самих страницах (в мета тегах).

Имеется в виду нечто типа <meta name="googlebot" content="noindex" />?

Но это от robots.txt реально мало чем отличается.

Более того оно так сейчас и сделано.

Яндексу только каталог, гуглю каталог и внутренний поиск. С яндесом все нормально, гугл, естественно, видит кучу дублей, кои хочется ликвидировать при помощи rel="canonical". Тут гугле будет хорошо, но что яндекс скажет на этот rel, который указывает на запрещенную для его индексации станицу? Вот в чем вопрос...

---------- Добавлено 20.05.2013 в 23:22 ----------

Covax:
Я бы в данном случае сделал пересмотр семантики и упор не на продвижение страниц товаров, а реализовал, так скажем лэндинг категории

Нельзя ли немного развить эту мысль?

Приземлять поисковый трафик не на страницу товара, а на промежуточную страницу каталога с длинным списком этих кейвордов-товаров? Но их миллионы. Там плотность ключа будет фактически нулевая. Врят ли какой поисковик вообще сочтет такие страницы заслуживающим индексирования.

angr
На сайте с 11.05.2006
Offline
413
#4
Anton:
Независимо от количества страниц в индексе фактический поисковый трафик по порядку величины остается неизменным.

так может вы упёрлись в ёмкость рынка?

сами же говорили:

Anton:
товары/детали сугубо промышленного назначения

у вас есть конкуренты?

у них больше трафика?

Требуется СЕО-Специалист в Кишиневе, в офис. ()
A
На сайте с 29.12.2005
Offline
118
#5
angr:
так может вы упёрлись в ёмкость рынка?

Не похоже. Ибо конкуренты есть и трафика у них больше.

angr
На сайте с 11.05.2006
Offline
413
#6
Anton:
и трафика у них больше.

как оценивали?

A
На сайте с 29.12.2005
Offline
118
#7
angr:
как оценивали?

Оценивал косвенно по открытым данным о посещаемости.

Она выше в 2-4 раза. При том, что по сути своей содержимое вообщем то достаточно однотипное.

богоносец
На сайте с 30.01.2007
Offline
774
#8
Anton:
гугл, естественно, видит кучу дублей, кои хочется ликвидировать при помощи rel="canonical"

Не задумывались о процессе?

Сначала сделать 100500 запросов (а ПС может сделать ограниченное их количество), потом понять, что индексить можно только 3% из этого...

A
На сайте с 29.12.2005
Offline
118
#9
богоносец:
Не задумывались о процессе?

С некоторых пор задумывался. Поэтому и ограничивал индексацию каким то относительно вменяемым ядром.

Вот только по поводу того, что индексить можно только 3% на данный момент уже есть обоснованные сомнения.

Лет пять назад квота на индексацию сайтов со стороны ПС была ярко выражена. Не знаю, что там у яндекса сейчас, но у гугла явно вижу, что квот в былом виде фактически нет. По запросу site:example.ru можно найти в индексе и 1 млн и 20 млн страниц. Причем там, где 20 млн, посещаемость однозначно выше по сравнению с тем, где 1 млн.

богоносец
На сайте с 30.01.2007
Offline
774
#10
Anton:
по поводу того, что индексить можно только 3%

Этот % в качестве примера... если боту приходится скачивать 100К страниц, из которых только у 3% нет <link rel="canonical" href="другой урл"/>, то какая будет скорость индексации?

Если бы вы боролись с дублями, то какой % дублей среди скачанных документов для вас означал бы, что сайт дальше индексить не надо? И вы бы делали при этом различие между 96.7% и 97.3?

У forum.searchengines.ru можно попытаться засунуть в индекс на порядок больше... вместе с дублями. Увеличит ли это траф с ПС?

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий