Penalty, о котором не догадывались большевики

12
B1
На сайте с 02.02.2003
Offline
152
1583

Коллеги, привет!

Without further ado - нужен свежий взгляд на проблему, которая, боюсь, меня победила :(

Сайт sararte.com, 11 июля этого года завершена первая часть разработки и загружен robots.txt, приглашающий всех в гости.

На сайте 42 раздела, для 35 написаны уникальные тексты ~500 слов каждый (включая главную страницу), везде стоит необходимый canonical, print-версии запрещены к индексации (как в роботс так и через meta) все корневые разделы имеют уникальный Title + Description (да и вообще все страницы с уникальными тайтлами и всем прочим, в панели ни одной ошибки по этому поводу нет - да и вообще ни одной ошибки нет) постраничная навигация так же с уникальными Title'ами и Description’ами (никакой динамики - везде статика, т.е. описания не "скачут").

Данные, получаемые от магазинов проходят обработку, в результате - Title страниц продукции так же уникализируется (полностью перестраивается структура названия продукта), все изображения преобразовываются в формат, применимый на сайте (как есть картинки нигде не остаются), описания по возможности форматируются и очищаются от мусора с битыми ссылками и всякими промо-текстами, + очищаются дублирующиеся блоки текста. Ссылки на магазины стоят через внутренний скрипт, запрещенный в robots.

Все "лишние" блоки текста (служебная информация, повторяющиеся фразы click here и т.п.) от индексации скрыты яваскриптом.

С момента старта сайт понемногу в ручном и постоянно контролируемом на предмет качества режиме публиковался на тематических форумах (порядка 50-70 ссылок за 2 месяца), + очень медленно регистрировался в каталогах, далее были опубликованы статьи в EzineArticles, Buzzle, Associated Content, линзы Squidoo (без фанатизма - 5-20 штук на каждом сервисе) со ссылками на разделы.

Далее несколько серий статейного продвижения с давно проверенными индусами с DP (spun-статьи) а затем и постоянно до сих пор - статейное продвижение через сервисы типа ArticleRanks (только лучшие, которые до этого у меня работали на ура, статьи тоже хорошо spinned).

Далее - буквально 2 недели назад - публикация пресс-релиза через PR Newswire. В общем - нормальный полноценный набор действий для того, что бы сайт потихоньку вылез поближе к солнцу. Домену - 2 года, приобретался именно под этот проект, и всё это время на нём лежала главная страница с примерным внешним видом той, которая есть сейчас.

А теперь - результат. 5 месяцев, 47 страниц основного индекса, 16 страниц в веб-индексе из 307 ключевых, известных через Sitemap, и нонсенс наподобие не проиндексированного раздела http://sararte.com/table-lamps--/ при том, что хотя бы на первый взгляд в индексе Гугла лежат статьи с Ezine и Buzzle, которые в явном виде ссылаются именно на него. Ну и на десерт отсутствующая главная по каким-либо запросам из текста (да даже по банальному - Sararte).

Предположение о наличии неуникального контента в виде описаний продукции - верно, но этого контета нет в самих разделах + по нему идёт большая работа в рамках разбавления текстами собственного написания, да и в любом случае - неуникальный контент это всего лишь фильтр, а не жесточайший пеналь как в данном случае.

В общем - очень неприятная ситуация, с которой в подобном виде я столкнулся впервые. Теперь, собственно, вопрос - если у кого-нибудь из вас была близкая к подобной проблема, и, что самое важное - успешный опыт по её преодолению - я буду всячески признателен за помощь (это я совершенно серьёзно). В противном случае - может быть у кого-либо промелькнёт идея, в каком направлении "копать" и куда попробовать двигаться, т.к. я уже порядком сбит с толку (что угодно, возможно блог на сайте сделать и публиковать туда контент – было в планах но могу форсировать, может ссылок добавить с анкором «гугл sux», или картинок с таким же альтом – в общем мне нужна идея, что теоретически возможно делать не в контексте «больше ссылок» - т.к. их и так больше становится, и это пока не принесло никакого результата).

P.S. Analytics стоит и показывает очень хорошие показатели на крупицы залётного траффика - 6,5 страниц на человека, 4 минуты в среднем время на сайте.

P.S.2. Чуть не забыл, в процессе разработки где-то в мае был затёрт на 3 дня robots.txt, и Гугл съел 8к страниц на тот момент не имевших чпу, из папки /products/. Оплошность быстро исправили в части robots.txt, а папку /products/ из индекса выпилили за месяц до открытия через панель вебмастеров гугла.

И да, сори за простыню :)

Всем привет!

kievrent
На сайте с 27.12.2009
Offline
206
#1
bad1:
А теперь - результат. 5 месяцев, 47 страниц основного индекса

About 2,070 results (0.34 seconds) ...

Мож они и не все в основном, тогда причину надо искать в:

bad1:
Данные, получаемые от магазинов проходят обработку, в результате - Title страниц продукции так же уникализируется

или же

bad1:
Все "лишние" блоки текста (служебная информация, повторяющиеся фразы click here и т.п.) от индексации скрыты яваскриптом.

в этом. Возможно, где-то атрибут "nofollow" применим к внутрякам, которые должны быть в индексе... хотя тогда и этого:

bad1:
что хотя бы на первый взгляд в индексе Гугла лежат статьи с Ezine и Buzzle, которые в явном виде ссылаются именно на него

не было бы. Были бы в индексе. Мож каким-то макаром стоит ограничение на индексацию этих самых внутряков (или разрешение индексации только по 1-й странице с первого раздела).

Мож еще раз поковыряетесь в коде? Не может гугл просто так выплюнуть столько страниц.

ЗЫ. Роботс мне не высылайте (я не сильно в этом силен), но факт, того, что страницы, на которые идут прямые ссылки с трастовых доноров, не в индексе говорит в пользу того, что либо роботс, либо ява запрещают гуглу вносить их (эти страницы) в индекс...

chakki-chakki
На сайте с 12.12.2008
Offline
84
#2

вполне согласен с предыдущим оратором. ограничения роботсов или слишком много позапрещали. переоптимизация?

Ссылки для Google.com (http://linkmasters.net/). От 2 центов и навсегда! :) Обменяюсь ссылками Forex (Ru), строй и фарма (EN). ПР 1-3. ЛС Домены с ТИЦ и PR (http://domain4seo.com/ru)
B1
На сайте с 02.02.2003
Offline
152
#3

Парни, спасибо за участие, если резюмировать я так понимаю предположение заключается в том, что проблема в robots.txt

Тут несколько моментов:

1) в моём robots к гуглу относятся только первые 12 строк, и он об этом в курсе;

2) я на всех сайтах тестирую robots.txt через инструмент в панели вебмастеров гугла, раздел Crawler access (там конечно всё ок);

3) раздел Crawl errors там же, закладка Restricted by robots.txt - тоже инструмент, который позволяет следить за очевидными оплошностями;

4) даже если бы тот же /table-lamps--/ был заблокирован в robots.txt, он бы был в индексе гугла т.к. в тексте самого html-документа нет никаких указаний на запрет индексации.

P.S. раздел /chandeliers--/ на который так же ведёт масса ссылок с внешних ресурсов, в том числе трастовых, и у которого стоит параметр daily в Sitemap - кэш от 28 августа. Боюсь, проблема не в robots...

M
На сайте с 27.10.2006
Offline
111
#4

Пока не тема не завайпилась с первой страницы я хочу всех обратить внимание на то, как надо делать сайты с импортированной информацией. ТС и его команде нужно дать медаль. Учитесь!

Теперь в силах смотреть и постараюсь помочь.

Maxoud добавил 11.11.2010 в 00:21

bad1:
если резюмировать я так понимаю предположение заключается в том, что проблема в robots.txt

robots.txt чист как девственница. Там нет ничего, что могло бы быть интерпретировано иначе.

Бесплатное хранилище данных (http://bit.ly/gJYy9Z) (5GB) с синхронизацией. По ссылке — бонус 500MB.
kievrent
На сайте с 27.12.2009
Offline
206
#5
bad1:
я так понимаю предположение заключается в том, что проблема в robots.txt
Maxoud:
robots.txt чист как девственница.

Яву на запреты проверяли?

[Удален]
#6

я считаю что индексация затруднена js, страницы плохо заточены под ключевики, на страницах слегка переспам lighting, отсутствуе жирных ссылок! все это последствия, а сайт хороший)

что говорит google.webmaster?

думаю фильтра нет, просто надо привести все в порядок!

да и тайтл интересно составлен

http://www.google.com/search?hl=en&client=firefox&hs=iiJ&rls=org.mozilla%3Aru%3Aofficial&q=%22Chandelier+Lighting+-+more+than+500%2C000+Chandeliers%22&aq=f&aqi=&aql=&oq=&gs_rfai=

сейчас выясниться что контент неуникальный

ну как я и говорил

5" Height x 15" Width. Baseplate Dimensions: 7.375" Diameter. Bulbs: (1) Medium Base, 150 Watt Max. Bulb Not Included. Switch Type: 3-Way Turn. Shade Desc: 11" x 15" x 11" Hard Back Drum, Off-White. Weight: 12 Lbs. UL And/Or CA Listed. In keeping with the inspiration found in nature, Westwood Collections is proud to offer this beautiful table lamp. Featuring an original design that recreates the look and feel of real wood, this 32-1/2" high lamp is a wonderful addition to the Woodlands Family. The rich, earthy texture provided by the lamp's resin limbs is juxtaposed against the light cream of the off-white textured hard back shade. This lamp uses one, 150-watt max bulb and a 3-way turn switch for easy operation.

http://sararte.com/the-new-informality-one-1817407/#page-3/count-15/sort-relevant урл стремный! незнаю как гугл реагирует на # в средине урла, № вроде говорит что дальше якорь а не ссылка

[00:20:15] Найдено 4% совпадений по адресу: http://cheap-kichler-lights-store.blogspot.com/

[00:20:16] Найдено 15% совпадений по адресу: http://homeparadise.com/index.php?cPath=284_326

[00:20:16] Найдено 3% совпадений по адресу: http://lyndonblach.fishyblogs.com/

[00:20:22] Найдено 54% совпадений по адресу: http://shop.bhg.com/product/table-lamps/52109-1838/kichler-lighting-70284-woodlands-table-lamp.html

[00:20:22] Превышен порог 50% (см. настройки) совпадений.

[00:20:22] Проверено: 16 uri. Ошибок: 0

[00:20:22] Найдено 60% совпадений всего

M
На сайте с 27.10.2006
Offline
111
#7
kievrent:
Яву на запреты проверяли?

javascript? Не следует путать с Java.

maxjoin:
я считаю что индексация затруднена js

javascript не может влиять на доступ бота к содержанию, ибо бот не исполняет джаваскрипт. Я ползал по сайту с отключенным javascript. Все в пределах досягаемости.

[Удален]
#8

гугл умеет исполнять js! а вот что он там нагенерил только ему извесно

да и не в этом уже дело, как выяснилось текст неуник, к тому же жирных ссылок нет на сайт, внутренняя перелинковка хвамает и весь результат на лицо

B1
На сайте с 02.02.2003
Offline
152
#9

Maxoud опередил по поводу JS. Сайт проектировался таким образом, что бы быть доступным роботам очевидно не использующим JS ;) Всё остальное - чисто клиентский функционал, надстройка.

maxjoin, по поводу урла - робот его в таком виде не получит, для него это будет http://sararte.com/the-new-informality-one-1817407/, и в любом случае всё что после хэштега значения для поиска особого не имеет (хвост после # нужен нам что бы восстанавливать пользовательские данные и историю).

А контент 100% не уникальный - но речь идёт не про страницы продукции, которые в индекс попадают (и на которых выжимается максимум уникального из "неуникального" контента, за счёт кучи фильтров и ручного труда по формированию правил для лучшей читабельности), а о том, что разделы даже не думают индексироваться, при наличии уникального контента, написанного под каждый из них.

Хотя, может быть как следствие наличия неуникального контента всё жестоко прессуется, но с другой стороны - в выдачу по низкочастотным кеям в этой нише постоянно встают дорвеи на миксе вот на этот раз 100% неуникального контента, который разительно отличается от того, что у нас на сайте. При этом спам минимальный (я в курсе, что ссылки можно скрывать от поиска и т.п., и про лом тоже в курсе - спам действительно минимальный, смотрел всё). Это то и сбивает с толку.

[Удален]
#10

ну если вы понимаете что могло спровоцировать такую реакцию у гугла на ваш сайт, тогда надо решать проблему, думать как это можно исправить, у мена варианты есть но к сожалению поделиться я не могу, тайна. Да это все не уникальность, внутренняя перелинковка и и отсутствие хороших беков. или вы хотели чтобы это подтвердили третьи лица?

p.s. траст вашего сайта упал в глазах гугла и его надо подымать

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий