богоносец

богоносец
Рейтинг
775
Регистрация
30.01.2007
Seo-Woman:
У меня тоже был АГС за 1 ссылку.
...
Яндекс не поймешь.
Илья Сегалович

Я хочу сказать по поводу возможных ошибок. Мы понимаем, что вполне возможна ситуация, когда из-за ошибок или несовершенства алгоритмов качественные сайты могут либо не попасть в поиск, либо занять в его результатах ненадлежащую позицию.

У нас есть такая метрика: «Не выкидывать хорошие сайты».

Что мы делаем: по ряду запросов мы мониторим выдачу других поисковых машин, всех, кто хоть как-то ищет по-русски, включая все версии самого Яндекса - рабочую версию и внутренние, экспериментальные (у Яндекса много версий). И складываем все результаты в один котел. Если какой-то сайт присутствует в этом «котле», если он там имеет достаточно хорошие оценки, и при этом отсутствует в Яндексе, мы начинаем разбираться – почему. Причины могут быть разные. Чаще всего причина банальна – плохо отранжировался. Следующая причина – этот документ есть у нас в базе, но в выдачу не попал: так обычно бывает, если мы не сделали нужное синомическое расширение – человек искал по какому-то слову, а в базе был его синоним, искал «Ленинка», а в базе было «Библиотека Ленина».

И наконец, самая редкая причина – документа нет в нашей поисковой базе. И вот тут мы начинаем смотреть, по какой причине он не попал в нее. Да, кстати, говоря «смотреть», я не имею ввиду «смотреть глазами», это все делают алгоритмы, автоматически. Если документа в базе нет, мы смотрим, известна ли нам ссылка на этот документ. Как правило – известна, нам известно чудовищное количество ссылок, на порядки больше, чем наша база документов. Далее смотрим, а был ли скачен документ по этой ссылке – он ведь мог просто не скачаться по техническим причинам. Далее смотрим, какими метриками этот документ обрабатывался – вдруг он не попал в базу, потому что наши алгоритмы сочли его некачественным? Тут могут сыграть роль ссылки, которые на нем стоят, ссылки, которые на него ведут, дублированность контента, признаки сгенерированности текста, его неестественность – у нас много критериев. Мы считаем определенную сумму баллов, и когда сумма баллов превышает некий порог, мы сайт выбрасываем из поиска.

Мы очень тщательно отслеживаем долю документов, не попавших в выдачу, и если обнаруживаем качественный документ, который мы незаслуженно запессимизировали, мы вносим соотвествующие изменения в алгоритмы. И могу с уверенностью сказать, что доля таких сайтов у нас очень маленькая. Мы тщательно следим, чтобы она не увеличивалась, мы стремимся к тому, чтобы она уменьшалась.

Этот текст — для людей... которым не объяснить причин невозможности обеспечения идеальной точности работы алгоритмов. Если же перевести это на совсем уж человеческий язык, то: сайты выкидываются из индекса по подозрению или их комбинации, ранжируются аналогично. Признаки могут быть слишком просты... и их не всегда можно будет выразить на человеческом языке.

Если кто хочет поупражняться: напишите алгоритм распознавания дорвея. Схемку накидайте, которую можно в код превратить. С учётом того, что проверять придётся очень много документов, а вычислительных мощностей не очень-то и много. А дорвеи бывают очень разные и появляются новые их виды.

Поэтому для яндексоидов может быть актуальным выбор: повысить точность | увеличить производительность?

AVDEN:
Но, может, есть смысл, если у запроса частотность, нпример 50.

Надо прикидывать адекватность (поставленным целям) используемых средств. Выше было отвечено про необходимость учёта конкурентности — совокупности усилий, затрачиваемых на присутствие в выдаче по ...

А вообще, мне такие темы кажутся воспоминаниями о том, чего уже не будет.

Вот ещё давно сказано:

Google Webspam:
... «это изменение алгоритма Google, которое сделано для выведения сайтов высокого качества в топ по низкочастотным запросам. Оно прошло тщательное тестирование и не будет отменено»... Принимая во внимание комментарий Мэтта на Google I/O, страницы, которые теперь будут ранжироваться хорошо по запросам «длинного хвоста» находятся на сайтах «более высокого качества» (или, возможно, являются страницами «более высокого качества») /ru/news/225

Так вот они сказали оптимизаторам, но ... бессмысленно говорить о ТОПе, говоря об НЧ-траффе. Это надо мерить иначе.

Прошлым летом попытался собрать цитат из воспоминаний в конце поста, но это всё уже тогда было воспоминаниями, теряющими актуальность... с тех пор тем я и не завожу.

Shessmaster:
Это какой-то... позор (с)
Яндекс – это наше Усе. Большая русская надежда.

«Вы думаете как человек» ©

Про ботов так нельзя.

Любой пиарщик Яндекса вам заявит, что: Матрикснет ... улучшил ... на *% ... и у Матрикснета нету ... склонности к «переобучению»... как у других, менее совершенных алгоритмов машинного обучения. — Это если смотреть на массу результатов. Ну отдельные причуды стали странными и бесчеловечными, но типа их же стало меньше в целом, хотя и осталось столько, что всех руками не удалить. Ну нет у них в метриках чего-то типа коэффициента вредности конкретного вида причуд, дабы их как-то взвешивать типа.

Сами с собой они бороться не будут... наверное, глупо тратит внимание на неустранимое или потенциально бесконечное... проекту надо успеть пожить таким... какой он есть.

Стопсловей надо было напихать. И сразу пачку картинок с разными вариантами, включая реальный текст.

Orcstation:
С 200 страничного сайта около 5 тематических ссылок на СДЛ.

У меня бывало за 1 сцылку* с 30 страниц.

________

* в действительности, за некоторый набор неизвестных условий.

Orcstation:
Статьи от 1000 до 3000 символов. Уник 100%. Я серьезно говорю, качество хорошее.

Если о качестве сказать больше нечего, то ...

Orcstation:
Разве это нормально?

Это фактически...

Они не стесняются выкидывать по минимальному автоматическому подозрению и не видят в этом чего-то плохого... для своих ползателей. Сайты для ботов не вылетают, чаще те, что реально для людей. Дело наверное в том, что ихняя фильтровалка настроилась так, что ... признаки того, что надо выкидывать из индекса, оказались и на вашем сайте. (всякий хлам часто прикидывается СДЛями, поэтому фильтровалка загребает и пушистых тоже)

Придётся просмотреть все страницы на предмет признаков нарушений, формально, как тупой бот. Счистить всё... и «5 тематических ссылок» тоже. Если за месяц в индекс не вернётся, а какие-то сцылки уже накопились и они ценны, попробуйте сделать зеркало (внимательно прочитав хелп). Как ни странно, на старом домене фильтр может сохраняться, а на новом может не быть условий его наложения, но это не правило, а случай. Если сцылок нет, удалите всё и сделаете новый сайт позже, пока контент не растащило.

AVDEN:
как правильно формировать анкоры в перелинковке под такие редкие словосочетания?

Это ******!

AVDEN:
Линкую внутренние страницы по списку запросов.

На что гражданин начальник автоматически даёт стандартный ответ.

AVDEN:
ну, а если несколько тысяч запросов?

У этого форума их более 100.000/мес. БОльшая часть — с частотой ~1/мес*.

__________

* Когда говорим о таких значениях, следует помнить о большой неопределённости (1±1), т.е. почти неповторимые запросы. Вы ими хотите линковать?

AVDEN:
Как в этом случае достигнуть "органичности" и естественности анкоров?

Ну да ладно, хрен бы с ними, с совками из яндыкса...

... вот гуглоиды поступают заметно мякше: запихивают давнюю перелинковку вместо тайтлов или вместе с ними, или одни анкоры вместе с другими, вот и радуйтесь былым стараниям. Почему уже не первый год этого никто не замечает? На эти грабли надо наступать самому.

uzvervlz:
яша вообще забавный поисковик, впечатление такое что на контент ему абсолютно похфигу, он замечательно жрет сплоги набитые парсеным контентом с широко известных сайтов но при этом выплюнул блог в котором 100% уникального контента,

Подобное могу рассказывать...

uzvervlz:
так что на счет уникального контента это еще вопрос

Вопросов почти нет.

Качество (для людей) боты заранее определять не могут, как и уникальность не всегда, как и первоисточник... скорее только вероятность, что это копипаст / нечёткий дубль. У современных ПС возникают другие проблемы, если они начинают решать упомянутую выше. А сцылку не нашёл.

Рерайт может висеть выше первоисточника даже тогда, когда к первоисточнику чувствуется очень хорошее отношение ПС.

Но эта тема — про качество контента. Любой рерайт — не добавляет ничего нового. А желающих «так же как у них», но дешевле — и без ТС слишком много. ПС об этом всём знают, признают, но ...

Ну и ТС не учёл, что мне это явление чисто конкретно не нравится.

koba:
Трогать title для страниц с посещаемостью - не очень хорошая идея.

Значит условия показа описалова... могут так и остаться невыполненными.

Самым самым тормозом для работы со сниппетом являются именно предрассудки ВМ. Все привыкли к определённому распределению слов по документу и про другое — запрещают себе думать, хотя не столь уж и редко можно существенно подправить текстовый фрагмент в выдаче минимальным изменением... тайтла. Там просто уже начинают играть роль типа замыслы создателей аннотирования.

И замыслы эти бывают непонятны: зачем скомканы три тайтла? Заменены / дополнены анкорами. Их читабельность ухудшилась. Ну да, доперелинковывался давеча, а ПС вдруг изменилась. Тут-то не проблема, а скорее её индикатор, коллекция подобных глюков, но на реальной странице такой случайности не хотелось бы.

Так что ПС сами вас вынудят что-то менять.

koba:
Тут наверно неважно куда вы эти слова вставите на странице, и будут ли они видны пользователю. Их присутствие навредит.

Скорее оно навредит, если эти слова окажутся видны... и будут ну совсем не по теме запроса.

tutonhamon_:
вы попробуйте вообще убрать дескрипшин для какой-либо топовой страницы и проследите за ее изменениями в серпе

Смотрим википедию. Там нету описаний, но текста полно.

Intel:
Не хочу утрировать

Ну и ещё скрипт с какого-нибудь дора... пусть даже не работающий, но чтоб был.

и поставьте в дескпришен "виагра лучшая фарма для порно видео скачать бесплатно" причем желательно чтобы контент страницы был совершенно не об этом. И посмотрите изменится позиция страницы или нет.

Это же может произойти и по косвенным причинам...

Представители ПС давно признались: Им не нужны в выдаче ссылки на документы, по которым подозрительно мало кликов:

Владимир Офицеров
Такая позитивная тенденция, которая есть сейчас на этом рынке, это то, что в прошлом оптимизаторы пытались оптимизировать вообще все запросы, которые только могли. И люди, которые продавали Х-box игры, пытались оптимизировать себя под запрос Бритни Спирс. Безусловно, что вот такого никакая поисковая машина терпеть не будет. Во всяком случае таких вот притянутых оптимизаций стало гораздо меньше, и все ссылки, которые люди покупают и ставят сейчас соответствуют тематике того сайта, который продвигается.

Мне кажется что люди, которые покупают и ставят эти ссылки, должны сделать следующий шаг, посмотреть не на свою прибыль и на свои параметры, которые они получают, а посмотреть на это глазами пользователя.

Если вы продаете Х-box игры, и ваш сайт находится на 5,6 или 7 месте, при этом это хороший сайт, в котором все работает, он не старый, и все доставляется по Москве, - никакой поисковик вас не тронет. Проблемы начинаются тогда, когда на запрос [x-box] ваш сайт становится первым. И если пользователи вместо того, чтобы кликать на первый результат постоянно кликают на второй, вот тогда ваш сайт попадет под просмотр, и ручные и автоматические алгоритмы вас оттуда уберут.

Резюме такое – без ссылок жить нельзя, но пожалуйста, умейте ими пользоваться.

+ чистосердечное признание для сцылкоспамеров.

http://www.seonews.ru/reviews/detail/9849.php
Например, документы, на которые никто никогда не кликал, при достаточной частоте самого запроса можно исключить, а вместо них выдавать документы, которые по цепочке запросов можно назвать хорошими

Страшно?

Типа о естественных ПФ не забывайте.

Стоит делать вывод, что на позиции description не влияет?

Точно можно сказать, что прямо не влияет.

koba:
Тоесть зная основной запрос по которому идут посетители на сайт, можно под него написать интересный description (с включением этого запроса) и надаеться на то, что пользователю google как раз и покажет description, а не куски текста со страницы.

Основная проблема, что никто не задумывается об условиях показа имеено описалова. А эти условия не только в нём самом. В пояснениях к коду древней демки когда-то написал:

Совсем не обязательно для показа в G (да и в Я) — наличие запроса в первых 156 символах описания — его начало показывалось при наличии запроса в беках / урле / тайтле (по крайней мере в видимой его части). Т.е. начало описалова чаще показывается… поскольку в начале тайтла — основные запросы могут быть видны.

Если слова запроса есть в тайтле (особенно за пределами видимой в выдаче части, но и тут возникли неожиданности), то у G есть выбор — что показать в текстовом фрагменте:

• предложение (или рваные куски) из описания… (содержащие слова запроса или первое, если запрос виден в тексте ссылки в выдаче — а сей текст в G всегда только из начала тайтла, если к нему не прилип текст сцылки);
• кусок тайтла (можно делать длинные тайтлы);
• кусок из текста (или alt=) со словами запроса;

G.выбор определяется в т.ч. и похожестью соотв. куска текста на запрос (совпадение свовоформ, предлогов… формулировок) или просто отсутствием слов запроса в других частях документа.

Возможна комбинация вышеперечисленного, как и некоторые изменения (уже наблюдались).

Если запрос есть только в ссылках на страницу, то может показаться начало описания или предложение из него, содержащее слова запроса… т.е. можно заготовить предложений для G.НПС.

оказывается, G цепляет ещё и синоним или перевод, но не делает обратного

Дальше наблюдайте сами, всё меняется и плавает. Любая инструкция — о прошлом.

Замечен случай, когда совсем короткое описание не показалось в выдаче при наличии запроса в тайтле, а был кусок текста. Когда ищете site:url.ru смотрите, показал описание или текст — тогда можно слегка удлинить описание.

ПС по описанию НЕ ранжируют, так что пишите человеческое…

Единственная причина, по которой можно вписывать запрос в описание < 156 символов — оно более «плотно» выглядит в G.выдаче, поскольку запрошенные слова выделены жирным… только не перестарайтесь, как и со всякими украшающими спецсимволами.

может быть ещё чего-то работает так же.

Кроме того, и это значимее, бэки и перелинковка может заменить тайтл. И так хитро, что такая цитата не ищется, только кусок до дефиса.

sema_87:
Деск. какой красивый не составь, его увидешь разве что только если по урл сайт искать.

Ну совсем не так. Просто такими иногда оказываются последствия типичной оптимизации по упрощённым учебникам, но это лечится.

Категорически важен тайтл

А он часто стал заменяться текстом сцылок, например. Так что, уже достаточно часто и не тайтл важен, а то, что оказывается в выдаче на его месте.

Всего: 13653