богоносец

богоносец
Рейтинг
775
Регистрация
30.01.2007
Tigra56:
у каждого по своим запросам, или по запросам каких-то любимых сайтов.
Вот бы собрать такой списочек, да в газетках опубликовать. Мол посмотрите люди, какой замечательный у нас Российский поиск. Какие классные ответы вы могли бы получить и какие вы получаете. Есть ли желание там искать?
У яндексов же теперь акции продаются, им такое ни к чему. Глядишь и зачешутся.

Не зачешутся... пока не увидят, что их искатели (или даже кликатели по директу) от них уходят к конкурентам и не первый месяц (а на это больше влияет не качество поиска).

Они по своим т.н. метрикам видят только общее улучшение, а отдельные нежелательные частности считают допустимыми и якобы проверяют потом:

Мы очень тщательно отслеживаем долю документов, не попавших в выдачу, и если обнаруживаем качественный документ, который мы незаслуженно запессимизировали, мы вносим соотвествующие изменения в алгоритмы. И могу с уверенностью сказать, что доля таких сайтов у нас очень маленькая. Мы тщательно следим, чтобы она не увеличивалась, мы стремимся к тому, чтобы она уменьшалась. http://roem.ru/2009/11/23/shestnadtsat_voprosov_yandexu/

и на всякий случай никакого конкретного % не названо.

смотрю топ по одному слову из своих основных запросов, я там вижу натуральный ад. Такое Г. на первых местах

Есть МФА-ТОПы...

... они не рассматривают выдачу отдельно от Директа.

Антон Белов:
а у меня в опере почему-то отображается

Эт всё игры.XML ... боту одно, посетителю другое... и при этом никакого клоакинга: бот имеет возможность взять тот же контент/шаблоны и выполнить XSLT, но его создателям лень.

webeditor:
его не будет в выдаче. Нет ни единого слова по которому он мог бы показаться в выдаче

http://www.google.com/search?ie=UTF-8&hl=ru&q=site:seo-xslt.narod.ru/DEMO/+%D0%BF%D1%83%D1%81%D1%82%D0%BE%D0%B9

даже если вы запретите поисковым роботам сканировать содержание вашего сайта с помощью файла robots.txt, возможно, что Google обнаружит его другими способами и добавит в индекс. Например, на ваш контент могут ссылаться другие сайты. В результате URL страницы и, возможно, другие общедоступные сведения, такие как якорный текст в ссылках на сайт или заголовок из Open Directory Project, могут появиться в результатах поиска Google http://www.google.com/support/webmasters/bin/answer.py?answer=93708
Если вы обеспокоены содержанием заголовка или фрагмента, тщательно проверьте, не встречается ли такое содержание на вашем сайте. Если оно действительно появляется на ваших страницах, удалите его, и изменения будут отражены в результатах поиска Google после очередного сканирования вашего сайта. Если такого содержания на странице нет, попробуйте выполнить поиск заголовка или фрагмента, заключенного в кавычки, на Google.ru. В результатах будут показаны веб-страницы, на которых этот текст используется для ссылки на ваш сайт. Можно связаться с веб-мастерами этих сайтов и попросить их изменить у себя информацию о вашем сайте. http://www.google.com/support/webmasters/bin/answer.py?hl=ru&answer=35264
LaMamba:
Фото - это тоже контент.

Урл — тоже контент:

http://www.google.com/search?ie=UTF-8&hl=ru&q=site:seo-xslt.narod.ru/DEMO/+%D1%82%D1%80%D0%B0%D1%84%D0%B8%D0%BA

http://www.google.com/search?ie=UTF-8&hl=ru&q=site:seo-xslt.narod.ru/DEMO/+%D0%B8%D0%BD%D0%B4%D0%B5%D0%BA%D1%81&filter=0

http://www.google.com/search?ie=UTF-8&hl=ru&q=site:seo-xslt.narod.ru/DEMO/+%D1%82%D0%B5%D0%BA%D1%81%D1%82&filter=0

осталось только выяснить максимальную длину такого сочинения в урле почти пустой страницы. Может кто уже знает?

А как?

Было свободное время, решил поулучшать сайтик, на котором почти художественный текст, и не может быть более 50 уников ... в HTML-коде страниц уже давно было заметное количество document.write /* тогда Гугль туда не лез */ и ссылка на внешний файл.js

Изменил много <h3> на <h3 title="ссылка" class="anwe" id="zagolovok" onClick="wo('#zagolovok')"> и чего-то подобного, вполне безобидного.

спецсимволов много добавил... именились почти все страницы.

через пару месяцев:

в поиске страниц 0

в их ответе — сцылки на их отношение к сео-сцылкам и кликандерам

(с сайта была единственная сцылка во вне, но к тому времени уже вела на «домен продаётся»)

Вот и что они анализируют? Тупо наличие внешних и чего-нибуть.JS в сочетании с обновлением заметной доли страниц? Или это бот обучился как мог на маленькой обучающей выборке?

Сейчас они не всегда присылают ссылки-намёки на «в чём именно подозревается».

когда стал это вспоминать после недавнего вылета более ценного сайта, по прошлогоднему вылету, переписке и возвращению... стало понятно, что:

  • бот не может воспринимать факты так же как человек, но может оценивать вероятность некоторых (человеческих) фактов — по признакам, доступным алгоритмам
  • скорее всего, эти признаки крайне просты. Анализа кода почти нет, скорее только каких-то его элементов
  • вылет происходит по сумме/комбинации таких механических подозрений

Это косвенно подтверждено, как бы:

Да, кстати, говоря «смотреть», я не имею ввиду «смотреть глазами», это все делают алгоритмы, автоматически. Если документа в базе нет, мы смотрим, известна ли нам ссылка на этот документ. Как правило – известна, нам известно чудовищное количество ссылок, на порядки больше, чем наша база документов. Далее смотрим, а был ли скачен документ по этой ссылке – он ведь мог просто не скачаться по техническим причинам. Далее смотрим, какими метриками этот документ обрабатывался – вдруг он не попал в базу, потому что наши алгоритмы сочли его некачественным? Тут могут сыграть роль ссылки, которые на нем стоят, ссылки, которые на него ведут, дублированность контента, признаки сгенерированности текста, его неестественность – у нас много критериев. Мы считаем определенную сумму баллов, и когда сумма баллов превышает некий порог, мы сайт выбрасываем из поиска. http://roem.ru/2009/11/23/shestnadtsat_voprosov_yandexu/

при этом действует не человек, а бот, которому люди лишь задали тенденции... и если вместе с 18-ю дорами попадётся один не-дор, ну ... что ж бывает, им отписку: Если будете развивать и улучшать, мудрые алгоритмы это заметят и со временем...

мне просто непонятно, почему за косячную оплошность и элементарную невнимательность жесткая пессимизация, а за умышленный спам- топ1-топ2 по всем конкурентным запросам

ВМ и программеры ПС (и их боты) разговаривают на очень разных языках. Пессимизация — не за умысел и не за факт, доступный человеку, а по причине наличия признаков, доступных арифмометру.

tocell:
ну а самито они чего? как же их алгоритмы супер-пуперр???

А задайте им этот вопрос и запостите ответ. (это оне кагбе намекают, что проверяют не так, как человек/браузер)

Pain.Reign:
Я не про сами страницы а про навигацию на верхний уровень.

Тогда не по наведению, а по загрузке страницы, например.

Аякс он для того и надо, что бы поменьше нагружать сервер. Что бы не перегружать все страницу а только нужную часть.

А потом посмотришь на 100 KB HTTP-заголовков после простейших манипуляций в Я.почте ... ну и чего же наэкономили?

А сколько там строк джаваскрипта мне вообще побарабану) он на стороне клиента выполняется)

Это как минимум ещё одно HTTP обращение. И ожидание первой загрузки мегаскрипта.

То хотите через Аякс, можно и без JS, пример — http://seo-xslt.narod.ru/DEMO/perelinkovka-gavno.xml

покажет и при выключенном в браузере выполнении скриптов, но не с плагином NoScript… если не залезть в его изначальные настройки.

Sandalia:
надо просто смириться

Зачем?

лучшие сайты под фильтр не попадают

Это опровергает сам же Сегалович:

Мы очень тщательно отслеживаем долю документов, не попавших в выдачу, и если обнаруживаем качественный документ, который мы незаслуженно запессимизировали, мы вносим соотвествующие изменения в алгоритмы. И могу с уверенностью сказать, что доля таких сайтов у нас очень маленькая. Мы тщательно следим, чтобы она не увеличивалась, мы стремимся к тому, чтобы она уменьшалась.

Интересно, 3% или 7?

Или 0.1%, но по их же всегда правильному 🙅 автоматическому определению?

А про то, что такое «хороший авторский контент», дал понять, что ... его распознавание не является их реальной целью, ну не считают они это выполнимым:

мы научились хорошо отличать спам от не-спама. За этим мы как-то более-менее следим, это для нас очень важный показатель, мы стараемся, там выбрасывать. А вот выделить истинный, качественный, хороший авторский контент трудно по одной простой причине – для того, чтобы его выделить, надо, чтобы люди, которые смотрят на него, оценивают его, они хорошо в нем разбирались. Это просто очень дорого сделать.

http://www.echo.msk.ru/programs/dozor/751913-echo/

Им надо (без лишних затрат) быть популярными, а это не синоним качества. Так что у ГСтроя большие перспективы, и это почти во всём мире так.

Pain.Reign:
поскольку аякс это джаваскрипт я подозреваю, что поисковая система не будет видеть этих обратных ссылок на категории

Выполнения XSLT ими тоже пока не замечено.

Без JS вполне возможно сделать одни ссылки видимыми ПС, другие нет.

Pain.Reign:
при наведении допустим накакой-то елемент, он загружается из базы если нужен. вопервых это и более производительно чем каждый раз грузить и добавляет навигацию

1. Удобно ли это будет простому посетителю?

2. При этом для поиска страница останется без контента. Что боту показать? И как? Вам прятаться или показываться?

vold57:
правила его игры

Любой Сегалович подтвердит, что: современные искалки не умеют воспринимать человеческие факты (правила и интересы), зато умеют быстро просеивать кучу документов, выделяя самые примитивные признаки, доступные алгоритмам. Реальную релевантность вычислить они не могут, только вероятность релевантности.

И фильтры определяют не факт, а вероятность... чего-то вредного. Поэтому, когда человек читает фразу

Мы старается /* хорошая очепятка */ соблюдать баланс интересов и вебмастера, и пользователя поисковой системы. Когда эти интересы вступают в конфликт, то мы всегда решаем этот конфликт в пользу пользователя пусть и в ущерб вебмастеру.

— не следует думать о состоявшихся конфликтах, речь только об их вероятности... с т.з. алгоритмов, обученных как уж получилось.

В ситуациях реальной неопределённости — принимается решение против сайта (факт помню). А точный подсчёт неопределённости (ошибки величины вероятности) скорее всего не делается (это дороже подсчёта самой величины).

Не получится написать какие-то реальные «правила» в человеческих терминах, поскольку действуют-то алгоритмы, в которые программеры/асессоры только пытаются вложить некое отражение «их представлений о качественном сайте» + могут быть и непредвиденные последствия машинного обучения, завязанного на простые признаки.

alger:
Из индекса удаляются сайты, которые монетизируются перегонкой трафика.

Факт монетизации не проверяется, а параноидально предполагается чистильщиками.

Уже убрал ссылки.js на сайты с метрикой. Стояли несколько лет просто так.

Илья Сегалович:
Мы очень тщательно отслеживаем долю документов, не попавших в выдачу, и если обнаруживаем качественный документ, который мы незаслуженно запессимизировали, мы вносим соотвествующие изменения в алгоритмы. И могу с уверенностью сказать, что доля таких сайтов у нас очень маленькая. Мы тщательно следим, чтобы она не увеличивалась, мы стремимся к тому, чтобы она уменьшалась.

Постеснялся назвать реальный % ... и как определяют про «незаслуженно»... пишут алгоритмы, проверяющие деятельность фильтров? Или руками: сколько из 1000 проверенных?..

ya_sinoptik:
кажется мне, что вас всё это гнетёт не по-децки

Но ощущается и некоторое облегчение... не придётся больше уточнять и править давно уже надоевшие тексты... бросал несколько раз, но опять возвращался, их же много читали.

Gagarin12:
То есть отсутствие контента можно частично компенсировать объемным Title?

Не знаю. Ссылками компенсировать можно.

Но а что вам ещё остаётся заполнять, если текста нету?

Пока что у меня такие title:
"Натяжные потолки кухня фото"
"Натяжные потолки гостиная фото"
и т.д. штук 6-7 подобных ключей.

Это более подходит для альтов тех картинок... хотя это же можно упомянуть и в более длинном тайтле документа.

По региону по таким запросам конкуренции нет.

Скорее будет проблема с индексацией нескольких страниц... если тайтлы различаются минимально. Урлы страниц попробуйте сделать максимально различающимися... типа не сваливайте в одну папку.

Estelia:
Чем клиент аргументирует свой "настрой"?

Нефиг портить оптимизаторщиной такой диз!

ps самому стало интересно, как сейчас с необходимостью контента для индексации. Слеплен абсолютно пустой документ для поисковиков

<?xml version="1.0" encoding="UTF-8"?>

<?xml-stylesheet href="user-empty.xsl" type="text/xsl"?>
<html></html>

Появится ли он кода-нибудь в индексе?.. урл тупо собран из http://translit.ru/ и http://translate.google.com/

melkozaur:
Тут имхо случай все-таки нетривиальный, ведь сайт не полгода назад создавался.

Недавно состоялся аналогичный случай с сайтом, которому более 5 лет, бОльшую часть которых ощущалась Я.любовь.

StaroverovMax:
Если есть уникальный и интересный материал, то он должн, как можно быстрее оказаться на крупном и интересном портале (в этом есть логика)

И это же логика ГСтроя.

Если есть уникальный и интересный материал, то, по хорошему, желательно владельцу/автору решать — где ему оказаться.

Кто может сказать зачем Яшке эти первоисточники? Авторов не обижать?

В долговременном плане этот пустяк означает наличие или отсутствие мотива: создавать новый интересный контент. Если этого мотива почти не останется, то яшке придётся кормить своих ползателей уникализированным дерьмецом.

робин гуд:
Зачем произведённый кем-то продукт его владельцу, да ещё в таких количествах? Надо его быстрее скоммуниздить и засунуть на крупный ...

... и пришлось вводить карточки на всё.

Если не самоподдерживается минимальный порядок, то производство прекращается... даже если ПС не желает адекватно исполнять роль судьи и цензора, как они говорят... им же самим скоро контекст не начем будет крутить.

Всего: 13653