bs1

bs1
Рейтинг
51
Регистрация
10.11.2005

Разместился, url с примером понравился, жду обновлений.

Похожая ситуация с 2-мя сайтами, надеюсь пройдёт.

есть ап: мебель, домофоны.

Если потребуется, готов предложить бесплатный хостинг для проведения эксперимента, на 3х разных серверах, пишите в личку если что.

komap:
В итоге, при регистрации второго сайта в ЯК получил отказ только по этой причине. Формулировка была - "нечёткие дубли" Долго смеялся, не ожидал встретить такой маразм.

У меня 14 сайтов зарегистрированы на 1 лицо, все в ЯК, регистрировал год назад, сайты ДЛ, некоммерческие, заявки на регистрацию отправлял друг за другом, странно но такого ответа не было...

Хороший ап. Во вторник заменил текст на морде, сегодня уже изменения в индексе, сайт с 15 на 8 по ВЧ поднялся.

Вот здесь есть информация о технологиях сравнения текстов при определении дублей, правда на примере писем.

В частности:

Супершингл

Если для каждого письма отбирать более одного шингла, мы столкнемся с задачей отождествления документов, имеющих только несколько совпавших шинглов. Как бы мы ни сокращали число шинглов, все равно остается нетривиальный объем работы: данных очень много, даже если отбрасывать слишком редкие и слишком частые шинглы; не существует мгновенно работающего запроса по отождествлению документа и т.д.

Поэтому на практике часто над набором шинглов документа считают еще одну контрольную сумму, так называемый «супершингл». Очевидно тогда совпавшими будут считаться только документы с полностью совпавшими наборами шинглов. Однако при правильном подборе алгоритма и его параметров этого может оказаться достаточно и для работы неплохого детектора рассылок. Задача будет сводиться к вычислению всего одного числа и нахождению его в простейшей базе данных.
Замена супершингла: лексические сигнатуры

Совсем необязательно искать очень похожие документы по контрольным суммам и хитрым подстрочкам. Вполне успешно (по крайней мере в задачах веб-поиска) работают и лексические (основанные на словах) методы. Все разнообразие этих методов сейчас разбивают на два класса: локальные и глобальные лексические сигнатуры.

Если локальные сигнатуры рассматривают документ изолированно от коллекции и пытаются извлечь несколько характерных слов, основываясь только на их статистике в самом документе – TF (характерный пример: взять 5 самых частотных слов в документе длиннее пяти букв и упорядочить их по убыванию частоты), то глобальные либо пытаются при анализе документа учитывать информацию о глобальной статистике слова – IDF, либо, вообще выбирают опорные слова, опираясь исключительно на уже существующий инвертированный индекс (см. метод Яндекса на WWW2002). Для работы глобальных методов необходимо как-то считать общую статистику слов, что в интенсивной антиспамовой системе вполне возможно, например в рамках байесовского подхода.
Антидетекторы. Борьба борьбы с борьбой

Рассмотрим несколько типичных способов, с помощью которых спам-программы могут пытаться обходить детектор рассылки. Речь идет, конечно же, об автоматической генерации небольших изменений для каждого письма или группы писем.

Эту автогенерацию можно разделить на несколько категорий, механизм детектирования которых рассмотрим по отдельности.

1.

Генерация невидимого (или очень слабо видимого) текста средствами HTML-форматирования.

В этом случае, детектирование рассылок по контрольным суммам может быть полностью разрушено. Однако, чтобы добиться такого эффекта, спам-системам придется интенсивно пользоваться разными приемами HTML. Существует целый букет эвристик, связанных с оформлением письма, надежно распознающий эту технику. Это и отсутствие plain-text части и масса специфичных тегов HTML или нестандартные стилей CSS (например visibility: hidden). В любом случае здесь речь идет не столько о расчете сигнатуры, сколько о хорошем детекторе особенностей html-формата.
2.

Генерация видимого «мусора», то есть случайных буквенных цепочек, добавляемых в заголовки и текст письма.

В этом случае существенно помогает исключение из шинглов «несловарных» слов (по сути приравнивание их к пробелу). Обратите внимание что «словарь» в данном случае – это не канонический словарь русского языка Ожегова, а частотный словарь, накопленный по реальным письмам. Кстати, доля несловарных слов с таким «антидетектором» будет необычно высокой, а это может послужить отдельным неплохим признаком.
3.

Вставка пробелов в текст в случайных местах внутри слов и удаление их между словами. Против такого приема может помочь подсчет шинглов с гранулярностью в один символ с предварительно удаленными пробелами (все слова текста склеить в одну цепочку из букв, фиксированным окошком вычислить шинглы). Кроме того, доля «несловарных» слов с таким антидетектором тоже будет аномально высока.
4.

Вставка значащих слов в текст в случайных позициях. Этот вид антидетектора редок, так как затрудняет понимание текста письма. Генерировать же бесконечное количество синтаксически связанных перефразирований спамеры еще не научились. В любом случае с таким антидетектором остается надеяться на снижение эффективности спама и, соответственно, существенное повышение цены вхождения в этот рынок.

....

Статья хорошая, пробовал подобное сам. Следует добавить что ссылки с внутренних индексируются медленно, поэтому хорошо бы помочь Яндексу их скушать, можно разместить получившийся список ссылающихся страниц на каких-нибудь ненужных сайтах/страницах, чтобы быстрее проиндексировались роботом.

В подобном опыте в разных тематиках ТИЦ за полтора месяца вырос на одном проекте до 120, на остальных, вырос на 20-30, дальше не хватило терпения и жалко было денег, бросил эту затею... Наверное нужно попробовать подождать дольше.

У меня такая же проблема, стоит Page Promoter Bar с включенным анализом выдачи, сколько не ввожу число на картинке, оно появляется снова и снова... IP статичный, "вирусов" нет. Отключил Bar, написал в суппорт Яндекса, посмотрим что ответят.

Аналогичная ситуация, проекты, которые активно продвигались или поддерживались по самым конкурентным запросам упали. Сайт из топ10 по офисной мебели ушёл на 28 место :(.

Всего: 154