Комментарии - Eugen - Профиль вебмастера - Форум об интернет-маркетинге

Алгоритмы определения нечетких дубликатов

6 августа 2006, 21:09

!Иван FXS:
Мне кажется, сначала нужно сформулировать, что именно Вы понимаете под "нечеткими дубликатами", а потом уже - говорить об "алгоритмах их определения" ...

С определением здесь туговато ;) Обычно придумывается метод, потом в рамках сформулировнной теории дается определение нечеткого дубликата. Главное, чтобы это определение совпадало, в большинстве своем, с оценками экспертов. А на эристическом уровне нечеткими дубликатоми можно называть страницы, которые содержат один и тот же текст, за исключением некоторых изменений, здесь мы не затрагиваем понятие смысла текста, т.к. в принципе можно перефразировать полность текст, не потеряв смысл, но к сожалению анализ смысловой нарузки машине пок ане по зубам ;)

Непонятный фильтр в Google

30 июля 2006, 17:53

Хотелось бы верить, но вряд ли дело именно в этом. Дублирование наверняка не единственный критерий, скорее мы имеем дело с каким-то комплексным фильтром контроля качества контента.

Непонятный фильтр в Google

30 июля 2006, 16:46

Sergey T:
Проверьте вылетевшие страницы тут: http://www.copyscape.com/ :) Большинство страниц которые есть в индексе, но отсутствуют в СЕРПе, будет опознано как дубли!

Я же писал выше, что есть такие сайт, на которых 100% уникальный контент (копискейп поэтому ничего не находит) и при этом такие сайты попали под вышеназванный фильтр.

Непонятный фильтр в Google

30 июля 2006, 14:10

proll:
У меня складивается впечетление, що 28 июня в Google был какой-то большой глюк с базой, и после 26 июля он начал востанавливать базу

Я бы так не сказал, потому как недавно снова сайты под этот фильтр у меня попали. Из старого - ничего не восстановилось.

Непонятный фильтр в Google

29 июля 2006, 17:31

Puxin:
что за сайт не скажу :) работает, не трогай :)

Да трогать я и не собираюсь ;) Я хотел посмотреть на природу проблемы, особенно интересно, что вы смогли восстановится. У меня нет таких примеров "исцеления", поэтому я так хочу взглянуть на сайт, причем абсолютно "без рук", а в форуме обещаю отписаться о всех наблюдениях, не упоминая никакие "явки-пароли" :)

M.TULULU:
Один из моих сайтов полностью выпал из SERPа, т.е. сайт в индексе есть (по site:www.site.com все нормально ищется), но поиск на датацентрах Гугля по точному словосочетанию из 4-6 слов в кавычках выдает страницы с сайта на последних позициях в SERPе Гугля, после всех внешних ссылок на эти страницы.

Т.е. у вас морда не ушла вниз по запросу site? Странно... Кстати, вот недавно новый сайт появился в индексе сразу с "опущенной" мордой (всего 2 страницы в индексе пока что). Я работаю с англоязычными сайтами.

Непонятный фильтр в Google

29 июля 2006, 16:46

А что у вас за сайт? Тематика, какие техники получения линков использовались (покупка, линкообмен, каталоги), насколько уникальный контент? А еще, если сочтете возможным, адрес сайта в личку ;)

Кроме изменения контента на неуникальных страницах (много таких было?), что-то еще предпринимали для выхода из-под фильтра?

Непонятный фильтр в Google

29 июля 2006, 15:27

Puxin:
Мой сайт выскочил 26 июля, чему я очень рад. 30% продаж лишними не будут :)

Т.е. вы попали раньше под действие вышеупомянутого фильтра, а 26го сайт вернулся на прежние позиции?

Кстати, очень интересно послушать дорвейщиков по этому вопросу, у них должна быть богатая статистика :)

Непонятный фильтр в Google

29 июля 2006, 10:40

Постоянно стал сталкиваться с этим фильтром. Причем под раздачу попадают сайты, как со 100% уникальным контентом, так и с дублирующимся (в разной степени). На днях несколько сайтов как раз потеряли морду в выдаче по site: , посещения упали в десятки раз.

Т.е. я считаю, что дело не в контенте, а если совсем уж правильно, то не только в нем. У кого еще какие наблюдения на этот счет? Совместно мы сможем набрать какую-то статистику и понять, как себя вести.

Алгоритмы определения нечетких дубликатов

8 июля 2006, 23:48

AiK:
Интересно, а чём плох вариант сравнения количества употреблений N самых частовстречающихся слов в документе? Гугль очень похоже, что именно так и поступает, а потому документы с малым количеством текста у него в supplemental results попадают.

Плох прежде всего тем, что это легко обойти. Оно и не удивительно, т.к. оперирование идет показателем TF, который очень сильно подвержен влиянию onpage факторов. Гораздо разумнее смотреть на IDF:

http://www.ir.iit.edu/publications/downloads/p171-chowdhury.pdf

Но все зависит от того, какие дубли отлавливаются. Если неумышленные дубли - это одно дела, а спам - совершенно другое.

AdSense - статистика по странам - хм?!

8 июля 2006, 23:34

Зависит от контента сайта, прежде всего от языка. Для англоязычного как правило клики из рунета вообще не засчитываются. Но имхо, не стоит рубить посещения. ЭдСэнс не накладывает ограничений на "чистоту" траффика в геотаргетинговом плане, насколько я знаю. Так что бана за это не будет.

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Eugen