Hloya

Рейтинг
0
Регистрация
23.08.2008
plast:
Воспользовался услугой размножения статей от Skaizer

Работа выполнена оперативно и качественно. Результатом работы стал архив с 3 файлами: 1. размноженные статьи в количестве 1000 штук. 2. 60 версий статьи, "отфильтрованные методом shingles, размером в 10 слов и схожестью < 50 %" (это формулировка от самого ТС, еще сам не разобрался в сути метода). 3. размноженные названия статьи в количестве 80 штук.

Работой доволен сам и рекомендую другим.

Это о шинглах говорит сотрудник Яндекс:

"Наиболее известным способом обработки почти-дубликатов в веб-поиске, изящно изложенным Андреем Бродером в 1997 году, является метод «шинглов». Очевидно, чтобы повысить вероятность того , чтобы в результате небольших изменения текста контрольная сумма не изменилась, можно попытаться выбрать из текста несколько подстрок. Шингл (от английского shingle – чешуйка, черепичка) это и есть подстрока текста, по которой происходит вычисление контрольной суммы.

Выбирать такие подстроки можно по-разному. Во-первых, можно брать разный шаг, например: символ, слово, предложение. Во-вторых, решить, как они должны идти – внахлест (как раз так и получаются именно «шинглы»), или встык. В-третьих, следует понять, какого размера должны быть подстроки: выбранный размер должен свести к минимуму случайные повторы, то есть должен быть достаточно большим. При этом он должен оставаться и достаточно малым, чтобы типичные изменения текста не разрушили большую часть сигнатур. Конкретные цифры я здесь не привожу, по понятным причинам они не должны афишироваться. В четвертых, надо решить, делать ли их фиксированного размера. И, в-пятых, поскольку возможных подстрочек в тексте чересчур много, надо выбрать – какие запоминать, а какие выбрасывать."
(полная версия http://company.yandex.ru/articles/spamooborona.xml_)

Хотя в статье описан процес обработки почты, то же самое справедливо и к контенту, размещаемому на сайтах (неподтвержденные данные). По своему опыту могу сказать, что размножение на 500-1000 статей никому не нужно. Это всего лишь один этап работы по рерайту.

1. Изменение первичного текста (желательно вручную дать синонимы каждому 2-3 слову (по 2-3 штуки)

2. изменение структуры текста

3. размножение (до 1000 штук)

4. отбор методом шинглов 50-100 (максимум) текстов

при таком подходе тексты не будут склеены (по крайней мере на данный момент это так)

сорри за оффтоп... улыбнуло просто... :)

делайю перевод для медвед

ну вот что-то типа этого: :)

Бэтмен решил навести наконец то порядок в городе! Вместе с лейтенантом Джимом Гордоном и прокурором штата Харви Дентом он собирается справиться с преступностью, которая захватила город. Несмотря на достигнутые успехи, вскоре они замечают, что теперь им противостоит более опасная угроза - криминальный гений Джокер, уже успевший снискать себе зловещую славу греди горожан.

от 0,7 до 1 WMZ за фильм

Добрый день. Можно увидеть пример описания для рерайта?