- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Всерьёз задумался над тем, какой же программе проверки текстов на схожесть доверять?
Провел тест. Опыт проводился на 3-х программах (пронумерую, чтобы потом каждый раз не писать название программы):
1. Hkey Shingle Text Compare,
2. встроенная проверялка текстов в программу Article Copy Master (она же отдельной программкой - Shingles Expert
3. и WSGU Rewriter
Вторая и третья программы - лицензионные, первая - бесплатная.
Бралось 2 текста (похожи, но есть отличия).
Результат:
1. 50% сходства
2. 60% сходства
3. 92,5% сходства
Сравниваю две другие статьи:
1. 28% сходства
2. 44% сходства
3. 85% сходства
В статьях голый текст, тегов при проверке не было.
И так со всеми статьями. Возникает вопрос: какой проге доверять больше? Да, хочу еще добавить, что если брать 2 абсолютно одинаковые статьи или две абсолютно разные, то результаты во всех трех программах одинаковые (+/- 1% погрешность), но если брать одинаковые статьи с изменениями в некоторых местах, то получается такая большая разбежка в результатах.
Если смотреть на глаз, то, на мой взгляд, лучший вариант - первый или второй (какой правильнее определяет даже не знаю, разбежка не большая - на глаз определить сложно), третий, как мне кажется, сильно завышает результат.
Поделитесь своими впечатлениями и мнениями об этих или других программах, пожалуйста. Какой из них Вы отдаете предпочтение и почему? Давайте вместе найдем лучший вариант :)
Вопрос в длине шинглов у меня 10 слов.
Вопрос в длине шинглов у меня 10 слов.
А можно поподробнее, как это влияет на результат и в какую сторону?
Это статья разбивается на части по 10 слов и сравниваются эти части, я правильно понимаю?
И у меня (Article Copy Master/Shingles Expert) длина шингла 10. Но у меня + псевдонормализация, отбрасывание хтмл тегов, отбрасывание стопслов (без этого процент может быть чуть выше на 2-6%)
Было бы правильно для сравнения результатов, отключать галочку в WSGU Rewriter. В этом случае будут использоваться шинглы длиной в 10 слов. Шинглы по своей природе очень чувствительны к перестановкам слов. Что бы снизить влияние перестановок можно использовать например Расстояние Левенштейна (также дистанция Левенштейна, функция Левенштейна, алгоритм Левенштейна или дистанция редактирования) в теории информации и компьютерной лингвистике — это мера разницы двух последовательностей символов (строк) относительно минимального количества операций вставки, удаления и замены, необходимых для перевода одной строки в другую.
А можно поподробнее, как это влияет на результат и в какую сторону?
Это статья разбивается на части по 10 слов и сравниваются эти части, я правильно понимаю?
Статья разбивается на части по 10 слов, но эти части пересекаются с друг-другом.
Если слова,
1 2 3 4 5 6 7 8 9 10 11 12
то Шинглы
1 2 3 4 5 6 7 8 9 10
2 3 4 5 6 7 8 9 10 11
3 4 5 6 7 8 9 10 12
У этих частей берется контрольная сумма и получаются числа. Эти числа и сравниваются с друг-другом.
Hkey добавил 24.04.2008 в 17:27
И у меня (Article Copy Master/Shingles Expert) длина шингла 10. Но у меня + псевдонормализация, отбрасывание хтмл тегов, отбрасывание стопслов (без этого процент может быть чуть выше на 2-6%)
Это у меня тоже отбрасывается, а численно-буквенные последовательности у вас отбрасываются?
Вопрос в длине шинглов у меня 10 слов.
Тут рассуждать следует о методиках сверки текстов, а не об их практической реализации в виде той или иной программы.
Не забывайте, даже если тексты по методу шинглов разные на 99 % это не гарантирует, что по алгоритму того же яндекса спустя несколько лет они тоже будут разными😂.
не помню что за программа, но как то скачал в инете... вроде для преподов ВУЗов или что то такое.
так она проверяет текст и доказывает его неуникальность даже если
1) поменять абзаци местами
2) часть предложений заменить
3) часть оставшихся переписать
я был в шоке
не помню что за программа, но как то скачал в инете... вроде для преподов ВУЗов или что то такое.
так она проверяет текст и доказывает его неуникальность даже если
1) поменять абзаци местами
2) часть предложений заменить
3) часть оставшихся переписать
я был в шоке
Думаю все программы. В этих случаях найдут схожесть.
не помню что за программа, но как то скачал в инете... вроде для преподов ВУЗов или что то такое.
так она проверяет текст и доказывает его неуникальность даже если
1) поменять абзаци местами
2) часть предложений заменить
3) часть оставшихся переписать
я был в шоке
__SPiRiT__, если бы такими методами можно было создать уникальность, то никто бы рерайтинг и копирайтинг бы не заказывал :)
Могу Вас огорчить, что даже если часть слов в тексте заменить на синонимы, то для Яндекса такой текст не будет уникальным. На таких говнотекстах далеко не уехать.
__SPiRiT__, если бы такими методами можно было создать уникальность, то никто бы рерайтинг и копирайтинг бы не заказывал :)
Могу Вас огорчить, что даже если часть слов в тексте заменить на синонимы, то для Яндекса такой текст не будет уникальным. На таких говнотекстах далеко не уехать.
Ребята помощью моего генератора даже Гуглу обманывают на английском ).