- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Всерьёз задумался над тем, какой же программе проверки текстов на схожесть доверять?
Провел тест. Опыт проводился на 3-х программах (пронумерую, чтобы потом каждый раз не писать название программы):
1. Hkey Shingle Text Compare,
2. встроенная проверялка текстов в программу Article Copy Master (она же отдельной программкой - Shingles Expert
3. и WSGU Rewriter
Вторая и третья программы - лицензионные, первая - бесплатная.
Бралось 2 текста (похожи, но есть отличия).
Результат:
1. 50% сходства
2. 60% сходства
3. 92,5% сходства
Сравниваю две другие статьи:
1. 28% сходства
2. 44% сходства
3. 85% сходства
В статьях голый текст, тегов при проверке не было.
И так со всеми статьями. Возникает вопрос: какой проге доверять больше? Да, хочу еще добавить, что если брать 2 абсолютно одинаковые статьи или две абсолютно разные, то результаты во всех трех программах одинаковые (+/- 1% погрешность), но если брать одинаковые статьи с изменениями в некоторых местах, то получается такая большая разбежка в результатах.
Если смотреть на глаз, то, на мой взгляд, лучший вариант - первый или второй (какой правильнее определяет даже не знаю, разбежка не большая - на глаз определить сложно), третий, как мне кажется, сильно завышает результат.
Поделитесь своими впечатлениями и мнениями об этих или других программах, пожалуйста. Какой из них Вы отдаете предпочтение и почему? Давайте вместе найдем лучший вариант :)
Вопрос в длине шинглов у меня 10 слов.
Вопрос в длине шинглов у меня 10 слов.
А можно поподробнее, как это влияет на результат и в какую сторону?
Это статья разбивается на части по 10 слов и сравниваются эти части, я правильно понимаю?
И у меня (Article Copy Master/Shingles Expert) длина шингла 10. Но у меня + псевдонормализация, отбрасывание хтмл тегов, отбрасывание стопслов (без этого процент может быть чуть выше на 2-6%)
Было бы правильно для сравнения результатов, отключать галочку в WSGU Rewriter. В этом случае будут использоваться шинглы длиной в 10 слов. Шинглы по своей природе очень чувствительны к перестановкам слов. Что бы снизить влияние перестановок можно использовать например Расстояние Левенштейна (также дистанция Левенштейна, функция Левенштейна, алгоритм Левенштейна или дистанция редактирования) в теории информации и компьютерной лингвистике — это мера разницы двух последовательностей символов (строк) относительно минимального количества операций вставки, удаления и замены, необходимых для перевода одной строки в другую.
А можно поподробнее, как это влияет на результат и в какую сторону?
Это статья разбивается на части по 10 слов и сравниваются эти части, я правильно понимаю?
Статья разбивается на части по 10 слов, но эти части пересекаются с друг-другом.
Если слова,
1 2 3 4 5 6 7 8 9 10 11 12
то Шинглы
1 2 3 4 5 6 7 8 9 10
2 3 4 5 6 7 8 9 10 11
3 4 5 6 7 8 9 10 12
У этих частей берется контрольная сумма и получаются числа. Эти числа и сравниваются с друг-другом.
Hkey добавил 24.04.2008 в 17:27
И у меня (Article Copy Master/Shingles Expert) длина шингла 10. Но у меня + псевдонормализация, отбрасывание хтмл тегов, отбрасывание стопслов (без этого процент может быть чуть выше на 2-6%)
Это у меня тоже отбрасывается, а численно-буквенные последовательности у вас отбрасываются?
Вопрос в длине шинглов у меня 10 слов.
Тут рассуждать следует о методиках сверки текстов, а не об их практической реализации в виде той или иной программы.
Не забывайте, даже если тексты по методу шинглов разные на 99 % это не гарантирует, что по алгоритму того же яндекса спустя несколько лет они тоже будут разными😂.
не помню что за программа, но как то скачал в инете... вроде для преподов ВУЗов или что то такое.
так она проверяет текст и доказывает его неуникальность даже если
1) поменять абзаци местами
2) часть предложений заменить
3) часть оставшихся переписать
я был в шоке
не помню что за программа, но как то скачал в инете... вроде для преподов ВУЗов или что то такое.
так она проверяет текст и доказывает его неуникальность даже если
1) поменять абзаци местами
2) часть предложений заменить
3) часть оставшихся переписать
я был в шоке
Думаю все программы. В этих случаях найдут схожесть.
не помню что за программа, но как то скачал в инете... вроде для преподов ВУЗов или что то такое.
так она проверяет текст и доказывает его неуникальность даже если
1) поменять абзаци местами
2) часть предложений заменить
3) часть оставшихся переписать
я был в шоке
__SPiRiT__, если бы такими методами можно было создать уникальность, то никто бы рерайтинг и копирайтинг бы не заказывал :)
Могу Вас огорчить, что даже если часть слов в тексте заменить на синонимы, то для Яндекса такой текст не будет уникальным. На таких говнотекстах далеко не уехать.
__SPiRiT__, если бы такими методами можно было создать уникальность, то никто бы рерайтинг и копирайтинг бы не заказывал :)
Могу Вас огорчить, что даже если часть слов в тексте заменить на синонимы, то для Яндекса такой текст не будет уникальным. На таких говнотекстах далеко не уехать.
Ребята помощью моего генератора даже Гуглу обманывают на английском ).