Если выбирается из 1000 статей 500, то получим минимум по эвклидовой метрике - Сервисы и программы для работы с SE

Hkey Shingle Text Compare Pro - пакетное сравнение текстов на схожесть

Light Phantom · 2026-07-01T11:07:31.0000000Z

Здравствуйте. Рады предложить Вашему вниманию новую программу по пакетной проверке текстов на схожесть - Hkey Shingle Text Compare Pro . Автор данной программы: Hkey - создатель небезызвестной программы SEO Generator . По договоренности с автором продажей данной программы занимаюсь я, поэтому по всем вопросам приобретения обращаться только ко мне. Возможности программы: проверяет огромное количество текстов на схожесть между собой (каждый текст сравнивается с каждым из всего пакета) методом Шинглов и выдает процент сходства. Из проанализированных текстов можно выбрать N-е число (указывается самостоятельно) самых уникальных и сохранить их в отдельной директории. Проверить можно файлы любого формата. Особенности программы: обладает очень высокой скорость работы. 1000 текстов сравнивается примерно за 5 секунд. 10000 текстов сравнивается около 1-1,5 минут (время, естественно, зависит от мощности Вашего компьютера). Кому будет полезна : - если Вы постоянно занимаетесь размножением статей (для себя и/или под заказ), то Вам необходимо знать какой уникальностью обладают Ваши тексты, да и просто сэкономить массу времени, т. к. программа поможет выбрать из десятков тысяч сгенерированных вариантов N-е число самых уникальных за считанные минуты; - если Вы часто заказываете размножение статей, то данная программа будет Вам полезна для контроля качества выполняемой работы. Программа предельно проста в использовании. Стоимость лицензии: 20$ в год. Полностью функциональная 30-тидневная версия программы: СКАЧАТЬ Скидки: 1. Если вы являетесь счастливым владельцем программы SEO Generator Вы получаете скидку 50% на Hkey Shingle Text Compare Pro. Т.е. программа обойдется Вам всего в 10 у.е.! 2. Если Вы воспользуетесь моей услугой по размножению статей и сделаете заказ более чем на 160$, то программу Hkey Shingle Text Compare Pro Вы получите совершенно бесплатно (и сможете проанализировать качество выполненной мной работы;)). Для приобретения данной программы необходимо перевести 20wmz на кошелек Z407964375720 либо 480 рублей на кошелек R187577023299, в примечании указать "За Shingle Text Compare. mail@mail.ru" (вместо mail@mail.ru подставьте ящик, на который Вам будет отправлен лицензионный ключ). Если покупаете программу со скидкой 50%, как владелец SEO Generator'а, то в примечании дополнительно указывайте первые 8 символов его лицензионного ключа. По всем вопросам обращайтесь: 1. В этот топик 2. В личку 3. В icq: 216618 4. На почту: bestseosoft@gmail.com

222

Hkey

26 февраля 2009, 09:22

#41

Dinapoli:
Разработчик, а когда уже под Вистой работать то будет? Будет вообще такая версия?

Под вистой не запускается? Что пишет?

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))

S

18

Sticket

26 марта 2009, 01:57

#42

Здравствуйте! Вопрос скорее к разработчику. Потестил прогу, свиду вроде супер....но при тщательно анализ возник вопрос.

Заготовил шаблон статьи под размножение (размножаю в SEO Anchor Generator), далее случайной генерацией создал 50, 500 и 1000 вариантов. Первым делом прогу Hkey стал пробовать с 1000 вариантов (разбил скриптом на 1000 файликов, заложил в папочку), прогнал через фильтр, оставил после фильтра 25 вариантов. Средняя схожесть между двумя случайными из оставшихся получилась примерно 18-20% (это по сравнению в Shingle Expert и Night ArticleGEN, сравнивал при длине шингла 10, и далее все также.)

Теперь самое интересное: при тех же операциях с 500 вариантов - получил после фильтра 25 вариантов, средняя схожесть между двумя случайными 14-15%, при тех же операциях с 50 вариантами - оставляю 15, схожесть между двумя случайными ~10%.

Ну и когда сгенерил просто 15 вариантов из шаблона - получил 0-3%.

Собственно вопрос может немного не в тему, но почему так? Это так шалит генератор или все таки алгоритм программы оставляет не совсем то? Я считал что при случайной генерации, генератору все равно сколько вариантов, но если в теории среди 15 вариантов встречаются 2 со схожестью 0% то и в 1000 вариантов должны встречаться.

Могу в личку предоставить шаблон и полученные варианты.

Sticket добавил 26.03.2009 в 05:17

Пораскинув мозгами еще немного, сделал такой вывод....

Ваша прога, (излагаю своими словами без терминов) при наложении фильтра высчитывает схожесть каждой конкретной статьи в среднем со всем пакетом (например из 1000 вариантов) - некий параметр Sr. Накладывая фильтр, выбирая по наименьшему этому параметру, и оставляя 20 из 1000, например, я получаю 20 статей, наиболее уникальные по отношению в среднем ко всему пакету а не между собой. А по сути, для чего я прогоняю по фильтру? - чтобы получить 20 статей наиболее уникальных друг относительно друга. Соответственно, для оставшихся после фильтра, собственная уникальность между собой, так понимаю величина случайная от общего пакета статей. А логично, что чем больше сгенерировано из шаблона вариантов, тем меньше уникальность двух случайно взятых единиц.

Правильные выводы? и Если да - то вопрос - а почему так и можно ли подправить алгоритм?

Может я один с такой задачей - но мне бы хотелось из 1000 вариантов грубо говоря получить 20 наиболее различающихся друг от друга статей.

Идет мыслительный процесс...

XW

7

x-ware

26 марта 2009, 05:26

#43

Sticket, все гораздо проще - у разных программ несколько разный алгоритм подсчета. Отсюда и различные показатели при сравнении. Насчет того, что и из 500 и из 1000 статей выбирается одинаковое количество - это скорее всего плохой шаблон, хотя может и вариант выбора статей хромает.

См. приват еще.

xGen - генератор уникальных статей + утилиты для сравнения методом шинглов (/ru/forum/328262)

S

18

Sticket

26 марта 2009, 13:31

#44

x-ware:
Sticket, все гораздо проще - у разных программ несколько разный алгоритм подсчета. Отсюда и различные показатели при сравнении. Насчет того, что и из 500 и из 1000 статей выбирается одинаковое количество - это скорее всего плохой шаблон, хотя может и вариант выбора статей хромает.

См. приват еще.

1) пробелам не в однинаковом количестве, которое выбирается

У меня задача, из шаблона сгенерить статьи и получить группу статей (кол-во я сам задаю, сколько мне их надо), наиболее уникальных между собой. Я генерю допустим 1000 (или 500) и хочу получить из них, самые уникальные. Т.е. допустим мне надо 15 статей максимально друг на друга непохожих. А получаю я с помощью проги данной проги выборку по непохожести ко всему пакету сразу.

Среди вариантов, которые генерятся, по факту есть статьи со схожесть 0-2% между собой. Может другие проги покажут схожесть 3%, может 4%, может 5%, но не 19%. Дело не в абсолютных значениях. Основная проблема - что из 1000 выбираются статьи, которые между собой имеют неприятный процент схожести 19%, только потому что у них средний % ко всей тысяче например 19%. У других может и еще больше. Но среди 1000 есть статьи (допустим их 15 штук) , у которых относительно друг друга процент схожести 1-3%. Так вот зачем мне эта выборка 15 из 1000, с процентом между собой 19% ???? НА мой взгляд просто прога должна фильтровать не по среднеквадратическому от сравнения текста с другими, а как-то по минимальной схожести

30

Milfgard

30 марта 2009, 11:32

#45

После перехода на летнее время программа говорит "Detect clock manipulation" и не запускается.

Куплена летом, до этого никаких проблем не было. Нужна "в строю" как можно быстрее.

Пишу и фотографирую

222

Hkey

31 марта 2009, 07:34

#46

Sticket:

Среди вариантов, которые генерятся, по факту есть статьи со схожесть 0-2% между собой. Может другие проги покажут схожесть 3%, может 4%, может 5%, но не 19%. Дело не в абсолютных значениях. Основная проблема - что из 1000 выбираются статьи, которые между собой имеют неприятный процент схожести 19%, только потому что у них средний % ко всей тысяче например 19%. У других может и еще больше. Но среди 1000 есть статьи (допустим их 15 штук) , у которых относительно друг друга процент схожести 1-3%. Так вот зачем мне эта выборка 15 из 1000, с процентом между собой 19% ???? НА мой взгляд просто прога должна фильтровать не по среднеквадратическому от сравнения текста с другими, а как-то по минимальной схожести

У вас проблема с шаблоном. Если вам нужно выбрать из 1000 статей 500 то программа сделает так:

она посчитает Эвклидову метрику для каждой статьи X1*X1 + X2*X2 + ... + XN*XN. Найдет из 500 статей самую худшую, потом исключит ее из выборки. Потом заново пересчитает, потом опять исключит и так 500 раз. Т.е. мы получим минимум по эвклидовой метрике.

Теперь про Эвклидову метрику - почему она используется? Потому, что она очень резко растет с возрастанием сходства. Если есть две статьи и процент их сходства 5 то метрика = 25, а если сходство равно 20, то уже 400. Т.е. варианты, когда какае-то пара будет иметь большое сходство, одна из этих статей будет отсеиваться сразу.

S

18

Sticket

2 апреля 2009, 22:38

#47

Hkey:
У вас проблема с шаблоном. Если вам нужно выбрать из 1000 статей 500 то программа сделает так:
она посчитает Эвклидову метрику для каждой статьи X1*X1 + X2*X2 + ... + XN*XN. Найдет из 500 статей самую худшую, потом исключит ее из выборки. Потом заново пересчитает, потом опять исключит и так 500 раз. Т.е. мы получим минимум по эвклидовой метрике.
....

Скажите плиззз, а причем тут может быть шаблон?? Если в результатах генерации 100 вариантов, при ручной проверке, попадаются варианты со схожестью 2% ??? А в выборке их нет?

Шаблон работает. Варианты генерятся. Я беру наугад две статьи из 100 полученных - и получаю схожесть 2%. Но в выборку программы они не попадают. Зато в выборку попадают варианты, где процент схожести значительно выше, например 19%. Как такое может получаться?

2) Может с Эвклидовой метрикой все верно. Вопрос - куда приводит результат. Может неправильно сделаны выводы о необходимости применения Эвклидовой метрики?

У меня, к сожалению закончились RUNs, для версии программы. Выделите плизз неделю еще потестить. Я вам пришлю результаты - и шаблон исходник, и 100 вариантов, и примеры сравнений.

Если неправ все-таки я, и результат программы правильный, с удовольствием ее приобрету, поскольку нуждаюсь очень сильно в подобном инструменте.

222

Hkey

3 апреля 2009, 12:49

#48

Sticket:
Скажите плиззз, а причем тут может быть шаблон?? Если в результатах генерации 100 вариантов, при ручной проверке, попадаются варианты со схожестью 2% ??? А в выборке их нет?

Шаблон работает. Варианты генерятся. Я беру наугад две статьи из 100 полученных - и получаю схожесть 2%. Но в выборку программы они не попадают. Зато в выборку попадают варианты, где процент схожести значительно выше, например 19%. Как такое может получаться?

2) Может с Эвклидовой метрикой все верно. Вопрос - куда приводит результат. Может неправильно сделаны выводы о необходимости применения Эвклидовой метрики?

У меня, к сожалению закончились RUNs, для версии программы. Выделите плизз неделю еще потестить. Я вам пришлю результаты - и шаблон исходник, и 100 вариантов, и примеры сравнений.

Если неправ все-таки я, и результат программы правильный, с удовольствием ее приобрету, поскольку нуждаюсь очень сильно в подобном инструменте.

технически невозможно выделить больше рансов. 100 статей между собой имеют 10.000 сочетаний врядли вручную можно проверить их все. Программа выводит среднее число как по линейной метрике (среднее арифметическое), так и по квадратичной метрике - на эти результаты необходимо обратить внимание.

Эвклидова метрика (X1*X1+X2*X2+X3*X3) используется, например, в теории вероятностей (среднеквадратичное отклонение) и в геометрии (расстояние между точками). Если выводить из тер. вера, то мы выбираем получаем статьи не только более уникальные, но и с большей стабильностью уникальности. Если выводить из геометрии мы получаем те статьи неуникальность, которых в N-1 мерном пространстве имеет наименьшее абсолютное расстояние от нуля.

Манхетенова метрика (X1+X2+X3) используется, как экзотический пример.

Если говорить по простому например, у нас есть 103 статьи. Нужно исключить одну. И две из этих статей имеют 100% сходство с друг другом, а с другими нулевое сходство. С остальными эти две статьи имеют сходство в 2%. Остальные статьи имеют сходство 5% между собой.

Для этих двух статей линейная метрика будет равна 100 + 2*100 = 300. Для остальных 2*2+100*5=504. Т.е. мы исключим из одну статей "большой группы". Хотя по факту нужно исключить одну из статей малой группы так как они 100% дубли друг-друга. Квадратичная метрика для первых двух статей будет равна 100*100 + 2*2*100 = 10400, остальных 2*2*2+100*25=2508. Т.е. мы исключим одну статью из "малой группы", стопроцентного клона, что нам и нужно было.

S

18

Sticket

27 мая 2009, 23:04

#49

Купил, пользовался 1,5 месяца, в принципе неплохо. Но теперь пошел сплошной сбой. ЗАгружаю тексты, пытаюсь наложить фильтр - программа вылетает "Access violation бла бла...". Light Phantom как то раньше пояснял что такая реакция можетбыть на спецсимволы. Но теперь вылетает на все подряд, даже на те тексты, которые раньше проходили отбор. Разработчики или кто то - помогите плиззз! Остался, как без рук, в самый нужный момент. Есть подозрения: эффект похож на то - когда кончилась лицензия в демо-версии, тогда вылетало на все подряд. Может регистрационный ключ каким то образом истек???? НА компьютер грешить не могу - все работает исправно. Память протестил.

ХЭЛП!!!

Sticket добавил 28.05.2009 в 14:38

Свою просьбу снимаю. С работоспособностью проги все ок. Опять закралс спецсимвол, на этот раз что то типа перевода строки ...может \r или \n . Когда этот момент отловил прога стала работь. Хотя конечно как вариант - для Hkey все таки подумать - сделать защиту, чтобы не выносило так на спецсимволы :(

РАБОТАТЬ СТАНЕТ ПРИЯТНЕЕ! Обзор презентации бета-версии Яндекс.Островов Минусинск: Оставь «Надежду» всяк,

222

Hkey

29 мая 2009, 20:10

#50

Sticket:

Sticket добавил 28.05.2009 в 14:38
Свою просьбу снимаю. С работоспособностью проги все ок. Опять закралс спецсимвол, на этот раз что то типа перевода строки ...может \r или \n . Когда этот момент отловил прога стала работь. Хотя конечно как вариант - для Hkey все таки подумать - сделать защиту, чтобы не выносило так на спецсимволы :(

Сделаю, когда закончу синомайзер. Думаю завтра же первая публичная версия будет.

Open AI тестирует память для ChatGPT

Что такое Power BI и зачем это нужно бизнесу

Hkey Shingle Text Compare Pro - пакетное сравнение текстов на схожесть