Hkey Shingle Text Compare Pro - пакетное сравнение текстов на схожесть

Hkey
На сайте с 30.09.2006
Offline
222
#41
Dinapoli:
Разработчик, а когда уже под Вистой работать то будет? Будет вообще такая версия?

Под вистой не запускается? Что пишет?

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))
S
На сайте с 19.09.2007
Offline
18
#42

Здравствуйте! Вопрос скорее к разработчику. Потестил прогу, свиду вроде супер....но при тщательно анализ возник вопрос.

Заготовил шаблон статьи под размножение (размножаю в SEO Anchor Generator), далее случайной генерацией создал 50, 500 и 1000 вариантов. Первым делом прогу Hkey стал пробовать с 1000 вариантов (разбил скриптом на 1000 файликов, заложил в папочку), прогнал через фильтр, оставил после фильтра 25 вариантов. Средняя схожесть между двумя случайными из оставшихся получилась примерно 18-20% (это по сравнению в Shingle Expert и Night ArticleGEN, сравнивал при длине шингла 10, и далее все также.)

Теперь самое интересное: при тех же операциях с 500 вариантов - получил после фильтра 25 вариантов, средняя схожесть между двумя случайными 14-15%, при тех же операциях с 50 вариантами - оставляю 15, схожесть между двумя случайными ~10%.

Ну и когда сгенерил просто 15 вариантов из шаблона - получил 0-3%.

Собственно вопрос может немного не в тему, но почему так? Это так шалит генератор или все таки алгоритм программы оставляет не совсем то? Я считал что при случайной генерации, генератору все равно сколько вариантов, но если в теории среди 15 вариантов встречаются 2 со схожестью 0% то и в 1000 вариантов должны встречаться.

Могу в личку предоставить шаблон и полученные варианты.

Sticket добавил 26.03.2009 в 05:17

Пораскинув мозгами еще немного, сделал такой вывод....

Ваша прога, (излагаю своими словами без терминов) при наложении фильтра высчитывает схожесть каждой конкретной статьи в среднем со всем пакетом (например из 1000 вариантов) - некий параметр Sr. Накладывая фильтр, выбирая по наименьшему этому параметру, и оставляя 20 из 1000, например, я получаю 20 статей, наиболее уникальные по отношению в среднем ко всему пакету а не между собой. А по сути, для чего я прогоняю по фильтру? - чтобы получить 20 статей наиболее уникальных друг относительно друга. Соответственно, для оставшихся после фильтра, собственная уникальность между собой, так понимаю величина случайная от общего пакета статей. А логично, что чем больше сгенерировано из шаблона вариантов, тем меньше уникальность двух случайно взятых единиц.

Правильные выводы? и Если да - то вопрос - а почему так и можно ли подправить алгоритм?

Может я один с такой задачей - но мне бы хотелось из 1000 вариантов грубо говоря получить 20 наиболее различающихся друг от друга статей.

Идет мыслительный процесс...
XW
На сайте с 21.02.2009
Offline
7
#43

Sticket, все гораздо проще - у разных программ несколько разный алгоритм подсчета. Отсюда и различные показатели при сравнении. Насчет того, что и из 500 и из 1000 статей выбирается одинаковое количество - это скорее всего плохой шаблон, хотя может и вариант выбора статей хромает.

См. приват еще.

xGen - генератор уникальных статей + утилиты для сравнения методом шинглов (/ru/forum/328262)
S
На сайте с 19.09.2007
Offline
18
#44
x-ware:
Sticket, все гораздо проще - у разных программ несколько разный алгоритм подсчета. Отсюда и различные показатели при сравнении. Насчет того, что и из 500 и из 1000 статей выбирается одинаковое количество - это скорее всего плохой шаблон, хотя может и вариант выбора статей хромает.

См. приват еще.

1) пробелам не в однинаковом количестве, которое выбирается

У меня задача, из шаблона сгенерить статьи и получить группу статей (кол-во я сам задаю, сколько мне их надо), наиболее уникальных между собой. Я генерю допустим 1000 (или 500) и хочу получить из них, самые уникальные. Т.е. допустим мне надо 15 статей максимально друг на друга непохожих. А получаю я с помощью проги данной проги выборку по непохожести ко всему пакету сразу.

Среди вариантов, которые генерятся, по факту есть статьи со схожесть 0-2% между собой. Может другие проги покажут схожесть 3%, может 4%, может 5%, но не 19%. Дело не в абсолютных значениях. Основная проблема - что из 1000 выбираются статьи, которые между собой имеют неприятный процент схожести 19%, только потому что у них средний % ко всей тысяче например 19%. У других может и еще больше. Но среди 1000 есть статьи (допустим их 15 штук) , у которых относительно друг друга процент схожести 1-3%. Так вот зачем мне эта выборка 15 из 1000, с процентом между собой 19% ???? НА мой взгляд просто прога должна фильтровать не по среднеквадратическому от сравнения текста с другими, а как-то по минимальной схожести

Milfgard
На сайте с 09.06.2008
Offline
30
#45

После перехода на летнее время программа говорит "Detect clock manipulation" и не запускается.

Куплена летом, до этого никаких проблем не было. Нужна "в строю" как можно быстрее.

Пишу и фотографирую
Hkey
На сайте с 30.09.2006
Offline
222
#46
Sticket:

Среди вариантов, которые генерятся, по факту есть статьи со схожесть 0-2% между собой. Может другие проги покажут схожесть 3%, может 4%, может 5%, но не 19%. Дело не в абсолютных значениях. Основная проблема - что из 1000 выбираются статьи, которые между собой имеют неприятный процент схожести 19%, только потому что у них средний % ко всей тысяче например 19%. У других может и еще больше. Но среди 1000 есть статьи (допустим их 15 штук) , у которых относительно друг друга процент схожести 1-3%. Так вот зачем мне эта выборка 15 из 1000, с процентом между собой 19% ???? НА мой взгляд просто прога должна фильтровать не по среднеквадратическому от сравнения текста с другими, а как-то по минимальной схожести

У вас проблема с шаблоном. Если вам нужно выбрать из 1000 статей 500 то программа сделает так:

она посчитает Эвклидову метрику для каждой статьи X1*X1 + X2*X2 + ... + XN*XN. Найдет из 500 статей самую худшую, потом исключит ее из выборки. Потом заново пересчитает, потом опять исключит и так 500 раз. Т.е. мы получим минимум по эвклидовой метрике.

Теперь про Эвклидову метрику - почему она используется? Потому, что она очень резко растет с возрастанием сходства. Если есть две статьи и процент их сходства 5 то метрика = 25, а если сходство равно 20, то уже 400. Т.е. варианты, когда какае-то пара будет иметь большое сходство, одна из этих статей будет отсеиваться сразу.

S
На сайте с 19.09.2007
Offline
18
#47
Hkey:
У вас проблема с шаблоном. Если вам нужно выбрать из 1000 статей 500 то программа сделает так:
она посчитает Эвклидову метрику для каждой статьи X1*X1 + X2*X2 + ... + XN*XN. Найдет из 500 статей самую худшую, потом исключит ее из выборки. Потом заново пересчитает, потом опять исключит и так 500 раз. Т.е. мы получим минимум по эвклидовой метрике.
....

Скажите плиззз, а причем тут может быть шаблон?? Если в результатах генерации 100 вариантов, при ручной проверке, попадаются варианты со схожестью 2% ??? А в выборке их нет?

Шаблон работает. Варианты генерятся. Я беру наугад две статьи из 100 полученных - и получаю схожесть 2%. Но в выборку программы они не попадают. Зато в выборку попадают варианты, где процент схожести значительно выше, например 19%. Как такое может получаться?

2) Может с Эвклидовой метрикой все верно. Вопрос - куда приводит результат. Может неправильно сделаны выводы о необходимости применения Эвклидовой метрики?

У меня, к сожалению закончились RUNs, для версии программы. Выделите плизз неделю еще потестить. Я вам пришлю результаты - и шаблон исходник, и 100 вариантов, и примеры сравнений.

Если неправ все-таки я, и результат программы правильный, с удовольствием ее приобрету, поскольку нуждаюсь очень сильно в подобном инструменте.

Hkey
На сайте с 30.09.2006
Offline
222
#48
Sticket:
Скажите плиззз, а причем тут может быть шаблон?? Если в результатах генерации 100 вариантов, при ручной проверке, попадаются варианты со схожестью 2% ??? А в выборке их нет?

Шаблон работает. Варианты генерятся. Я беру наугад две статьи из 100 полученных - и получаю схожесть 2%. Но в выборку программы они не попадают. Зато в выборку попадают варианты, где процент схожести значительно выше, например 19%. Как такое может получаться?

2) Может с Эвклидовой метрикой все верно. Вопрос - куда приводит результат. Может неправильно сделаны выводы о необходимости применения Эвклидовой метрики?

У меня, к сожалению закончились RUNs, для версии программы. Выделите плизз неделю еще потестить. Я вам пришлю результаты - и шаблон исходник, и 100 вариантов, и примеры сравнений.

Если неправ все-таки я, и результат программы правильный, с удовольствием ее приобрету, поскольку нуждаюсь очень сильно в подобном инструменте.

технически невозможно выделить больше рансов. 100 статей между собой имеют 10.000 сочетаний врядли вручную можно проверить их все. Программа выводит среднее число как по линейной метрике (среднее арифметическое), так и по квадратичной метрике - на эти результаты необходимо обратить внимание.

Эвклидова метрика (X1*X1+X2*X2+X3*X3) используется, например, в теории вероятностей (среднеквадратичное отклонение) и в геометрии (расстояние между точками). Если выводить из тер. вера, то мы выбираем получаем статьи не только более уникальные, но и с большей стабильностью уникальности. Если выводить из геометрии мы получаем те статьи неуникальность, которых в N-1 мерном пространстве имеет наименьшее абсолютное расстояние от нуля.

Манхетенова метрика (X1+X2+X3) используется, как экзотический пример.

Если говорить по простому например, у нас есть 103 статьи. Нужно исключить одну. И две из этих статей имеют 100% сходство с друг другом, а с другими нулевое сходство. С остальными эти две статьи имеют сходство в 2%. Остальные статьи имеют сходство 5% между собой.

Для этих двух статей линейная метрика будет равна 100 + 2*100 = 300. Для остальных 2*2+100*5=504. Т.е. мы исключим из одну статей "большой группы". Хотя по факту нужно исключить одну из статей малой группы так как они 100% дубли друг-друга. Квадратичная метрика для первых двух статей будет равна 100*100 + 2*2*100 = 10400, остальных 2*2*2+100*25=2508. Т.е. мы исключим одну статью из "малой группы", стопроцентного клона, что нам и нужно было.

S
На сайте с 19.09.2007
Offline
18
#49

Купил, пользовался 1,5 месяца, в принципе неплохо. Но теперь пошел сплошной сбой. ЗАгружаю тексты, пытаюсь наложить фильтр - программа вылетает "Access violation бла бла...". Light Phantom как то раньше пояснял что такая реакция можетбыть на спецсимволы. Но теперь вылетает на все подряд, даже на те тексты, которые раньше проходили отбор. Разработчики или кто то - помогите плиззз! Остался, как без рук, в самый нужный момент. Есть подозрения: эффект похож на то - когда кончилась лицензия в демо-версии, тогда вылетало на все подряд. Может регистрационный ключ каким то образом истек???? НА компьютер грешить не могу - все работает исправно. Память протестил.

ХЭЛП!!!

Sticket добавил 28.05.2009 в 14:38

Свою просьбу снимаю. С работоспособностью проги все ок. Опять закралс спецсимвол, на этот раз что то типа перевода строки ...может \r или \n . Когда этот момент отловил прога стала работь. Хотя конечно как вариант - для Hkey все таки подумать - сделать защиту, чтобы не выносило так на спецсимволы :(

Hkey
На сайте с 30.09.2006
Offline
222
#50
Sticket:

Sticket добавил 28.05.2009 в 14:38
Свою просьбу снимаю. С работоспособностью проги все ок. Опять закралс спецсимвол, на этот раз что то типа перевода строки ...может \r или \n . Когда этот момент отловил прога стала работь. Хотя конечно как вариант - для Hkey все таки подумать - сделать защиту, чтобы не выносило так на спецсимволы :(

Сделаю, когда закончу синомайзер. Думаю завтра же первая публичная версия будет.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий