Ребята помощью моего генератора даже Гуглу обманывают на английском ).
Думаю все программы. В этих случаях найдут схожесть.
Статья разбивается на части по 10 слов, но эти части пересекаются с друг-другом.
Если слова,
1 2 3 4 5 6 7 8 9 10 11 12
то Шинглы
1 2 3 4 5 6 7 8 9 10
2 3 4 5 6 7 8 9 10 11
3 4 5 6 7 8 9 10 12
У этих частей берется контрольная сумма и получаются числа. Эти числа и сравниваются с друг-другом.
Hkey добавил 24.04.2008 в 17:27
Это у меня тоже отбрасывается, а численно-буквенные последовательности у вас отбрасываются?
Вопрос в длине шинглов у меня 10 слов.
ТИХИЙ УЖОС
Где можно скачать демо?
P.S.
УБЕРИТЕ ИЗ СВОЕЙ ПОДПИСИ слово "ЛУЧШАЯ".
Поскольку это не подтвержденная информация. И она может вводить в заблуждение посетителей данного форума. Чем ваша программа лучше например, Этого отличного многофункционального технически-продвинутого размножателя статей ? ))
Прочитайте "закон о рекламе". Так вот там черным по белому написано, что нельзя использовать эпитеты в превосходной форме по отношению к продукту или услуге.
Рабочая группа textprom.ru участвует активно в тестировании новой версии проги и думает над улучшением алгоритма по увеличению уникальности вместе со мной (работчиком генератора).
Люди работу делают на высоком уровне - рекомендую.
Мой помошник был от командирован к ним. Некоторые их плагины к генератору будут включены в новую версию.
ДЕМО НОВОГО СИНТАКСИСА.
В старом синтаксисе, если генерировать большие тексты черт ногу сломит. Я придумал новый синтаксис. Правила оформления кода несколько напоминают правила нормального оформления кода на языках программирования. В принципе можно будет оформлять и на старом синтаксисе одновременно.
В принципе можно использовать и для упрощения ввода в генератор.
СКАЧАТЬ можно по адресу: http://altalabs.ru/files/ImportTest.rar
Смысл синтаксиса, что элементы и блоки друг от друга отделяются энтерами. А уровень обозначается с помощью пробелов перед конструкцией.
A {1|2 {0|00|000} |3} B {x|y} C
Равносильно
A 1 2 0 00 000 3 B x y C
или
A 1 2 {0|00|000} 3 B {x|y} C
Для обозначения энтеров служат спец. символы как и в ANSI C. '\n'
Также возможны дополнительный "фишки". Удаление прошлых символов.
Например,
Красная {машина |\_3ый автомобиль}
Красн{ая машина|ый автомобиль}
-----------------------------------------------------------------------------------------------
Torneo, Еще не решил.
Nhappy, Зависит от человека его индивидуальных особенностей. Сейчас это около 2 часов. В новой версии постараюсь сократить до 20 минут.
Dyker, уникальность понятие относительное. Нужна метрика счета этой уникальности. А метрику новую придумывать это как производить исследования - нельзя предсказать результат и "планировать".
Как вам сказать? Мне нужно такое творчество, что-бы мой ассистент попытался все это дело скомпоновать на разных вариациях нового языка генератора. И оценил какая из вариаций языка генератора лучше.
Работа у него ужасная, нужно хоть как-то ее приукрасить.
Неа база отчасти их, а ПО я сам писал.