Hkey

Hkey
Рейтинг
222
Регистрация
30.09.2006
Интересы
Java
Нужно спасать Украину

Кому нужно спасать нежизнеспособное государство, кроме киевских взяточников и националистов?

У Украины нет истории...

Хмельницкий - сам к России и приконектился. Да и сам признавал социальную направленность своей освободительной войны. "За мной вся чернь от Киева до Варшавы", то и национальная направленность была больше по православной вере, чем по народности.

Мазепа - версия о том, что им двигали патриотические соображения никогда не была основной, кроме учебников современной истории, выпущенных в Украине. Его соотечественники склонялись к версии, что им двигала личная обида. Да и козаки не были в одном лагере.

В 1917 году на Украине творилось не весь что. Раде никогда не принадлежало и половины Украины. Было еще и три государства Махно, Одесская Советская Республика (ОСР) и Советская республика со столицой в Харькове, не считая белых. Первую раду разогнали не московские советские войска, а отряды из бывшей ОСР, которую подчинили харьковской республике. Врагов у рады было не так много, да и они были все заняты. Советская Россия и Махно воевали с белыми, а ОСР еще и с Румынией и Молдовскими националистами. Учитывая помощь с запада, то при минимальной поддержки населения можно было бы продержаться дольше. Рада провозгласила независимость украины, только в самом конце, когда терять было нечего, чисто для галочки.

Потом Скоропадский, который держался благодаря австрийским и немецским штыкам.

Петлюра - личность вообще сомнительная, его убили в эмиграции за еврейские погромы. Да и поддержкой он пользовался благодаря тому, что был Скоропатскому в опозиции. После победы над Скоропадским особой поддержкой не пользовался.

Кто-то хочет, кроме offlajn поучавствовать

Забыл цену написать. До нового года цена будет 50, цена второй лицензии - 20.

Владимир-C:
Очень различные результаты работы разных программ!

Сравниваю две пары тестовых созданных вручную клонов. В одной паре тексты достаточно близки, в другой более уникальны. Сервис http://www.wsgu.ru/servis/copy.php дает 57% и 2% неуникальности. ShinglesExpert дает 52% и 3%. Программа ShExpertPro дает 17% и 15 процентов.
И непонятно, кому верить...

Разная длина шинглов это раз.

Учет стоп слов и знаков препинания разный это два.

Разное понятие об уникальности процент уникальных шинглов против процента уникального текста это три.

Разная дискретность контрольных сумм, конечно 64тыс вариантов это много, но хеш функция может быть выбрана не правильно и заваливаться к определенным значениям и поэтому могут быть глюки, когда два разных шингла будут иметь одну и туже контрольную сумму. Например, в не публичных версиях моего синомайзера имел место такой глюк, поэтому пришлось использовать CRC64.

Еще могут быть у разработчиков всякие ухищрения, например в 1.5 раза завысить процент, чтобы программа показалась более "умной". Я никого не хочу обидеть, просто предполагаю такой возможности.

Погрешность (доверительный интервал) при выборке 85 шинглов с надежностью 0,90 будет 2%. Т.е. 90% случаев погрешность не превышает двух процентов.

Слава Шевцов:
Что за чушь?

E=mc^2, Энергия равна массе умножить на скорость света в квадрате.

ядерный реактор,

масса фотона.

http://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D0%B2%D0%B8%D0%B2%D0%B0%D0%BB%D0%B5%D0%BD%D1%82%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%BC%D0%B0%D1%81%D1%81%D1%8B_%D0%B8_%D1%8D%D0%BD%D0%B5%D1%80%D0%B3%D0%B8%D0%B8

Night:
Hkey
Насколько отличается результат со случайными функциями от грубого последовательного сравнения всех шинглов длины 10. По скорости для средних статей он, естественно, выигрывает, а по качеству? И отсеиваются ли предлоги, союзы и проч?
ПС. Как у матрицы 85*10 нашли ранг = 85? :)

Конечно грубое последовательное сравнение лучше по качеству хотя и по производительности уступает в тысячи или в сотни раз. Конечно, можно оптимизировать и сначала упорядочить, а потом подряд сравнивать, но производительность все равно будет в десятки раз ниже. С другой стороны никто нас не ограничивает 85 функций, и мы можем делать разнообразные в них перестановки, что позволит бороться с перестановкой слов.

/ru/forum/142486 - бесплатная

/ru/forum/227044 - пакетная

/ru/forum/404781 - встроенная в генератор

Ошибся темой

Скачайте, установите, запустите и выберите режим оптимизатора. Программа оптимизатор бесплатная. http://altalabs.ru/SEO_GEN_Install.exe

Смысл алгоритма такой текст разбивается на куски по 10 слов. Если у двух текстов определенный процент совпадений этих кусков, то тексты считаются копиями.

Остальное все тонкости, например, что что шинглы взахлест считаются или Хеш.

Hkey добавил 03.10.2009 в 00:00

Удивительно:
Это читали?

Статья не понравилась. Полный бред, как будто яндекс ресурсы своих машин не бережет. Один символ у него входит в 84 * 10 контрольных сумм )))

Каждое слово от 10го до N-10 входит 10 шинглов, следовательно, если считать 84 строковых чексумма каждый символ будет входить в 840 чексумм. А, например для CRC, один чек сумм это 20 операций. Символов в тексте пару тысяч. 16 миллионов операций на тысячу символов это круто)))) Я понял почему сайты так долго не индексируются)))

Канонизация текста!!!??? Нафиг нужно, в 500-600 раз быстрее попытаться найти слово в базе, если нет посчитать его чексумм, не обрезая и не канонизируя. Отброс прилагательных сомнителен. Минимум 2% прилагательных в тексте будут иметь омонемию с существительными.

Хеш функции выбраны не лучшим образом. Нет перестановок да и строчные функции чексума в этом случае подходят хуже специальных, да и не напосешь их стоко.

Выборка почему минимумы (в статьях везде максимумы), один и тот-же шингл у автора может дважды входить в выборку.

Откуда число 84? У яши в статьях 85.

----------------------------------------------------------------------------

Моя версия:

Считается для каждого слова чексумм (номер его в словарной базе или чемсумм его как строки) ибо нефиг по 640 раз рассчитывать сумму одного символа. Причем, чем слово более редкое, тем больше номер его в базе.

Берем 85 многочленов первой степени от десяти переменных. a1* X1+ a2* X2 + ... +a10* X10 абсолютно случайных, но так чтобы a>0 и чтобы матрица этих коэффициентов имела ранг 85. Находим их максимумы так, чтобы в них не попадали несколько раз (ну если текст маленький, то можно и несколько раз) одни и теже шинглы. Поскольку слова в базе упорядочены по редкости, то вероятность, что "выстрелит" шингл с редким словом выше.

Считаем хеш этих шингов (хеш сложнее чем случайная функция и выполняется дольше) и сравниваем по хешам этих 85 функций.

Всего: 2639