А если не секрет откуда база?
У всех ключи работают вы могли ключ генератора и синомайзера перепутать. Поменять прецессор на машине или ломануть висту через биос. Других вариантов нет. Сменился ли HID?
/ru/forum/359446
Думаю в 0.3 будет уже автообновление самой программы и баз к ней.
Версия 0.2.1Изменения:
1. В расширенном режиме не появляется ошибки фокуса при нажатии на кнопки найти следующий и найти прошлый.
2. Слова после нажатия кнопок найти следующий и найти прошлый, выделяются фоном.
3. Исправлена ошибка на некоторых машинах связанная со сбросом набора символов в буфере обмена Windows.
4. Исправлены некоторые другие ошибки.
5. Добавлена система автоисправления орфографических ошибок во входящем файле. Пока использованы только статические методы корректировки (база замен). Автоисправление происходит до синомайзинга текста и поэтому позволяет не только увеличить уникальность и качество текста, но и позволяет произойти другим заменам, которые ранее были невозможны из-за орфографической ошибки ввода. В дальнейщем это позволит улучшить качество снятия омонимии.
http://altalabs.ru/HASyn.rar
посмотрите на:
Базы синонимов?
Да действительно. два раза разделил на 10 вместо одного.
Можете посчитать шинглы вручную, зная, что цифры и слова с длиной меньшей 4ех символов игнорируются.
Hkey добавил 13.06.2009 в 18:20
попытайтесь написать 500 000 символьную базу без ошибок.
Как я подозреваю, шинглес эксперт выводит не процент совпадения шинглов, а процент совпадения слов. Трудно объяснить в чем разница, но попробую. Вариант мой это СХОДСТВО = Число_Совпавших_Шинглов/Общее_Число_шинглов; Вариант шинглес експерт ПРОЦЕНТ_СОВПАДЕНИЯ_ТЕКСТОВ=100%-Число_слов_которых_нет_в_совпавших_шинглах / общее_число_слов.
Другими словами.
1 2 3 4 5 6 7 8 9 10 11 12 13 15 15 16 17 18 19 20 21 22 23
1 2 3 4 5 6 7 8 9 10 11 12а 13 15 15 16 17 18 19 20 21 22 23
первый алгоритм при длине 10 даст 3 слева + 3 справа/13 сходства ~ 50% сходства.
второй алгоритм при длине 10 даст 100% - 1 слово/23 слова ~ 96% схожести.
Какой из алгоритмов лучше? Это холиварный вопрос. Но естественнее брать первый поскольку изначально проверка на шинглы (первая програ была шинглес фри) моделировала Алгоритм поиска Яндексом дублей по ДБ, а сейчас черти что моделирует лиж бы показаться пользователю умнее. Но в следующей версии поставлю опцию.
Hkey добавил 12.06.2009 в 17:57
В хелпе это написано.