Vanich

Vanich
Рейтинг
165
Регистрация
10.07.2007
Должность
пианист в борделе
McSimKammerer:
;postcount=177 как-нибудь прокомментируете?

Вроде в выложенной версии этого уже быть не долно.

Vanich добавил 01.09.2008 в 07:16

McSimKammerer:
Да, проект был сложный, настройки на максимуме, но как все-таки оценивать время генерации? На данный момент непонятно, ждать час, сутки или пару десятилетий.

Эта задача архиважная, но и архисложная. В той версии, что выложил вчера, метод шинглов работает куда быстрее и есть возможность из сгенеренных выбрать самые уникальные. Я так понимаю, там весь тормозеж из-за метода шинглов? Поробуйте сгенерить побольше без него, и выбрать сколько нужно поуникальнее.

Закажите написание одной хорошей статьи, а потом ее размножение. После этого постите уникальные копии куда хотите.

Эту ошибочку убрал, вообще уберу этот файл, им наверное никто не пользуется - там просто фиксируется конкретные цифры схожести для каждой пары файлов.

Еще думаю обрезать файлы, отправленные на сравнение, символов до 3000 - и памяти меньше нужно для хранения, и сравнение быстрее проходит. Просто еще некоторые отправляют на сравнение как отдельные статьи, так и файлик articles.htm, где все статьи в одном файле.

-Leshiy-:
Имеет ли смысл ставить софтинку на четырёх-ядерник, будет ли от этого прирост производительности?
Двух Гб оперативки хватит?

Нет возможности потестировать на разном железе, так что конкретных цифр по улучшению дать не могу, но точно можно сказать, что на мощном компьютере запросы к БД будут выполняться куда быстрее, значит и скорость выгрузки возрастет.

Vanich добавил 31.08.2008 в 20:33

Попробуйте закрыть прогу и запустить заново. До этого какие конкретно действия выполняли?

SEO-vs-WEB:
При выборе 100 самых уникальных статей из 1000 вылазит такой баг

Vanich добавил 31.08.2008 в 20:35

consolopolus:
При проверке уникальности программа вылетает с ошибкой "Out of memory".
Система - XP. Памяти - гигабайт. Файл подкачки - гигабайт.

Сейчас только что своих 300 запустил - прога все проверила без ошибок. У Вас большие статьи, может быть? Скиньте мне их на riv[]onego.ru

1.09 Улучшен алгоритм метода шинглов, работает куда быстрее. Появилась возможность в модуле проверки уникальности отсеивать самые похожие статьи из сгенеренных, т.е. сгенерить скажем 500 и из них выбрать 300 поуникальнее. Это куда быстрее, чем сравнивать на этапе генерации. Перед генерацией теперь предлагаем сохраниться. Плюс другие мелочи.

Обновление доступно из http://voprosov.net.ru/temp/MonkeyWriteADO.rar - это архив не из первого поста, версия с БДЕ видимо больше поддерживаться не будет, скоро наеврное нужно будет новую тему открывать, чтобы новички не путались в обсуждениях проблем с БДЕ на первых страницах.

Даже если Вы аварийно завершаете работу проги, база, с которой Вы работали, т.е. куда вносили варианты предложений, все равно сохраняется. Можете снять задачу, запустить прогу и увидеть все свои предложения. Опасаться нужно глюков БДЕ, на которые мне жаловались несколько раз, когда ни с того ни с сего рабочая база очищается, и если не сохранил, то и сохранять уже нечего :(.

Впрочем, если в версии на предыдущей странице рабочих глюков не обнаружится, про БДЕ можно будет забыть.

В генератор в подписи встроена система массовой проверки статей друг с другом.

antigen:
англоязычные статьи размножаете?

К сожалению, нет.

Так, вроде с этой бедой разобрались, архивчик перезалил. Отписывайтесь, у кого идет-не идет и на каких системах.

Всего: 908