Не удается нормально закачать некоторые страницы, возможно проблемы в плохом интернет-соединении---------- Добавлено 19.03.2012 в 12:04 ----------
30 минут для небольшой статьи это слишком много, скорей всего у вас блокирует проверку какой-то и поисковиков. Если не используете список прокси, то поставьте "Настройки / Другие / Макс. число попыток соверш. запросов к поисковым системам" в 3, "Настройки / Другие / Минимальный интервал между смежными запросами" - в 10.
Если не по может - влючите подробный логинг ("Настройки / Отчет / Вывод в журнал подробной информации о ходе проверки") перед проверкой и посмотрите в журнале, какой из поисковиков вызывает проблему, чтобы в последующим отключить его в настройках ("Настройки / Общие / Поисковые системы").
Меняя какую-либо из настроек из "Настройки / Общие / Основные параметры" проверку нужно запускать по кнопке "Проверить уникальность"
Clinton, подобные ошибки действительно часто присутствуют в небольшом кол-ве, поскольку на это влияет много факторов (Возможно даже спустя некоторое время эти страницы смогут закачаться даже без изменения настроек). На это также может влиять параметр "Кол-во одновременно скачиваемых страниц" - для эксперимента попробуйте уменьшить до 1, получится ли после этого закачать предыдущие страницы. А так - если не устраивает качество закачки по умолчанию, то придется жертвовать увеличением времени проверки через изменение настроек, как у Denis11036
genya_, Возможно проблема в .NET Framework. Но для начала на всякий случай попробуйте переустановить программу, если не поможет - то удалите ее и переустановите .NET Framework. Программе для запуска требуется .NET Framework 2.0 с пакетом обновления 2 (SP2), эта версия доступна здесь
Denis11036, принцип работы программы - выборка фрагментов текста из проверяемого документа и использование их в запросах к поисковым системам. По умолчанию используется 20 выборок на 1000 слов документа. При глубокой проверке используется больше выборок, но соответственно это будет занимать больше времени. Разные программы проверки могут составлять запросы немного по-разному, что разумеется влияет на выдачу поисковиков, и соответственно на итоговую уникальность.
Да, при использовании списка прокси распознавание капчи не предусмотрено, в случае защиты от автопоиска в данный момент делается повторная попытка запроса через очередной прокси. В этом плане желательно использовать несколько десятков прокси, а не несколько единиц.---------- Добавлено 09.02.2012 в 12:53 ----------
Понятно, только таймаут ("Настройки / Другие / Таймаут закачки каждой страницы") задает максимальное время, которое отводится на закачку страницы. Вы же говорите о задержке между закачками страниц - такое в программе не предусмотрено (предусмотрено только при проверке на уникальность, и только для поисковых запросов - "Настройки / Другие / Мин. интервал между смежными запросами к поисковой системе"). Количество потоков, в которых идет закачка задается параметром "Настройки / Другие / Максимальное кол-во одновременно скачиваемых страниц" - вы этот параметр устанавливали в 1, когда говорили об одном потоке ?
Даже одна и та же программа может для одного и того же текста показывать разный процент уникальности (причин много: например, при второй попытке не получилось загрузить страницу, которую удалось закачать в прошлый раз; изменилась немного выдача поисковых систем итд). Поэтому чем сильней настройки в программе - тем меньше разброс в процентах.---------- Добавлено 08.02.2012 в 11:58 ----------
Прокси добавляются в обычный текстовый файл, каждый прокси на новой строке в формате:
address:port@login:password
Кол-во потоков можно оставить какое есть - этот параметр не зависит от кол-ва прокси
Страница не успела закачаться за максимально отведенное для нее время (задается в "Настройки / Другие / Таймаут закачки каждой страницы") - проблема может быть связана как с сервером, так и с вашим медленным интернетом (в этом случае можно уменьшить параметр "Настройки / Другие / Максимальное кол-во одновременно закачиваемых страниц" и увеличить "Настройки / Другие / Таймаут закачки каждой страницы").
Эквивалентной можно считать ошибку "Thread was being aborting" или "Поток был принудительно завершен"
Бывает такое, в этом случае программа будет пытаться закачать страницу из кэша поисковиков.
Проблема связана с сервером, делать ничего не нужно
Закачка страниц была отменена из-за ее слишком больших размеров, также делать ничего не нужно---------- Добавлено 06.02.2012 в 18:10 ----------
Скорей всего это связано с перегрузкой сервиса antigate, в этом случае происходит повторная попытка связи с этим сервисом, так что опять же самому делать ничего не надо.
Это уже может быть защитой поисковых систем от автопоиска, когда они уже даже капчи не предлагают. В этом случае можно увеличить параметр "Настройки / Другие / Минимальный интервал между смежными запросами", чтобы снизить нагрузку на поисковики
поправлено---------- Добавлено 31.01.2012 в 16:11 ----------
Это просто признак того, что не было найдено ни одной ссылки на веб-документ, с которыми бы можно было сравнить исходный текст. Ограничений на количество символов нет, просто для небольших текстов будет осуществлено минимум запросов вплоть до одного.
Пока это не планируется, там слишком сильные ограничения по количеству запросов
Поддерживает, в этом случае формат такой: