lesss

Рейтинг
85
Регистрация
10.06.2010
Clinton:
Сегодня при пакетной проверке каждого текста, вылетает очень много подобных ошибок. Что это значит?

Не удается нормально закачать некоторые страницы, возможно проблемы в плохом интернет-соединении

---------- Добавлено 19.03.2012 в 12:04 ----------

lanz:
у меня уходит в среднем на проверку одной небольшой статьи 30 минут.

30 минут для небольшой статьи это слишком много, скорей всего у вас блокирует проверку какой-то и поисковиков. Если не используете список прокси, то поставьте "Настройки / Другие / Макс. число попыток соверш. запросов к поисковым системам" в 3, "Настройки / Другие / Минимальный интервал между смежными запросами" - в 10.

Если не по может - влючите подробный логинг ("Настройки / Отчет / Вывод в журнал подробной информации о ходе проверки") перед проверкой и посмотрите в журнале, какой из поисковиков вызывает проблему, чтобы в последующим отключить его в настройках ("Настройки / Общие / Поисковые системы").

Меняя какую-либо из настроек из "Настройки / Общие / Основные параметры" проверку нужно запускать по кнопке "Проверить уникальность"

Clinton, подобные ошибки действительно часто присутствуют в небольшом кол-ве, поскольку на это влияет много факторов (Возможно даже спустя некоторое время эти страницы смогут закачаться даже без изменения настроек). На это также может влиять параметр "Кол-во одновременно скачиваемых страниц" - для эксперимента попробуйте уменьшить до 1, получится ли после этого закачать предыдущие страницы. А так - если не устраивает качество закачки по умолчанию, то придется жертвовать увеличением времени проверки через изменение настроек, как у Denis11036

genya_, Возможно проблема в .NET Framework. Но для начала на всякий случай попробуйте переустановить программу, если не поможет - то удалите ее и переустановите .NET Framework. Программе для запуска требуется .NET Framework 2.0 с пакетом обновления 2 (SP2), эта версия доступна здесь

Denis11036, принцип работы программы - выборка фрагментов текста из проверяемого документа и использование их в запросах к поисковым системам. По умолчанию используется 20 выборок на 1000 слов документа. При глубокой проверке используется больше выборок, но соответственно это будет занимать больше времени. Разные программы проверки могут составлять запросы немного по-разному, что разумеется влияет на выдачу поисковиков, и соответственно на итоговую уникальность.

Nimor:
При использовании прокси каптча не определяется? Пишет:
Это каптча, но почему-то не работает с antigate, это у меня или программа при прокси не использует сервис?

Да, при использовании списка прокси распознавание капчи не предусмотрено, в случае защиты от автопоиска в данный момент делается повторная попытка запроса через очередной прокси. В этом плане желательно использовать несколько десятков прокси, а не несколько единиц.

---------- Добавлено 09.02.2012 в 12:53 ----------

yanavit:

Но у меня все сайты на мастерхосте начинают выдавать 403 при многопоточной закачке. (в прогах, которых есть возможность установить 1 поток и таймаут такого не возникает).

Понятно, только таймаут ("Настройки / Другие / Таймаут закачки каждой страницы") задает максимальное время, которое отводится на закачку страницы. Вы же говорите о задержке между закачками страниц - такое в программе не предусмотрено (предусмотрено только при проверке на уникальность, и только для поисковых запросов - "Настройки / Другие / Мин. интервал между смежными запросами к поисковой системе"). Количество потоков, в которых идет закачка задается параметром "Настройки / Другие / Максимальное кол-во одновременно скачиваемых страниц" - вы этот параметр устанавливали в 1, когда говорили об одном потоке ?

narolskay:
У меня один и тот же текст программы Etxt и адвего показывают разный процент уникальности, почему такие показатели могут быть?

Даже одна и та же программа может для одного и того же текста показывать разный процент уникальности (причин много: например, при второй попытке не получилось загрузить страницу, которую удалось закачать в прошлый раз; изменилась немного выдача поисковых систем итд). Поэтому чем сильней настройки в программе - тем меньше разброс в процентах.

---------- Добавлено 08.02.2012 в 11:58 ----------

Nimor:
Скажите как прокси с паролем точно добавить. Добавлял - не работало. Потоков выставлять - сколько и прокси?

Прокси добавляются в обычный текстовый файл, каждый прокси на новой строке в формате:

address:port@login:password

Кол-во потоков можно оставить какое есть - этот параметр не зависит от кол-ва прокси

Clinton:

( Время ожидания операции истекло )

Страница не успела закачаться за максимально отведенное для нее время (задается в "Настройки / Другие / Таймаут закачки каждой страницы") - проблема может быть связана как с сервером, так и с вашим медленным интернетом (в этом случае можно уменьшить параметр "Настройки / Другие / Максимальное кол-во одновременно закачиваемых страниц" и увеличить "Настройки / Другие / Таймаут закачки каждой страницы").

Эквивалентной можно считать ошибку "Thread was being aborting" или "Поток был принудительно завершен"

Clinton:

(403) Запрещено
(500) Внутренняя ошибка сервера

Бывает такое, в этом случае программа будет пытаться закачать страницу из кэша поисковиков.

Проблема связана с сервером, делать ничего не нужно

Clinton:

Too big page

Закачка страниц была отменена из-за ее слишком больших размеров, также делать ничего не нужно

---------- Добавлено 06.02.2012 в 18:10 ----------

Clinton:

Работаю с использованием antigate, часто появляется ошибка:
[10:04:22] $$$ Возникла ошибка при инициализации необходимых данных для Antigate: Удаленный сервер возвратил ошибку: (404) Не найден.

Скорей всего это связано с перегрузкой сервиса antigate, в этом случае происходит повторная попытка связи с этим сервисом, так что опять же самому делать ничего не надо.

Clinton:

Возникла ошибка при загрузке поисковой страницы №14 [20] (187 миллисек.): Yandex ( Удаленный сервер возвратил ошибку: (404) Не найден. )

Это уже может быть защитой поисковых систем от автопоиска, когда они уже даже капчи не предлагают. В этом случае можно увеличить параметр "Настройки / Другие / Минимальный интервал между смежными запросами", чтобы снизить нагрузку на поисковики

harvey birdman:
под гугл сломалась, будете править то или нет?

поправлено

---------- Добавлено 31.01.2012 в 16:11 ----------

Рыська:
Стала сегодня короткие описания проверять. Буквально по два предложения. Проверяет махом, выдает "Уникальность текста равна 100%". Но при этом вместо моего текста выдает выделенную красным фразу "Информация не доступна". Что к чему и почему?

Это просто признак того, что не было найдено ни одной ссылки на веб-документ, с которыми бы можно было сравнить исходный текст. Ограничений на количество символов нет, просто для небольших текстов будет осуществлено минимум запросов вплоть до одного.

Nimor:
Будет ли поддержка XML от Яндекса?

Пока это не планируется, там слишком сильные ограничения по количеству запросов

Nimor:
Логин, пароль не поддерживает?

Поддерживает, в этом случае формат такой:

address:port@login:password
Всего: 432