Etxt Антиплагиат 2.0. Проверка сайтов на уникальность.

L
На сайте с 10.06.2010
Offline
85
#21
mare01:
Ничего не пойму. Программа не работает. После проверки текста вот какие фразы:
Операция поиска #1
[параметры сравнения:размер шингла = 9]
Ошибка возникла при запуске страницы из запроса №18-2 (125 миллисек.)
Ошибка возникла при запуске страницы из запроса №18-2 (125 миллисек.)
Не удалось загрузить страницу из запроса №18-2 (125 миллисек.)
Ошибка возникла при запуске страницы из запроса №18-2 (125 миллисек.)

Уникальность 100%

Подскажите, что можно сделать? Хотя и пешет уникальность 100%, но проверку текст не проходит.

Если имеется ввиду, что текст не проходит проверку на сайте etxt.ru, то это потому что там размер шингла = 3, а не 9 как у вас. Возможно вы поменяли и другие настройки.

разработчик программы Etxt Антиплагиат
HD
На сайте с 13.04.2009
Offline
20
#22

Что-то последние пару дней программа (версия 2.0.3.0) хреново работает. Для 99% скачиваемых страниц пишет «Не удалось загрузить страницу из запроса №36-3 (14623 миллисек.)», хотя через браузер они открываются за пару секунд. Хотя на прошлой неделе вроде всё ок было...

Возможно дело в том, что проверяю с ноута, инет у которого через прокси (домашняя сеть) на связке HandyCache+Proxifier. Скорость соединения 1Мбит (вх)/8Мбит (исх)/ Но другой софт отлично работает, даже WebMoney. По идее при такой связке Etxt Антиплагиат должен работать в режиме «Прямое подключение к Интернету», но по факту не работает без принудительного указания адреса моего прокси.

Расскажите как вообще устроена работа с прокси у программы и как лучше всё это дело настроить. Пробовал и в Proxifier включать/выключать различные фильтры, и включать/выключать прокси в настройках ИЕ. Всё равно очень большой процент «Не удалось загрузить страницу из запроса». Таймаут закачки 30 сек, максимальное кол-во одновременно закачиваемых страниц — 1-2. При этом через браузер такие страницы грузятся моментально.

Пробовал запускать на компе с прямым подключением, тоже самое, очень много ошибок....

Прошло 20 минут....

Пошаманил с настройками, вроде как большая часть страниц прогружатеся, но проверка статьи 2к символов занимает минут 6-8. Хотя в логах пишется что время ответа страниц не более 3000 мс. В настройках: таймаут закачки 20 сек, максимальное кол-во одновременно закачиваемых страниц — 5-10.

Я так понимаю Etxt Антиплагиат грузит странички через движок IE и дожидается загрузки всех картинок и скриптов? То есть какая-нибудь хреновая картинка может не дать обработать страницу? По каким параметрам страница считается не загруженной? По идее нужно указывать конкретную причину, ибо 99% не загруженных страниц отлично загружаются в браузере.

Посмотрел логи HandyCache. Все страницы отдают статус 200, причём моментально. Так же в логах загруженных страниц в разы больше, чем показывается в журнале.

png etxt1.png
Чёрный балахон не спасёт тебя от страшных снов! Имею ответы на ваши вопросы. Пишите.
L
На сайте с 10.06.2010
Offline
85
#23

Прокси можно указать в настройках программы (Настройки / Сеть)

Программа не качает страницы через IE и не грузит картинки или скрипты.

Сообщения типа "Не удалось загрузить страницу из запроса..." выдаются как раз в случае, когда

причины незагрузки не ясны. Ответ со статусом 200 означает получение только заголовка, само тело страницы было не загружено (или не до конца загружено).

K
На сайте с 11.04.2008
Offline
42
#24

Со вчерашнего дня приложение перестало запускаться.

Идет перечисление всяких негараздов и все такое.

В конце:

При включенной отладке JIT любое необрабатываемое исключение
пересылается отладчику JIT, зарегистрированному на данном компьютере,
вместо того чтобы обрабатываться данным диалоговым окном.

Кто сталкивался с этим и как эту проблему решить?

Переустановка программы проблему не решила.

L
На сайте с 10.06.2010
Offline
85
#25

Пришлите в личку полный лог / скрин ошибки

Удивительно
На сайте с 07.07.2009
Offline
215
#26

По секрету скажу, если использовать запросы вида "предложение1" | "предложение2" | "предложение3" вместо (предложение1) | (предложение2) | (предложение3), то можно при тех же результатах сэкономить кучу трафика и времени клиенту ;)

Качественная семантика недорого ( https://moab.tools/ )
Fad
На сайте с 25.09.2001
Offline
124
Fad
#27
Удивительно:
По секрету скажу, если использовать запросы вида "предложение1" | "предложение2" | "предложение3" вместо (предложение1) | (предложение2) | (предложение3), то можно при тех же результатах сэкономить кучу трафика и времени клиенту ;)

По началу так и делали. Но эта конструкция не позволит найти нечеткие дубликаты.

С уважением, Фадеичев Андрей, руководитель проекта "Биржа контента eTXT.ru" (http://www.etxt.ru/)
Удивительно
На сайте с 07.07.2009
Offline
215
#28
Fad:
По началу так и делали. Но эта конструкция не позволит найти нечеткие дубликаты.

Интересно, в процентном отношении, сколько полных дублей и сколько нечетких дубликатов? 99% к 1% или еще меньше? А затраты трафика и времени можно уменьшить до 90%. Вам виднее, конечно, но в своем софте я придерживаюсь именно такого алгоритма проверки и мне этого достаточно с головой.

K
На сайте с 11.04.2008
Offline
42
#29

lesss,

Пришлите в личку полный лог / скрин ошибки

Отправил...

DS
На сайте с 03.09.2010
Offline
14
#30

Будет ли когдато Етхт портирован на Мак? Нормально пользоваться нельзя(( А в день приходиться проганять за сотню текстов и это жутко неудобно((

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий