Может быть и так, не спорю:) Но речь то больше о том почему Антиплагиат те же самые картинки определяет как уникальные, если уж основан на Гугловской проверке. Что-то тут не стыкуется... Проще уж на самом Гугл проверять:)
Проверка уникальности изображений, конечно, дело не первой важности, а может быть, даже и не десятой, но... Но как-то странно она у Вас "основана на images.google.ru". Дело в том, что Антиплагиатная проверка чаще всего говорит, что то или иное изображение уникально, а если смотреть непосредственно на Картинках Гугл, то выходит, что эти же самые картинки НЕ УНИКАЛЬНЫ!
Хотя и с самим Гуглом тоже смешно выходит))) Если загружать на Tineye.com кое-какие из тех картинок, которые Гугл определил как уникальные, то Тинай на некоторые из них находит ссылки!!! Казалось бы у Гугла должны быть огромные базы графики, но выходит, что Tineye знает больше его?! Забавное наблюдение)))
Ох! Ну извините меня, тАрмАзную блАндинку! Все равно не понимаю! Кому лучше? Мне? или для уникальности лучше? Хотя, как я смотрю, все работает четко и не так уж страшен этот черт как его малюют.
Кстати, почему фраза "Уникальность текста N%" в конце отчета о проверке оформлена в виде ссылки на какой-то непонятный и недоступный сайт http://www.sel_res.ru/???history=0&f=1. Это что, наши уникальные (и не очень:)) тексты в какой-то архив помещаются?
Вот еще скромный вопросик: нельзя ли сделать проверку тошноты текста, как на неком популярном онлайн сервисе? Как я понимаю, для этого и к инету ведь даже подключаться не надо? А то выходит так, что текст может оригинальный написан, а с ключами непреднамеренно переборщила.
Это хорошо, что с аптаймом проблем нет, но, боюсь, что Вы меня не совсем верно поняли. Нельзя ли сделать так чтобы программа не ломилась в инет за обновлениями и не доставала бы указанным выше сообщением когда пользователь работает с ней локально?
Хочу сначала про глубину парсинга спросить. Вот цитата из мануала Key Collector:
"Если Вам все же действительно необходимо выполнять глубинное исследование, то рекомендуем поставить глубину = 0, а затем следовать следующему простому алгоритму:
• запускаете пакетный сбор фраз, ждете завершения процесса;
• копируете собранные фразы в буфер обмена (через пункт "Скопировать колонку в буфер обмена" в контекстном меню заголовка колонки "Фраза"), при необходимости удалив заведомо ненужные фразы, чтобы сократить общее время сбора;
• открываете окно пакетного сбора фраз и вставляете из буфера фразы;
• запускаете сбор".
Может я что и не так делаю, но не пойму: какой в этом алгоритме смысл, если эти самые удаленные "заведомо ненужные фразы" потом попросту собираются вновь, а вот новых полезных ключей что-то не видать:-(
И еще... Это, конечно, замечательно, что Вы ввели в Словоб автоматическую проверку обновлений, огромное спасибо Вам за это, но не слишком ли рьяно программа обращается к серверу обновлений? Пока я работаю с таблицой собранных ключей локально, Словоб каждые несколько минут выдает окошко "Возникла ошибка при проверке обновлений: Невозможно разрешить удаленное имя: 'www.key-collector.ru', что очень напрягает:-(
Еще раз извините, но вновь не все понятно😕. Насколько близко они могут соседствовать друг с другом? Может быть, что текст, к примеру, на 10к збп, а одно слово найдено в его начале, а другое в самом конце? Хотя по моему опыту (единичному пока что) программа нашла наибольший процент совпадений по рерайту аккурат в источнике и там эти схожие фразы находятся в разных, значительно отдаленных по времени постах на форуме (это форум forum.searchengines.ru, между прочим).---------- Добавлено 25.10.2013 в 22:12 ----------
А почему тогда проверка на рерайт у меня обнаружила (выделила цветом), например такое – "? Издержки профессии" (здесь вопросительным знаком завершается предыдущее предложение).---------- Добавлено 25.10.2013 в 22:14 ----------
И здесь не все до конца понятно😕. Документы с какими расширениями поддерживаются? Doc, txt или еще какие? И можно ли txt сравнить с doc, например?
ЗЫ. Напишите, пожалуйста, хотя бы тоооонюююсенький мануалчик, а то ведь по крохам да по всему интернету приходится выискивать информацию, и к тому же часто из некомпетентных источников.
2. Извините меня такую непонятливую, но рерайт проверяется без учета шингла в N-ое кол-во слов, так? Просто любое совпадение слов, верно? Хорошо, пусть с одинаковой основой, но по моим наблюдениям предлоги, а также знаки препинания и прочие символы тоже учитываются? В смысле, канонизация здесь тоже не применяется?
Кстати, а почему проверки на уник и рерайт запускаются только по отдельности? Я сейчас не хотела бы приводить в пример аналогичные программы, но кое у кого сразу вместе они и происходят...
3. все равно не поняла:( То есть 2 локальных документа можно сравнить между собой? И для этого обязательно должна работать служба индексирования Windows?
Каюсь, я давно уже с программой не работала, за это время в ней изменения интересные произошли, поэтому вопросов появилось много.
1. на чем основана проверка уникальности изображений?
2. на чем основан метод обнаружения рерайта?
3. что вообще такое "локальная проверка" и чем она отличается от проверки сайта?
Кстати, при запуске этой локальной проверки программа выдает ошибку, связанную с MS NET Framework. При этом еще может сбоить Paint NET, если с помощью его нужно обработать скриншот. Я логи могу выложить, если они необходимы.
И еще мое робкое пожелание авторам: почему бы вам не написать наконец хотя бы маленький мануалчик? IMHO. Неужели легче и интереснее многократно отвечать на одни и те же по сути вопросы? Или это тренд такой?
Ах, какие Вы примеры вкусные приводите, аж сразу кушать захотелось!:)
В теории все понятно вроде, но на практике у меня опять возникают вопросы:(
К примеру, мое стоп словосочетание "для девочек". Почему-то при полном вхождении отмечается "вяжем юбки для девочек" (кстати, " вяжем" у меня тоже используется как стоп слово!), но при этом почему-то не учитываются "школьные юбки для девочек" и "школьная форма для девочек", которые отмечаются только при частичном вхождении!
Но! Если добавить " школьная" и ""школьные" в список стоп-слов, то вышеуказанные фразы тоже учитываются при полном вхождении!
То есть выходит, что кол-во стоп-слов (или плотность этих слов - извините, не знаю как назвать это) в найденной фразе каким-то образом учитывается?
Или вот другой пример. Мой список стоп слов содержит "совать" (если бы вы знали сколько похабщины связано с безобидным на первый взгляд словом "юбка":). В режиме частичного вхождения в список удаляемых фраз попала фраза "Как нарисовать юбку карандашом". И хотя эта фраза мне совсем не нужна, но кто его знает какие другие полезные фразы при этом можно упустить, в том числе и с другими стоп словами!
Я понимаю, что здесь нужен компромисс в любом случае. И нужно много предварительно обдумывать. Я вот размышляю - или мне 3 отдельных стоповых списка для каждого типа очистки сделать? Или же один общий, но хорошо продуманный?
Вообще, что быстрее - каждый раз разгребать вручную кучу мусора или же один раз долго посидеть над стоповым списком, чтобы потом не мучиться?
Здесь, конечно, Key Collector обсуждается, но ведь Словоеб его младший брат, верно?:)
Так вот, читала в мануале про стоп слова, но там не все ясно написано про типы соответствия. А всего, как известно, возможны 3 варианта:
Полное вхождение
Частичное вхождение
Точное соответствие фразы со стоп-фразой.
Вот в чем разница? Подключала свой список, затем пробовала разные типы (это уже после парсинга - как рекомендуют разработчики) - во всех 3 случаях предлагалось удалить из таблицы ровно 169 строк. Выходит, что нет разницы?! Или же это просто случайное совпадение?