Estelle

Рейтинг

Регистрация

30.10.2012

Etxt Антиплагиат 2.0. Проверка сайтов на уникальность.

11 января 2014, 19:53

lesss:
у google, как и у других сервисов, есть определенная погрешность в определении уникальности изображений.

Может быть и так, не спорю:) Но речь то больше о том почему Антиплагиат те же самые картинки определяет как уникальные, если уж основан на Гугловской проверке. Что-то тут не стыкуется... Проще уж на самом Гугл проверять:)

Etxt Антиплагиат 2.0. Проверка сайтов на уникальность.

9 января 2014, 19:37

lesss:

1. Проверка уникальности изображений основана на images.google.ru

Проверка уникальности изображений, конечно, дело не первой важности, а может быть, даже и не десятой, но... Но как-то странно она у Вас "основана на images.google.ru". Дело в том, что Антиплагиатная проверка чаще всего говорит, что то или иное изображение уникально, а если смотреть непосредственно на Картинках Гугл, то выходит, что эти же самые картинки НЕ УНИКАЛЬНЫ!

Хотя и с самим Гуглом тоже смешно выходит))) Если загружать на Tineye.com кое-какие из тех картинок, которые Гугл определил как уникальные, то Тинай на некоторые из них находит ссылки!!! Казалось бы у Гугла должны быть огромные базы графики, но выходит, что Tineye знает больше его?! Забавное наблюдение)))

Etxt Антиплагиат 2.0. Проверка сайтов на уникальность.

3 ноября 2013, 01:06

lesss:
Чем ближе, тем лучше.

Ох! Ну извините меня, тАрмАзную блАндинку! Все равно не понимаю! Кому лучше? Мне? или для уникальности лучше? Хотя, как я смотрю, все работает четко и не так уж страшен этот черт как его малюют.

Кстати, почему фраза "Уникальность текста N%" в конце отчета о проверке оформлена в виде ссылки на какой-то непонятный и недоступный сайт http://www.sel_res.ru/???history=0&f=1. Это что, наши уникальные (и не очень:)) тексты в какой-то архив помещаются?

Вот еще скромный вопросик: нельзя ли сделать проверку тошноты текста, как на неком популярном онлайн сервисе? Как я понимаю, для этого и к инету ведь даже подключаться не надо? А то выходит так, что текст может оригинальный написан, а с ключами непреднамеренно переборщила.

Словоб R.I.P.??

26 октября 2013, 21:16

MyOST:
Estelle, ну с сайтом проблем нет, сайт доступен 99,9% времени по мониторингу, кроме того, мы постоянно с ним работаем в течении дня.

Это хорошо, что с аптаймом проблем нет, но, боюсь, что Вы меня не совсем верно поняли. Нельзя ли сделать так чтобы программа не ломилась в инет за обновлениями и не доставала бы указанным выше сообщением когда пользователь работает с ней локально?

Словоб R.I.P.??

25 октября 2013, 18:23

Хочу сначала про глубину парсинга спросить. Вот цитата из мануала Key Collector:

"Если Вам все же действительно необходимо выполнять глубинное исследование, то рекомендуем поставить глубину = 0, а затем следовать следующему простому алгоритму:

• запускаете пакетный сбор фраз, ждете завершения процесса;

• копируете собранные фразы в буфер обмена (через пункт "Скопировать колонку в буфер обмена" в контекстном меню заголовка колонки "Фраза"), при необходимости удалив заведомо ненужные фразы, чтобы сократить общее время сбора;

• открываете окно пакетного сбора фраз и вставляете из буфера фразы;

• запускаете сбор".

Может я что и не так делаю, но не пойму: какой в этом алгоритме смысл, если эти самые удаленные "заведомо ненужные фразы" потом попросту собираются вновь, а вот новых полезных ключей что-то не видать:-(

И еще... Это, конечно, замечательно, что Вы ввели в Словоб автоматическую проверку обновлений, огромное спасибо Вам за это, но не слишком ли рьяно программа обращается к серверу обновлений? Пока я работаю с таблицой собранных ключей локально, Словоб каждые несколько минут выдает окошко "Возникла ошибка при проверке обновлений: Невозможно разрешить удаленное имя: 'www.key-collector.ru', что очень напрягает:-(

Etxt Антиплагиат 2.0. Проверка сайтов на уникальность.

25 октября 2013, 18:09

lesss:
...Метод обнаружения рерайта основан на обнаружении локальной близости одних и тех же слов...

Еще раз извините, но вновь не все понятно😕. Насколько близко они могут соседствовать друг с другом? Может быть, что текст, к примеру, на 10к збп, а одно слово найдено в его начале, а другое в самом конце? Хотя по моему опыту (единичному пока что) программа нашла наибольший процент совпадений по рерайту аккурат в источнике и там эти схожие фразы находятся в разных, значительно отдаленных по времени постах на форуме (это форум forum.searchengines.ru, между прочим).

---------- Добавлено 25.10.2013 в 22:12 ----------

lesss:
Предлоги и знаки препинания не учитываются...

А почему тогда проверка на рерайт у меня обнаружила (выделила цветом), например такое – "? Издержки профессии" (здесь вопросительным знаком завершается предыдущее предложение).

---------- Добавлено 25.10.2013 в 22:14 ----------

lesss:
Насчет локальной проверки на примере - у вас есть 100 текстов в папке, а есть еще 1 документ, который вы хотите проверить на совпадения по отношению к этим 100.

И здесь не все до конца понятно😕. Документы с какими расширениями поддерживаются? Doc, txt или еще какие? И можно ли txt сравнить с doc, например?

ЗЫ. Напишите, пожалуйста, хотя бы тоооонюююсенький мануалчик, а то ведь по крохам да по всему интернету приходится выискивать информацию, и к тому же часто из некомпетентных источников.

Etxt Антиплагиат 2.0. Проверка сайтов на уникальность.

18 октября 2013, 22:20

lesss:

2. Метод обнаружения рерайта основан на обнаружении локальной близости одних и тех же слов в проверяемом тексте и текстах из интернета. "Под одними и теми же словами" следует понимать слова с одной и той же основой, то есть, например, слово "чемодан" и "чемоданами" будут считаться одинаковыми.
3. "Локальная проверка" - это проверка на уникальность текста не в интернете, а среди документов, которые находятся у вас в компьютере. Есть требование - они должны находиться в проиндексированной системой папке.

2. Извините меня такую непонятливую, но рерайт проверяется без учета шингла в N-ое кол-во слов, так? Просто любое совпадение слов, верно? Хорошо, пусть с одинаковой основой, но по моим наблюдениям предлоги, а также знаки препинания и прочие символы тоже учитываются? В смысле, канонизация здесь тоже не применяется?

Кстати, а почему проверки на уник и рерайт запускаются только по отдельности? Я сейчас не хотела бы приводить в пример аналогичные программы, но кое у кого сразу вместе они и происходят...

3. все равно не поняла:( То есть 2 локальных документа можно сравнить между собой? И для этого обязательно должна работать служба индексирования Windows?

Etxt Антиплагиат 2.0. Проверка сайтов на уникальность.

12 октября 2013, 20:24

Каюсь, я давно уже с программой не работала, за это время в ней изменения интересные произошли, поэтому вопросов появилось много.

1. на чем основана проверка уникальности изображений?

2. на чем основан метод обнаружения рерайта?

3. что вообще такое "локальная проверка" и чем она отличается от проверки сайта?

Кстати, при запуске этой локальной проверки программа выдает ошибку, связанную с MS NET Framework. При этом еще может сбоить Paint NET, если с помощью его нужно обработать скриншот. Я логи могу выложить, если они необходимы.

И еще мое робкое пожелание авторам: почему бы вам не написать наконец хотя бы маленький мануалчик? IMHO. Неужели легче и интереснее многократно отвечать на одни и те же по сути вопросы? Или это тренд такой?

Key Collector - автоматизированная система анализа семантического ядра. Часть 10

27 июля 2013, 17:09

MIND:

Estelle, cмысл таков:

Ах, какие Вы примеры вкусные приводите, аж сразу кушать захотелось!:)

В теории все понятно вроде, но на практике у меня опять возникают вопросы:(

К примеру, мое стоп словосочетание "для девочек". Почему-то при полном вхождении отмечается "вяжем юбки для девочек" (кстати, " вяжем" у меня тоже используется как стоп слово!), но при этом почему-то не учитываются "школьные юбки для девочек" и "школьная форма для девочек", которые отмечаются только при частичном вхождении!

Но! Если добавить " школьная" и ""школьные" в список стоп-слов, то вышеуказанные фразы тоже учитываются при полном вхождении!

То есть выходит, что кол-во стоп-слов (или плотность этих слов - извините, не знаю как назвать это) в найденной фразе каким-то образом учитывается?

Или вот другой пример. Мой список стоп слов содержит "совать" (если бы вы знали сколько похабщины связано с безобидным на первый взгляд словом "юбка":). В режиме частичного вхождения в список удаляемых фраз попала фраза "Как нарисовать юбку карандашом". И хотя эта фраза мне совсем не нужна, но кто его знает какие другие полезные фразы при этом можно упустить, в том числе и с другими стоп словами!

Я понимаю, что здесь нужен компромисс в любом случае. И нужно много предварительно обдумывать. Я вот размышляю - или мне 3 отдельных стоповых списка для каждого типа очистки сделать? Или же один общий, но хорошо продуманный?

Вообще, что быстрее - каждый раз разгребать вручную кучу мусора или же один раз долго посидеть над стоповым списком, чтобы потом не мучиться?

Key Collector - автоматизированная система анализа семантического ядра. Часть 10

26 июля 2013, 23:48

Здесь, конечно, Key Collector обсуждается, но ведь Словоеб его младший брат, верно?:)

Так вот, читала в мануале про стоп слова, но там не все ясно написано про типы соответствия. А всего, как известно, возможны 3 варианта:

Полное вхождение

Частичное вхождение

Точное соответствие фразы со стоп-фразой.

Вот в чем разница? Подключала свой список, затем пробовала разные типы (это уже после парсинга - как рекомендуют разработчики) - во всех 3 случаях предлагалось удалить из таблицы ровно 169 строк. Выходит, что нет разницы?! Или же это просто случайное совпадение?

1 2 3 4 5 6 7 8 9

Всего: 85

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Estelle