Я могу помочь, вот моя тема, могу найти повторы, то есть конкретно, что повторяется, а потом можно вычислять отношение кол-ва знаков в повторе к количеству знаков всего текста и умножать на 100, получим процент. Если интересно пишите обсудим.
Спасибо, Торетти, за пожелание удачи. А программа (её не смотрел пока) по описанию для работы программистов больше подходит и сравнивает тоже попарно, но может быть использована и для проверки сходства размноженных статей. Очень хорошо, что есть альтернатива моей услуге.
Спасибо за ваш интерес к моей работе!
Начну попорядку:
1) для bentsioni : вы дали ссылку на Advego Plagiatus, "Advego Plagiatus - программа поиска в интернете частичных или полных копий текстового документа", я ищу совпадения в еще не опубликованных статьях (те, которые находятся на локальном компьютере, а не в сети), то есть вы не правы и программа "Advego Plagiatus отлично работает", но для выполнения другой задачи. Надеюсь понятно объяснил разницу.
2) для уважаемого Торетти: Shinglesexpert, во-первых, не показывает в каких именно последовательностях слов произошло совпадение, во-вторых, даже если бы показывал, сравнивает только два текста между собой за один ход, то есть для 50 статей вам потребуется сделать 1225 подходов (количество сочетаний 2 из 50). Надеюсь сумбур ваших слов вам понятен, и разница между "получить сразу" и "сделать 1225 подходов" тоже ясна.
3) для Ратник: Автор темы, то есть я, мужского пола. Это по поводу слов "А если б ТС хороший копирайтинг заказала"
4) для praide: хотя с профессором спорить нонсенс, но все же программа на которую вы сослались, так же ищет сходства с текстом в интернете (насколько я понял, если я понял неправильно, то пожалуйста поправьте меня).
И теперь для всех кто "не вкурил" (bentsioni:)) Я только начинаю работать над проверкой уникальности текста, только изучаю эту сферу деятельности, моя услуга предназначена главным образом для проверки качества размножения статей и последующего его улучшения.
А в целом спасибо за активное участие и полезные ссылки.
Вопрос состоит в том сколько этих n-словников, если их будет слишком много, то ваша статья покажется не уникальной поисковику (при проверке по шингам будет высокий показатель). Суть моей услуги (я повторяю), в том чтобы найти слабые места статьи.
ellianin добавил 05.05.2009 в 01:18
Спасибо за ваше замечание.
Однако про десять слов это я сказал для примера, я найду повторы, если не будет 10 словных, найду 9 словные, не будет 9 найду 8 и так далее. Вопрос о качестве текста и о месте его происхождения "из какой ямы нужно выкопать текст?" весьма интересный, предлагаю вам попробовать, предоставьте мне 10 размноженных статей и мы с вами посмотрим на сколько они уникальны. И потом как можно выловить яндексом еще не опубликованные в интернете статьи, а речь идет именно о них.
Программы, которые просчитывают уникальность по шинглам в итоге выведут вам только процент схожести статей, а я предлагаю вам посмотреть конкретные повторы.
Спасибо за вопрос.
Во-первых, повторы являются явным признаком неуникальности.
Во-вторых алгоритм проверки по шинглам дает поверхностный анализ и не дает возможности увидеть слабых мест (в которых статья не уникальна), а сбор статистики повторений дает возможность увидеть места в которых ваши статьи пересекаются и устранить эти недостатки, их неуникальность.
Пока для 1000 статей при самом плохом раскладе процент совпадения между двумя случайно выбранными статьями колеблется от 1% до 12% (по версии Shinglesexpert v1.1)
Хотя и жадный, но ради опыта первым трем сделаю за 50% стоимости