- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здраствуйте уважаемые Гуру поиска, у меня к Вам вопрос относительно выбора алгоритмов.
Задача стоит так
написать программу, который позволит отлавливать похожие документы (реально это проверка письменных работ студентов на предмет скаиывания :) - для магистерской работы).
Самое важное сейчас - определится с методами и алгоритмами, желательно не сильно сложными, что бы осилить.
На данный момент вижу картину так
1. Выделение из документа списка слов.
2. Удаление стоп слов.
3. (?) Приведение слов к основной форме (если найду словать или простые правила для русского или украинского).
--------------------
4а. Порезка текста на куски (предложения).
5а. Хеширование предложений.
6а. Поиск хешей по базе и внесение в базу.
------
4б. Кластеризация сожержания.
5б. Поиск по базе схожих кластеров для полученых (возможно здесь использовать базы синонимов).
6б. Индексация текста (слово = ID) и внесение в базу.
---------------------
7. Интерпретация результатов схожести частей документа.
Возможно сумирование результатов с учетом размеров документов.
Возможно я сильно ошибаюсь, поправте пожалуйста и посоветуйте алгоритмы, которые реально подойдут, одних только методов кластеризации больше десятка. Кстати, в большенства из них используется мартица схoжести документов (similarity matrix) - есть ли смысл копать в этом направлении.
Заранее спасибо за советы.
Рекомендую почитать http://company.yandex.ru/articles/antispam.xml - про определение дубликатов. Как я понимаю, вполне применимо, вопрос только в степени четкости.
Спасибо, изучил. Для начала то что надо.
Скажите пожалуйста, а есть ищи какие лобо методы/алгоритмы для определения схожести некоторых частей больших документов (без применения шилингов).
И ище, есть ли методы для не просто тупого сравнение кусков текста, а попыток выделить "логику/смысл/направление" самого текста для последующего анализа. Например путем использования :
баз синонимов
толковых словарей
приведения словоформ
других лингвистических баз данных
математики, описывающей данные
интересны как минимум названия методов и алгоритмой, дабы было от чего отталкиватся. Особо интересны направления, связанние с возможность построения обучаемой системы.
Очень надеюсь на ответы и огромное спасибо за специализированный сайт.
Посмотрите еще такой сайт http://shtampomer.narod.ru/
Программка статистического анализа авторских текстов и определения авторства. Я когда-то пытался ей пользоваться по прямому назначению, но у меня тексты слишком короткие были, программка не заработала. Мне кажется, нечеткие дубли она будет определять как одного автора.
Программку посмотрел
Вердикт неутешителен: вроде как все доступно вплоть до исходников, но алгоритм и определение того, что автор программы считает "штампом" не описан и не понятен к сожалению.
А если в общем, то неплохая тулзовина для сбора общей статистики по тексту.
Спасибо.
Посмотри прожку SearchInform
"Распределение Ципфа выражает некие фундаментальные свойства замкнутых связных текстов (такими обычно являются тексты, написанные одним автором, в едином стиле и т.д.), поскольку именно для таких текстов распределение частот слов (если частоты выстроены в порядке их убывания) близко к нему [6]. Таким образом, выполнение этого закона может выступать как критерий системности текста"
интересно, разрабатывал ли кто-нибудь это предположение..
вроде как может сгодиться для построения кластеров (дубликатов, или, например, стилистических, тематических..)
интересно, разрабатывал ли кто-нибудь это предположение..
вроде как может сгодиться для построения кластеров (дубликатов, или, например, стилистических, тематических..)
Не пойдет. Ципф-Мандельброт может сгодиться только как теоретическая основа. Вряд ли с его помощью можно отловить различных авторов. Да даже практически наверняка нельзя.
Шинглы достаточно просты а реализации. Можно также посмотреть SVM (Метод Опорных Векторов) http://svmlight.joachims.org/ (где то встречал статью, где описывается его применение к определению дубликатов, но думаю это не самый легкий вариант), а так же метод k-ближайших соседей (k-Nearest Neighbors, k-NN) (здесь например можно на русском посмотреть http://www.spc-consulting.ru/DMS/Machine%20Learning/MachineLearning/Overviews/KNearestNeighborsIntroductoryOverview%20.htm). Этот метод хорош тем, что при добавлении нового документа его не надо заново обучать на все выборке.
Есть еще куча всего. Но лучше все же воспользоваться шинглами - просто и эффективно. Только вот с выбором порога сходства замучаетесь. Но с другой стороны так во всех методах.
Сложные и навароченные тулы для сематического (по смыслу) сравнения документов с возможностью задавать степень proximity (похожести) интересуют?
Но за деньги... зато в виде SDK. Или готового солюшена. Даже демка есть.
Сложные и навароченные тулы для сематического (по смыслу) сравнения документов с возможностью задавать степень proximity (похожести) интересуют?
Но за деньги... зато в виде SDK. Или готового солюшена. Даже демка есть.
Демку в студию
Сложные и навароченные тулы для сематического (по смыслу) сравнения документов с возможностью задавать степень proximity (похожести) интересуют?
А на основе каких алгоритмов, построен инструмент?