- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
я надеюсь, Вы в курсе, что есть всякие там алгоритмы типа "шинглов", задача определения дословного плагиата в целом решена, на рынке есть несколько продвигаемых систем
В курсе. Мне руководитель подкидывает мысли типа построения некой аналитической системы поиска отклонений, аномалий в тексте. Какие и как выбирать показатель с текста я без понятия. Наверно что-то в сторону Data|Text Mining Все это мне непонятно и пришлось выбрать ... Вот
попробуйте чуть-чуть изменить условия
Как вариация на тему: еще возможно определять плагиатность документов по близости в какой-нибудь из метрик редактирования (lcs, хэмминг, классической Левенштайна, с переставлениями, с передвижением/копированием/удалением/реверсией блоков, etc)
См. также различные варианты метрик на строках ( http://www.dcs.shef.ac.uk/~sam/stringmetrics.html ), но это далеко не полный список.
В общем, надо определится, что есть плагиат в вашей конкретной области и для выбранного множества входных данных.
аналитической системы поиска отклонений, аномалий в тексте. Какие и как выбирать показатель с текста я без понятия. Наверно что-то в сторону Data|Text Mining
Это может быть также в сторону bias detection, stream comparison/computations, outlayer detection. Но это большая область с мощным мат. аппаратом и очень сильными результатами. В магистерской можно и загрузнуть.
В более прикладной сфере -- это fraud/anomaly detection, но как данные там обычно не тексты рассматриваются.
Если руководитель таки хочет видеть какие-то аномалии, то, наверное, стоит обратить внимание на алгоритмы alignment-а, вычисления строковых метрик и способы их ускорения. Тогда можно считать, что полученная версия документа есть в каком-то смысле аномалией по отношению к исходному тексту (отредактированной в некоторых местах). Только уточните с ним, что он понимает под аномалиями, на всякий случай:)