- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Методы будут разные - в зависимости от указанных акцентов.
Скажем так, как правило, существующие методы не варьируются от вышеназванных акцентов. Разве что есть варирование между между алгоритмами на "похожесть" и на "включение", но если говорить о "небольних изменениях", то класс методов один.
Странно ... если из одного документа вырезан "полезный контент" (отброшены хедеры-футеры), и вставлен внутрь другого документа (обвешан новыми хедерами-футерами), то "вес" общего для этих документов "полезного контента" вполне может быть не больше, чем "вес" окружающих "финтифлюшек" ...
А если - напротив - оба документа не содержат "финтифлюшек", но дублирование происходит с искажениями, то различия документов не могут быть велики. Иначе это уже не будет ДУБЛИРОВАНИЕ ...
Если объем "финтифлюшек", как вы говорите, больше объема дублируемого текста, то вряд ли это можно назвать небольшими изменениями - сами подумайте ;) Если текст включается в другой текст, больший его по объему, то речь идет о включении(см. мое сообщение выше)
Правильно я понял Вас: "лента" из текстов, надерганных (точным копированием!) из разных мест - не является для Вас "дубликатом"?
Это я к тому, что документ-то "нам дан" целиком - вместе с хедерами и футерами ...
ну не все стоит брать, только лишние заморочки. Там кроме баннеров, счетчиков, копирайтов, картинок и разметки мало что найдешь. Вообще непонимаю смысл мучать его и разбирать по полочкам?
.............................
Что же касается метода, преложенного Sergey Ilyinsky, Maxim Kuzmin, Alexander Melkov, Ilya Segalovich, то он заявлен как более быстрый и проще в реализации. Вот только не ясно, как же все-таки выбирать эти слова.
Есть 3 правила:
1. A set of words should cover the maximal possible amount of documents
2. The "quality" of a word in the sense described below should be the highest
3. The number of words in the set should be minimal
Но, к сожалению, конкретики это не прибавляет.
(в сторону: С.В. Ильинский - сын В.И.Левенштейна).
С позволения Сергея изложу кратко здесь.
Пусть "частота" это нормированная внутридокументная частота слова в документа (TF), лежащая в диапазоне 0..1, где 1 частота самого частого слова в документе.
Для каждого слова (однократно) строится распределение документов по такой внутридокументной "частоте".
Алгоритм составления лучшей выборки выглядит так.
Проводим несколько итераций, каждая из которых состоит из двух фаз (1) и (2).
В (1) максимизируется покрытие при фиксированной (ограниченной снизу) точности в (2) максимизируется точность при фиксированном покрытии.
Определим "точность" слова следующим образом: "точность" тем выше, чем меньше встречаемость слова "в дельте-окрестности данного значения частоты" (то есть чем меньше документов с TF равным TFthreshold+-delta). Частоту с наилучшей "точностью" мы называем пороговой и запоминаем для дальнейшего использования в алгоритме (см статью).
После каждой итерации отбрасываем самые "плохие" слова. После последней итерации оставляем достаточно слов для хорошего покрытия.
Этот метод, позволяет, начав с выборки в сотни тысяч слов (см, например, статьи ребят из AOL-а, которые на этом и остановились), оставить набор в 3-5 тысяч, расчет сигнатур по которому с применением полнотекстового индекса осуществляется на миллиардном индексе несколько минут (на нескольких машинах, естественно).
К большому сожалению это все еще нигде не изложено (нет времени), поэтому если будете использовать идею в статьях, просьба обязательно давать ссылку на Яндекс и С.В.Ильинского.
контрольную сумму от строки из конкатенированных, отсортированных в определенном порядке - например, по алфавиту - слов из среднечастотников
AOL-овский алгоритм
.. ...
.. ...
Какая вакансия, если не секрет? 🙄 ;)