Комментарии - WSGU - Профиль вебмастера - Форум об интернет-маркетинге

11 марта 2008, 10:28

Freestyler:
WSGU, может быть стоит сделать выборку по весам слов?

Можно, но это немного другое. Слова должны выбираться следующим способом: берется статистика использования слов в инвертированной базе, отбрасываются стоп слова, прилагательные, узкоспециализированные слова. Затем необходимо взять 2000 слов со средними количествами использования.

Полученную базу слов можно использовать для создания хеш-значения исследуемых на уникальность текстов (получаем цифровую подпись). Затем устанавливаем % схожести, при котором надо бить тревогу.

Вот еще советую почитать http://elar.usu.ru/bitstream/1234.56789/1404/1/IMAT_2007_24.pdf, там про то что можно оценивать дубликаты и во время выдачи результатов. (там в защиту speedre13 есть по поводу "сменить заголовок статьи (полностью)")

Наблюдения за индексацией статей

11 марта 2008, 08:03

Freestyler, да в этой статье есть описания основных методов, но вот меня интересует метод I-Match. Короче говоря нужно выбрать из всего множества слов около 2000 слов, которыми можно описать все статьи в интернете. Понятное дело, что поисковым системам это легко сделать, так как у них есть статистика, а вот как быть простым людям? Хотел бы добавить этот метод в свой сервис, но пока в затруднении с выбором слов.

Наблюдения за индексацией статей

11 марта 2008, 06:08

speedre13, вы слишком не дооцениваете поисковики. Имеются достаточно точные технологии поиска дублей, не так уж и много ресурсов требующие, эта тема уже обсуждалась

Алгоритм поиска дублей статей

4 марта 2008, 17:39

ИМХО:
Хорошая идея! Даже если поисковики используют другие технологии, эта должна давать неплохое ориентировочное ощущение качества рерайта.

А вы в расстоянии Левенштейна за единицу изменяемой величины используете букву или слово? Потому что при сравнении полного текста, при учете возможной синонимизации логичнее было бы использовать слово в качестве неделимого элемента.

За единицу я взял слово

Пакетное сравнение текстов на сходство

4 марта 2008, 10:02

Добавил еще один показатель сходства текстов на основе расстояния Левенштейна - попарное сравнение и пакетное сравнение

Алгоритм поиска дублей статей

4 марта 2008, 10:00

Добавил еще один показатель сходства текстов на основе расстояния Левенштейна - попарное сравнение и пакетное сравнение

Алгоритм поиска дублей статей

29 февраля 2008, 14:32

A_Liss:

Врядли от перестановки местами слов текст будет считаться уникальным.

По большому счету тексты отличаются один от другого составом слов и их расположением. Если считать, что положение слов в тексте не влияет на уникальность, то это будет другая концепция, отличная от концепции, основанной на шинглах. Конечное решение какой концепции доверять - дело каждого.

Как размножить статью для размещения?

29 февраля 2008, 13:12

советую почитать здесь

Алгоритм поиска дублей статей

29 февраля 2008, 12:44

это доказывает только, что у нас разные расчеты

Алгоритм поиска дублей статей

29 февраля 2008, 12:25

Представляю сервис для пакетной оценки текстов на сходство между собой. Программа работает на основе шинглов. Это нужно для оценки работы рерайтеров. Можно приобрести тут себе данную программу без ограничений (но без нормализации) за $10.

Что такое Power BI и зачем это нужно бизнесу

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

WSGU