пользуюсь рбк 3 года: было всякое (почта не работала, сайты постоянно зависали, не грузились). Сейчас вот тормозят. Но в общем впечатления на твердую 4.
1. 25
2. Например домами -> дом, идем-> идти
3. Все оказалось проблематичнее. Чтобы выявить из группы текстов самые уникальные надо сравнить каждую статью относительно другой. Если 3 статьи, то определяем схожесть второй и третей относительно первой; 1 и 3 относительно второй; 1 и 2 относительно третьей. Потом нужно для каждой статьи найти средний показатель уникальности. Сейчас тестирую скорость и оптимизирую алгоритмы. Результаты скоро сообщу. Хотелось бы услышать сколько времени бы (по максимуму) согласны уделять, чтобы выбрать из 1000 например 10 самых уникальных статей?
Нормализация - это нахождение начальной формы слова. По поводу "собирает сам статьи" - уточните, пожайлуста. расставить {end} автоматом можно макросом в ворде например, или чем вы там статьи генератором статей
Как это я упустил такой важный момент? Хотя на прошлой неделе добавлял сайт в каталог - не заметил плохой новости про изменение стоимости регистрации в каталоге. ******* - тут идут русские слова.
Есть отличии:
1. Сравниваются сразу множество текстов
2. Используется нормализация.
3. Используется расстояние Левенштейна
4. Программа позволяет выбрать самые уникальные статьи из массы текстов
5. Нет рекламы у платной версии
У меня есть сервис и для попарного сравнения
вышла новая версия 3.1.0
Новое:
1. Теперь вместо сходства используется уникальность
2.Теперь после сравнения статей между собой на уникальность, для каждой статьи расчитывается среднее значение уникальности. Затем эти статьи выводятся в порядке убывания уникальности. (количество вывода и критический порог уникальности можно регулировать).
Это можно использовать для отбора наиболее уникальных статей из массы
Приглашаю потестировать новый подход. Жду Ваших замечаний
может мой сервис поможет?
+1. Администратора пора на пенсию отправлять
Можно, но это немного другое. Слова должны выбираться следующим способом: берется статистика использования слов в инвертированной базе, отбрасываются стоп слова, прилагательные, узкоспециализированные слова. Затем необходимо взять 2000 слов со средними количествами использования.
Полученную базу слов можно использовать для создания хеш-значения исследуемых на уникальность текстов (получаем цифровую подпись). Затем устанавливаем % схожести, при котором надо бить тревогу.
Вот еще советую почитать http://elar.usu.ru/bitstream/1234.56789/1404/1/IMAT_2007_24.pdf, там про то что можно оценивать дубликаты и во время выдачи результатов. (там в защиту speedre13 есть по поводу "сменить заголовок статьи (полностью)")
Freestyler, да в этой статье есть описания основных методов, но вот меня интересует метод I-Match. Короче говоря нужно выбрать из всего множества слов около 2000 слов, которыми можно описать все статьи в интернете. Понятное дело, что поисковым системам это легко сделать, так как у них есть статистика, а вот как быть простым людям? Хотел бы добавить этот метод в свой сервис, но пока в затруднении с выбором слов.