WSGU

Рейтинг
173
Регистрация
07.10.2007

пользуюсь рбк 3 года: было всякое (почта не работала, сайты постоянно зависали, не грузились). Сейчас вот тормозят. Но в общем впечатления на твердую 4.

1. 25

2. Например домами -> дом, идем-> идти

3. Все оказалось проблематичнее. Чтобы выявить из группы текстов самые уникальные надо сравнить каждую статью относительно другой. Если 3 статьи, то определяем схожесть второй и третей относительно первой; 1 и 3 относительно второй; 1 и 2 относительно третьей. Потом нужно для каждой статьи найти средний показатель уникальности. Сейчас тестирую скорость и оптимизирую алгоритмы. Результаты скоро сообщу. Хотелось бы услышать сколько времени бы (по максимуму) согласны уделять, чтобы выбрать из 1000 например 10 самых уникальных статей?

Нормализация - это нахождение начальной формы слова. По поводу "собирает сам статьи" - уточните, пожайлуста. расставить {end} автоматом можно макросом в ворде например, или чем вы там статьи генератором статей

Как это я упустил такой важный момент? Хотя на прошлой неделе добавлял сайт в каталог - не заметил плохой новости про изменение стоимости регистрации в каталоге. ******* - тут идут русские слова.

Str256:
Тут продставлены 2-е программы для сравнения текстов. Чем ваша программа лучше их?

Есть отличии:

1. Сравниваются сразу множество текстов

2. Используется нормализация.

3. Используется расстояние Левенштейна

4. Программа позволяет выбрать самые уникальные статьи из массы текстов

5. Нет рекламы у платной версии

У меня есть сервис и для попарного сравнения

вышла новая версия 3.1.0

Новое:

1. Теперь вместо сходства используется уникальность

2.Теперь после сравнения статей между собой на уникальность, для каждой статьи расчитывается среднее значение уникальности. Затем эти статьи выводятся в порядке убывания уникальности. (количество вывода и критический порог уникальности можно регулировать).

Это можно использовать для отбора наиболее уникальных статей из массы

Приглашаю потестировать новый подход. Жду Ваших замечаний

Ukrainer:
это достаточно понятный троян

тут сайт никто не ломал
это webmaster сайта ЛОХ. А точнее тот у кого фтп доступы есть к сайту. Т

+1. Администратора пора на пенсию отправлять

Freestyler:
WSGU, может быть стоит сделать выборку по весам слов?

Можно, но это немного другое. Слова должны выбираться следующим способом: берется статистика использования слов в инвертированной базе, отбрасываются стоп слова, прилагательные, узкоспециализированные слова. Затем необходимо взять 2000 слов со средними количествами использования.

Полученную базу слов можно использовать для создания хеш-значения исследуемых на уникальность текстов (получаем цифровую подпись). Затем устанавливаем % схожести, при котором надо бить тревогу.

Вот еще советую почитать http://elar.usu.ru/bitstream/1234.56789/1404/1/IMAT_2007_24.pdf, там про то что можно оценивать дубликаты и во время выдачи результатов. (там в защиту speedre13 есть по поводу "сменить заголовок статьи (полностью)")

Freestyler, да в этой статье есть описания основных методов, но вот меня интересует метод I-Match. Короче говоря нужно выбрать из всего множества слов около 2000 слов, которыми можно описать все статьи в интернете. Понятное дело, что поисковым системам это легко сделать, так как у них есть статистика, а вот как быть простым людям? Хотел бы добавить этот метод в свой сервис, но пока в затруднении с выбором слов.

Всего: 866