Комментарии - WSGU - Профиль вебмастера - Форум об интернет-маркетинге

30 марта 2008, 14:41

пользуюсь рбк 3 года: было всякое (почта не работала, сайты постоянно зависали, не грузились). Сейчас вот тормозят. Но в общем впечатления на твердую 4.

Пакетное сравнение текстов на сходство

28 марта 2008, 07:36

1. 25

2. Например домами -> дом, идем-> идти

3. Все оказалось проблематичнее. Чтобы выявить из группы текстов самые уникальные надо сравнить каждую статью относительно другой. Если 3 статьи, то определяем схожесть второй и третей относительно первой; 1 и 3 относительно второй; 1 и 2 относительно третьей. Потом нужно для каждой статьи найти средний показатель уникальности. Сейчас тестирую скорость и оптимизирую алгоритмы. Результаты скоро сообщу. Хотелось бы услышать сколько времени бы (по максимуму) согласны уделять, чтобы выбрать из 1000 например 10 самых уникальных статей?

Пакетное сравнение текстов на сходство

27 марта 2008, 15:06

Нормализация - это нахождение начальной формы слова. По поводу "собирает сам статьи" - уточните, пожайлуста. расставить {end} автоматом можно макросом в ворде например, или чем вы там статьи генератором статей

Установка Яндекс-Директа на молодом сайте.

27 марта 2008, 13:20

Как это я упустил такой важный момент? Хотя на прошлой неделе добавлял сайт в каталог - не заметил плохой новости про изменение стоимости регистрации в каталоге. ******* - тут идут русские слова.

Пакетное сравнение текстов на сходство

27 марта 2008, 06:08

Str256:
Тут продставлены 2-е программы для сравнения текстов. Чем ваша программа лучше их?

Есть отличии:

1. Сравниваются сразу множество текстов

2. Используется нормализация.

3. Используется расстояние Левенштейна

4. Программа позволяет выбрать самые уникальные статьи из массы текстов

5. Нет рекламы у платной версии

У меня есть сервис и для попарного сравнения

Пакетное сравнение текстов на сходство

26 марта 2008, 19:04

вышла новая версия 3.1.0

Новое:

1. Теперь вместо сходства используется уникальность

2.Теперь после сравнения статей между собой на уникальность, для каждой статьи расчитывается среднее значение уникальности. Затем эти статьи выводятся в порядке убывания уникальности. (количество вывода и критический порог уникальности можно регулировать).

Это можно использовать для отбора наиболее уникальных статей из массы

Приглашаю потестировать новый подход. Жду Ваших замечаний

Кто знает программу проверки качества контента

26 марта 2008, 18:54

может мой сервис поможет?

Сайт Гаранта WMB взломан и загружает троянов!

19 марта 2008, 07:27

Ukrainer:
это достаточно понятный троян

тут сайт никто не ломал
это webmaster сайта ЛОХ. А точнее тот у кого фтп доступы есть к сайту. Т

+1. Администратора пора на пенсию отправлять

Наблюдения за индексацией статей

11 марта 2008, 10:28

Freestyler:
WSGU, может быть стоит сделать выборку по весам слов?

Можно, но это немного другое. Слова должны выбираться следующим способом: берется статистика использования слов в инвертированной базе, отбрасываются стоп слова, прилагательные, узкоспециализированные слова. Затем необходимо взять 2000 слов со средними количествами использования.

Полученную базу слов можно использовать для создания хеш-значения исследуемых на уникальность текстов (получаем цифровую подпись). Затем устанавливаем % схожести, при котором надо бить тревогу.

Вот еще советую почитать http://elar.usu.ru/bitstream/1234.56789/1404/1/IMAT_2007_24.pdf, там про то что можно оценивать дубликаты и во время выдачи результатов. (там в защиту speedre13 есть по поводу "сменить заголовок статьи (полностью)")

Наблюдения за индексацией статей

11 марта 2008, 08:03

Freestyler, да в этой статье есть описания основных методов, но вот меня интересует метод I-Match. Короче говоря нужно выбрать из всего множества слов около 2000 слов, которыми можно описать все статьи в интернете. Понятное дело, что поисковым системам это легко сделать, так как у них есть статистика, а вот как быть простым людям? Хотел бы добавить этот метод в свой сервис, но пока в затруднении с выбором слов.

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Что такое Power BI и зачем это нужно бизнесу

WSGU