- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Реализован метод шинглов. Со сравнением по выборке из мин-макс 100 случайных фиксированных функций. Алгоритм наиболее жесткой проверки дублей Яндекса.
Отличия от алгоритма Яндекса:
1. Реализовано не 85, а 100 случайных функций (чтобы проценты реализовывать без дробной части)
2. Естественно фиксированные случайные функции разные, но как показывает практика в расхождения для текстов с размером > 2000 символов погрешность не более 10ти процентов.
3. Для хранения переменных используеться меньшее число байт. Для сравнения к-ва текстов меньше 10 000 штук, этот фактор не играет критической роли.
Различает регистр, вырезает Тэги.
Не учитывает словоформы, синонимы, стоп слова. А также замены русских букв на их аглийские аналоги.
Если вы мне предоставите список стоп слов - он будет их игнорировать.
http://bajron.od.ua/?p=31#more-31
270 кб
текстовый файл содержит массив 100 на 10 параметров рандомных функций (многочлены первого порядка).
Нужно для усовершенствование программы, где можно открывать много файлов и проверять каждый с каждым находить среднее и максимальное сходство? И удалять файлы критерием сходства выше заданого. А также выводить для двух текстов более комплексную оценку.
Чего то не вижу оживления в теме. Контент важная вещь в нашей работе.
С помощью проги можно оценивать труд копирайтера, работоспособность програм изменения текстов.
Господа, в течение 2-3 лет будут разработаны программы для авторерайтинга русского текста. По поводу моей программы (КРАСС) скажу, что пойдет в массы уже в этом году.
Необходима какае-то программа/программы оценки схожести текстов - эффективности программ. Моя не моя - без разницы, чтобы на ее результаты можно ссылаться, оценивая качество программ или баз. Чтобы я мог бы доказать превосходство своих коммерческих разработок над конкурирующими. Готов опубликовать исходные коды программы расчета схожести текстов.
P.S. Пишу это потому что сейчас подумал, что зря выложил свою программу:
Конкурент может давить мои аргументы на уровне: твоя программа оценивает и не мудрено, что у тебя результат выше. А сам использовать программу для оценки изменений.
не спешите, пока пробуем что за зверь :)
Необходима какае-то программа/программы оценки схожести текстов
http://www.copyscape.com/
http://www.copyscape.com/
Знаю такого зверя. Но разве там можно сравнить два текста не в индексе?
Разве там проверка максимально близка к проверки яши? Не ясен алгоритм проверки.
С помощью сервиса даже теоритически нельзя пакетно прогнать 100 статей через обе проги и сравнить результат.
Господа, в течение 2-3 лет будут разработаны программы для авторерайтинга русского текста.
уже постепенно пошли ... + многие уже берут текст и "автосинонимом" правят, но имхо слишком грубо и криво ..
из недорогих полноценного продукта не попадалось, бъют собаки текст :)
за хороший скриптик не пожалел бы и нескольких сотен долларов ... а за умную прогу и пару тысяч
уже постепенно пошли ... + многие уже берут текст и "автосинонимом" правят, но имхо слишком грубо и криво ..
из недорогих полноценного продукта не попадалось, бъют собаки текст :)
за хороший скриптик не пожалел бы и нескольких сотен долларов ... а за умную прогу и пару тысяч
Идем идем идем :p !!! так не спеша =) и нас не остановить =))
Зачем защита от авторерайта?? он же для внутренних страниц?
Да и переплюнуть копискейп очень тяжело. Да и нужно ли?
Ну если только точить все под яшу
чего то я не понял... нажимаю на кнопку "compare" - и.... тишина....
Попробовал несколько размноженных статей с помощью своего скрипта - показывает максимум 8%. А чаще 3-4 %. Объективно, конечно, статьи более похожи.
Резюме: текущая версия - это меньше 1% работы, которую нужно проделать, чтоб стать эталонным измерителем уникальности текстов.
Пока нету синонимов и словоформ - грош цена программе.
А то, что вы так красиво и умно описывали в начале топика - не более чем пудра в глаза оптимизаторам. Все это легко напишет обычный студент за полдня.
З.Ы.: программа нужная и желаю вам успехов в разработке; поменьше пустословия и высокомерия - а то как депутат перед народом.
Ну мозги (писалось изначально как юнит тест) были за пару часов написаны.
На счет похожи не похожи - если каждое 9ое слово изменить, то все будет круто, процент будет 0.