- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
чего то я не понял... нажимаю на кнопку "compare" - и.... тишина....
Там должен процент сходства отображаться.
Там должен процент сходства отображаться.
это я понял... ступил в другом - просто 0% смутило... вот я и подумал, что не работает... потом вставил какую-то абракадабру и понял - работает...
а тестировал и сравнивал описания, которые я приготовил для одного из сайто для прогона по каталогам...
делаю вывод - хорошо подготовил, если 0% схожести то ;-), молодец я...
и еще по юзабилити...
у меня почему то текст из блокнота всталяется кракозябрами :-(
из ЭдитПлюс - нормально...
не очень удобно...
Попробовал несколько размноженных статей с помощью своего скрипта - показывает максимум 8%. А чаще 3-4 %. Объективно, конечно, статьи более похожи.
Насколько я понимаю, должно быть 0%. 10% - это показатель, что яндекс (почти) наверняка посчитает текст дублем.
Но... Насколько я понял, зимой они поставили другой алгоритм отлова дублей, по сравнению с тем, что описывалось раньше. Я подозреваю, что толи они нашли красивое решение ... Толи они нашли некрасивое решение, выдвигая гипотезу, что на дубли надо сравнивать не весь веб, а только его выборку по определенным параметрам, например, коллекцию документов, сидящую на одном ИП, или на доменах, принадлежащих одному лицу, или какие-то комбинации этих факторов.
Насколько я понимаю, должно быть 0%. 10% - это показатель, что яндекс (почти) наверняка посчитает текст дублем.
Но... Насколько я понял, зимой они поставили другой алгоритм отлова дублей, по сравнению с тем, что описывалось раньше. Я подозреваю, что толи они нашли красивое решение ... Толи они нашли некрасивое решение, выдвигая гипотезу, что на дубли надо сравнивать не весь веб, а только его выборку по определенным параметрам, например, коллекцию документов, сидящую на одном ИП, или на доменах, принадлежащих одному лицу, или какие-то комбинации этих факторов.
10% - может быть цитирование одного документа другим. 30-40% думаю допустимо. Я писал, что по шинглам сравнить весь рунет каждый с каждым нельзя. Шинглы - самя жесткая проверка на склейку.
10% - может быть цитирование одного документа другим. 30-40% думаю допустимо. Я писал, что по шинглам сравнить весь рунет каждый с каждым нельзя. Шинглы - самя жесткая проверка на склейку.
Что-то меня сомнения берут по этой фразе...
Точнее что-то меня сомнения стали брать, что вы понимаете, КАК это делает яндекс.
Насколько Я понимаю, он строит шинглы, а в базу пихает каждый 10-й из них. Как только в базу пытается добавиться шингл, который там есть, странички ставятся на "дополнительное обследоваение" (с января 2007, а может несколько раньше). А вот что такое "дополнительное обследование" - вот по поводу этого у меня и возникают вопросы. Какое решение в яндексе умудрились найти...
Что-то меня сомнения берут по этой фразе...
Точнее что-то меня сомнения стали брать, что вы понимаете, КАК это делает яндекс.
Насколько Я понимаю, он строит шинглы, а в базу пихает каждый 10-й из них. Как только в базу пытается добавиться шингл, который там есть, странички ставятся на "дополнительное обследоваение" (с января 2007, а может несколько раньше). А вот что такое "дополнительное обследование" - вот по поводу этого у меня и возникают вопросы. Какое решение в яндексе умудрились найти...
Яша не скрывает Алгоритм - он был придуман не Яндексом.
Береться 85 случайных фиксированных функций и запоминаеться их максимум. Потом максимумы сравниваються. Всего 85 сравнений. Почитайте на сайте Яши статьи.
Hkey, только там нигде не говорится, что это актуальные статьи.
До осени прошлого года результаты моих экспериментов и то, что написано в этих статьях, практически совпадали. А вот свежак - это уже что-то новенькое. Или кардинально улучшенное старенькое. Или на порядок увеличенное число серверов для обработки (хотя что-то в это я мало верю).
Работал как то с примерно таким алгоритмом (для других но аналогичных целей). В нем для борьбы с синомайзингом можно сделать окно.
1 2 3 4 5 _ _ _ _ 10 11 12 13 14
и еще даже если классические шинглы есть - то они ведут себя ни по равномерному распределению, а по нормальному. Т.е. если есть шингл_А есть в обоих текстах, то вероятность поподания его контрольной суммы в обе выборки по одной и той же фиксированной функции, намного выше 1/N1 * 1/N2.
Если не понятно почему могу обьяснить.
Попробовал несколько размноженных статей с помощью своего скрипта - показывает максимум 8%. А чаще 3-4 %. Объективно, конечно, статьи более похожи.
Резюме: текущая версия - это меньше 1% работы, которую нужно проделать, чтоб стать эталонным измерителем уникальности текстов.
Пока нету синонимов и словоформ - грош цена программе.
А то, что вы так красиво и умно описывали в начале топика - не более чем пудра в глаза оптимизаторам. Все это легко напишет обычный студент за полдня.
З.Ы.: программа нужная и желаю вам успехов в разработке; поменьше пустословия и высокомерия - а то как депутат перед народом.
Ну процент изменений в основном зависит от колличества слов базы, а не от самого скрипта (самы простой скрипт пишеться за 20 минут). Главная фишка сочитание эфекта и качества конечного текста.