- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Вы бы прояснили все-таки, а? С дублями? Волшебное слово: Пожалуйста.
Так алгоритм вроде ж очень даже подробно описан на http://company.yandex.ru/articles/article7.html
Они рассматривают документ последовательностью слов, вернее лексем. После чего выбирают N лексем и создают характеристическое множество каждого документа, причем для каждого такого документа вычисляют вектор, где i-му элементу присваивается 1 в случае, если относительная частота i-го слова из характеристического множества больше какой-то пороговой (выбирают так, чтобы компоненты вектора были более-менее устойчивы к небольшим изменениям документа), и 0 если меньше. Этот бинарный вектор называют нечеткой цифровой подписью документа.
Потом проходят по всем документам и создают множество дублей. При этом учитывают два типа ошибок: альфа-ошибки, если алгоритм не определил дубли, и бета-ошибки, если выделение дубля ошибочно.
Собственно теперь им осталось подобрать оптимальные параметры, чтобы исключить эти альфа-ошибки, в частности указанные в данном топике.
Хороший алгоритм.
-спасибо за статью и объяснение. Теперь стало ясно, как бороться с попаданием в дубли :)
Но эта статья отвечает только на вопрос "как определяются дубли", но не говорит, как выбирается из них "оригинал" для показа в выдаче... А это и интересует!
Спасибо всем откликнувшимся! Как голосовавшим, так и просто вступившим в дискуссию!
В момент, когда я инициировал опрос, процесс очистки был лишь запущен, дубликаты (в нашем смысле) были вычищены примерно на четверть.
Надеюсь сейчас уже получше.
Также хочу всех заверить, что процесс на этом не завершится. Детали выбора "лучшего дубликата" позвольте пока не описывать.
С уважением,
Илья
iseg
Хотелось бы, по крайней мере, чтобы дубликатом не были признаны оригиналы материалов...
Надеюсь сейчас уже получше.
http://ya.ru/yandsearch?text=%22notre+damme+de+paris%22&rpt=rad
Дубли 4, 5, 7, 9, 11, 12, 17, 20, 32.
по какому же принципу и какой из дублей отсекается
http://ya.ru/yandsearch?text=primary+domain+controller&rpt=rad
первые 4 ссылки...