- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Я смотрю у вас обратная задача :) Обмануть поисковик. Но антиподход - тоже интересно ;) Сейчас просмотрю.
Интересно, а чём плох вариант сравнения количества употреблений N самых частовстречающихся слов в документе? Гугль очень похоже, что именно так и поступает, а потому документы с малым количеством текста у него в supplemental results попадают.
Интересно, а чём плох вариант сравнения количества употреблений N самых частовстречающихся слов в документе? Гугль очень похоже, что именно так и поступает, а потому документы с малым количеством текста у него в supplemental results попадают.
Плох прежде всего тем, что это легко обойти. Оно и не удивительно, т.к. оперирование идет показателем TF, который очень сильно подвержен влиянию onpage факторов. Гораздо разумнее смотреть на IDF:
http://www.ir.iit.edu/publications/downloads/p171-chowdhury.pdf
Но все зависит от того, какие дубли отлавливаются. Если неумышленные дубли - это одно дела, а спам - совершенно другое.
скажу по секрету, для яндекса самое оптимальное 5 процентов из всего текчта на странице!
в дубле выпадут все страницы, даже ежели они будут отлечаться друг от друга 2-3 словами!
Интересно, а чём плох вариант сравнения количества употреблений N самых частовстречающихся слов в документе? Гугль очень похоже, что именно так и поступает, а потому документы с малым количеством текста у него в supplemental results попадают.
Только тем что он в принципе не работает как впрочем и все чисто частотные алгоритмы. надо отслеживать еще порядок слов и многое другое. И даже если применять статистику то нельзя наиболее часто встречающиеся слова в документе -- как правило это будут общеупотребительные слова.
Вообще говоря интеллектуальное решение данной проблемы уже есть и успешно работает в корпоративном секкторе -- http://www.searchinform.com/site/ru/index.htm
Мне кажется, сначала нужно сформулировать, что именно Вы понимаете под "нечеткими дубликатами", а потом уже - говорить об "алгоритмах их определения" ...
Мне кажется, сначала нужно сформулировать, что именно Вы понимаете под "нечеткими дубликатами", а потом уже - говорить об "алгоритмах их определения" ...
С определением здесь туговато ;) Обычно придумывается метод, потом в рамках сформулировнной теории дается определение нечеткого дубликата. Главное, чтобы это определение совпадало, в большинстве своем, с оценками экспертов. А на эристическом уровне нечеткими дубликатоми можно называть страницы, которые содержат один и тот же текст, за исключением некоторых изменений, здесь мы не затрагиваем понятие смысла текста, т.к. в принципе можно перефразировать полность текст, не потеряв смысл, но к сожалению анализ смысловой нарузки машине пок ане по зубам ;)
... на эристическом уровне нечеткими дубликатоми можно называть страницы, которые содержат один и тот же текст, за исключением некоторых изменений, ...
- акцент на содержат или изменения?
Первое предполагает, что на страницах "один и тот же текст" обрамлен различающимися хедерами, футерами и всяческими навигационными меню.
А второе - что текст (на страницах) В ЦЕЛОМ один и тот же, но в него "вкраплены" различные мелкие изменения ...
Методы будут разные - в зависимости от указанных акцентов.
Методы будут разные - в зависимости от указанных акцентов.
Вероятно второй метод использовать больше смысла, так как если мы нашли нечеткий дубль с небольшими изменениями именно текста, то какая впринципе разница какой там хеадер и футер, там всеравно интересного уже не найдешь.
Материя есть объективная реальность данная нам в ощущениях, как учил дедушка Ленин ...
Это я к тому, что документ-то "нам дан" целиком - вместе с хедерами и футерами ...