- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Например, есть две страницы в разных местах, с различием в одном блоке (например, афоризмы/анекдоты), длина которого и число слов в нем постоянно изменяются, а основной текст стоит после этого блока?
Вопросы:
Кто-нибудь тестировал метод шинглов на таких примерах?
Есть какие-нибудь реальные методы для выборки шинглов или лучше их все сохранять в базе чтобы ни одно совпадение не ускользнуло?
Странно, такое впечатление. что Вы нацитировали в той теме разных кусков, но не поняли, зачем они нужны.
Зачем вам шинглы вообще? Какую задачу с помощью них решаете? Ответьте на эти вопросы и ответите на свой.
//Партийная программа валилась из него крупными кусками, как из человека, который глотал ее долгое время, но совершенно не прожевывал// (С) Булгаков
Как модератору форумов Любые вопросы от новичков и Самое разное
2 euhenio, у меня такое впечатление, что Вы не вчитываетесь в заданные вопросы.
Я НЕ спрашивал что такое шинглы и какие задачи я смог бы с помощью них решить.
Я отлично ПРЕДСТАВЛЯЮ себе зачем мне требуется тот или иной метод/информация.
Я НЕ МОГУ ответить на свои вопросы, ответив на Ваши.
Есть какие-нибудь реальные методы для выборки шинглов или лучше их все сохранять в базе чтобы ни одно совпадение не ускользнуло
Вы можете подробнее объяснить - что под этим подразумевается?
я подразумеваю такой выбор шинглов, чтобы это не шло в ущерб поиску схожих документов, при описанных выше условиях. Я понимаю когда в спамооброне используются супершинглы - этого достаточно для определения массовых рассылок, но годится ли выборка для определения неявных (одного-двух) зеркал сайтов с динамическим контентом?
Ну, как угодно.
Шинглы используют для поиска совпадений в больших базах, кандидатов для дальнейшей проверки. С большим числом документов. Поэтому, например, Сегалович писал, что из документа сохраняют только часть шинглов.
первый ваш вопрос из разряда "а теперь скажите, господа, в каком году умерла у швейцара бабушка?" :)
второй вопрос - "реальный метод" Сегалович описал, а "чтобы ни одно совпадение не ускользнуло" - не нужная задача, кроме того, при этом размер этой базы больше самого текста получится.
Есть какие-нибудь реальные методы для выборки шинглов или лучше их все сохранять в базе чтобы ни одно совпадение не ускользнуло?
Простой способ уменьшения их количества, состоит в том, чтобы отобрать только те шинглы значения которых делятся нацело на некое число N. Причем N должно быть константным в пределах всей коллекции документов.
Причем N должно быть константным в пределах всей коллекции документов.
Совсем не факт. В таком случае количество сохраненных шинглов будет прямо пропорционально количеству всех шинглов (равному n-9 для 10-словного шингла, где n-число слов в тексте) для всего текста. Оно вам надо?
В таком случае либо Вы будите хранить избыточное количество шинглов для больших по объему текстов, либо недостаточное количество для малых.
Из этой ситуации можно выкрутиться используя ранжирование текстов и сохраняя для текстов одного ранга шинглы кратные одному числу. Но для того, чтобы можно было сравнивать документы разных рангов, нужно чтобы эти числа тоже были кратны (например 10, 20 и 40) для документов разбитых на три ранга в зависимости от объема.
Надеюсь изложил свою мысль не слишком сумбурно.
Из этой ситуации можно выкрутиться используя ранжирование текстов и сохраняя для текстов одного ранга шинглы кратные одному числу.
Это конечно Выход, но я при решении похожей задачи лишь частично использовал шинглы, т.к. у меня было ограничение - минимум хранимой информации о документе.
Алгоритм определения степени схожести документа и выделения изменившихся блоков был следующий:
1. Входной текст разбивался на нумерованные блоки (под блоком подразумевается предложение, абзац, ячейка таблицы...);
2. Определялся доминирующий язык блока, из блока удалялись ВСЕ слова, кроме слов из букв определенного языка;
3. Над полученным в п.2. блоком проводится BWT (преобразование Буэрроса-Вильямса), преобразование производится по словам, причём сортировка происходит по измененному алфавиту, больший вес имеют слова из "редких" букв. (это наиболее ресурсоёмкий процесс).
4. Количество шинглов определялось по формуле аналогичной определению веса кворума в п.4. статьи "Яндекс на РОМИП 2004", только помню что были проблемы с этой формулой, она по моему приведена не правильно, там нужно вычислять как 1 - коэффициент мягкости в степени ... а не (1-коэффициент мягкости) в степени. За количество слов бралось количество слов в блоке.
5. Составлялось количество обрезанных (кратность подбиралась от длины блока не помню как) шинглов согласно п.4., по правилу 1 слово - последнее, 2 - предпоследнее и т.п.
6. Полученное после преобразования (п.3.) число и совпадение всех шинглов являло собой не изменившийся блок.
интересный метод, немного неконкретное описание. Вы не описали его в какой-нибудь статье?
каковы тестовые результаты? проверяли на больших наборах текстов?
"больший вес имеют слова из "редких" букв" - это Ваша идея, или где-то уже описана?
интересный метод, немного неконкретное описание. Вы не описали его в какой-нибудь статье?
каковы тестовые результаты? проверяли на больших наборах текстов?
"больший вес имеют слова из "редких" букв" - это Ваша идея, или где-то уже описана?
Смотрите здесь: http://www.livejournal.com/community/ru_ir/7911.html
Как раз в статье я его описал (раз Яндекс почему то этого не сделал), но в интернете ее нет.