Шинглы и динамические блоки на сайте

12
WE
На сайте с 28.06.2005
Offline
18
3568

Например, есть две страницы в разных местах, с различием в одном блоке (например, афоризмы/анекдоты), длина которого и число слов в нем постоянно изменяются, а основной текст стоит после этого блока?

Вопросы:

Кто-нибудь тестировал метод шинглов на таких примерах?

Есть какие-нибудь реальные методы для выборки шинглов или лучше их все сохранять в базе чтобы ни одно совпадение не ускользнуло?

euhenio
На сайте с 21.09.2001
Offline
357
#1

Странно, такое впечатление. что Вы нацитировали в той теме разных кусков, но не поняли, зачем они нужны.

Зачем вам шинглы вообще? Какую задачу с помощью них решаете? Ответьте на эти вопросы и ответите на свой.

//Партийная программа валилась из него крупными кусками, как из человека, который глотал ее долгое время, но совершенно не прожевывал// (С) Булгаков

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )
WE
На сайте с 28.06.2005
Offline
18
#2

Как модератору форумов Любые вопросы от новичков и Самое разное

2 euhenio, у меня такое впечатление, что Вы не вчитываетесь в заданные вопросы.

Я НЕ спрашивал что такое шинглы и какие задачи я смог бы с помощью них решить.

Я отлично ПРЕДСТАВЛЯЮ себе зачем мне требуется тот или иной метод/информация.

Я НЕ МОГУ ответить на свои вопросы, ответив на Ваши.

Space
На сайте с 29.04.2002
Offline
90
#3
W.Ed.:

Есть какие-нибудь реальные методы для выборки шинглов или лучше их все сохранять в базе чтобы ни одно совпадение не ускользнуло

Вы можете подробнее объяснить - что под этим подразумевается?

WE
На сайте с 28.06.2005
Offline
18
#4
Вы можете подробнее объяснить - что под этим подразумевается?

я подразумеваю такой выбор шинглов, чтобы это не шло в ущерб поиску схожих документов, при описанных выше условиях. Я понимаю когда в спамооброне используются супершинглы - этого достаточно для определения массовых рассылок, но годится ли выборка для определения неявных (одного-двух) зеркал сайтов с динамическим контентом?

euhenio
На сайте с 21.09.2001
Offline
357
#5

Ну, как угодно.

Шинглы используют для поиска совпадений в больших базах, кандидатов для дальнейшей проверки. С большим числом документов. Поэтому, например, Сегалович писал, что из документа сохраняют только часть шинглов.

первый ваш вопрос из разряда "а теперь скажите, господа, в каком году умерла у швейцара бабушка?" :)

второй вопрос - "реальный метод" Сегалович описал, а "чтобы ни одно совпадение не ускользнуло" - не нужная задача, кроме того, при этом размер этой базы больше самого текста получится.

E
На сайте с 12.01.2004
Offline
17
#6
W.Ed.:
Есть какие-нибудь реальные методы для выборки шинглов или лучше их все сохранять в базе чтобы ни одно совпадение не ускользнуло?

Простой способ уменьшения их количества, состоит в том, чтобы отобрать только те шинглы значения которых делятся нацело на некое число N. Причем N должно быть константным в пределах всей коллекции документов.

R
На сайте с 29.04.2003
Offline
37
#7
eshum:
Причем N должно быть константным в пределах всей коллекции документов.

Совсем не факт. В таком случае количество сохраненных шинглов будет прямо пропорционально количеству всех шинглов (равному n-9 для 10-словного шингла, где n-число слов в тексте) для всего текста. Оно вам надо?

В таком случае либо Вы будите хранить избыточное количество шинглов для больших по объему текстов, либо недостаточное количество для малых.

Из этой ситуации можно выкрутиться используя ранжирование текстов и сохраняя для текстов одного ранга шинглы кратные одному числу. Но для того, чтобы можно было сравнивать документы разных рангов, нужно чтобы эти числа тоже были кратны (например 10, 20 и 40) для документов разбитых на три ранга в зависимости от объема.

Надеюсь изложил свою мысль не слишком сумбурно.

M
На сайте с 12.05.2005
Offline
133
#8
Rusl:
Из этой ситуации можно выкрутиться используя ранжирование текстов и сохраняя для текстов одного ранга шинглы кратные одному числу.

Это конечно Выход, но я при решении похожей задачи лишь частично использовал шинглы, т.к. у меня было ограничение - минимум хранимой информации о документе.

Алгоритм определения степени схожести документа и выделения изменившихся блоков был следующий:

1. Входной текст разбивался на нумерованные блоки (под блоком подразумевается предложение, абзац, ячейка таблицы...);

2. Определялся доминирующий язык блока, из блока удалялись ВСЕ слова, кроме слов из букв определенного языка;

3. Над полученным в п.2. блоком проводится BWT (преобразование Буэрроса-Вильямса), преобразование производится по словам, причём сортировка происходит по измененному алфавиту, больший вес имеют слова из "редких" букв. (это наиболее ресурсоёмкий процесс).

4. Количество шинглов определялось по формуле аналогичной определению веса кворума в п.4. статьи "Яндекс на РОМИП 2004", только помню что были проблемы с этой формулой, она по моему приведена не правильно, там нужно вычислять как 1 - коэффициент мягкости в степени ... а не (1-коэффициент мягкости) в степени. За количество слов бралось количество слов в блоке.

5. Составлялось количество обрезанных (кратность подбиралась от длины блока не помню как) шинглов согласно п.4., по правилу 1 слово - последнее, 2 - предпоследнее и т.п.

6. Полученное после преобразования (п.3.) число и совпадение всех шинглов являло собой не изменившийся блок.

D
На сайте с 21.11.2005
Offline
0
dfo
#9

интересный метод, немного неконкретное описание. Вы не описали его в какой-нибудь статье?

каковы тестовые результаты? проверяли на больших наборах текстов?

"больший вес имеют слова из "редких" букв" - это Ваша идея, или где-то уже описана?

R
На сайте с 29.04.2003
Offline
37
#10
dfo:
интересный метод, немного неконкретное описание. Вы не описали его в какой-нибудь статье?
каковы тестовые результаты? проверяли на больших наборах текстов?
"больший вес имеют слова из "редких" букв" - это Ваша идея, или где-то уже описана?

Смотрите здесь: http://www.livejournal.com/community/ru_ir/7911.html

Как раз в статье я его описал (раз Яндекс почему то этого не сделал), но в интернете ее нет.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий