Шинглы и динамические блоки на сайте

18

W.Ed.

1 июля 2005, 09:09

3574

Например, есть две страницы в разных местах, с различием в одном блоке (например, афоризмы/анекдоты), длина которого и число слов в нем постоянно изменяются, а основной текст стоит после этого блока?

Вопросы:

Кто-нибудь тестировал метод шинглов на таких примерах?

Есть какие-нибудь реальные методы для выборки шинглов или лучше их все сохранять в базе чтобы ни одно совпадение не ускользнуло?

357

euhenio

1 июля 2005, 10:02

#1

Странно, такое впечатление. что Вы нацитировали в той теме разных кусков, но не поняли, зачем они нужны.

Зачем вам шинглы вообще? Какую задачу с помощью них решаете? Ответьте на эти вопросы и ответите на свой.

//Партийная программа валилась из него крупными кусками, как из человека, который глотал ее долгое время, но совершенно не прожевывал// (С) Булгаков

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

WE

18

W.Ed.

1 июля 2005, 11:02

#2

Как модератору форумов Любые вопросы от новичков и Самое разное

2 euhenio, у меня такое впечатление, что Вы не вчитываетесь в заданные вопросы.

Я НЕ спрашивал что такое шинглы и какие задачи я смог бы с помощью них решить.

Я отлично ПРЕДСТАВЛЯЮ себе зачем мне требуется тот или иной метод/информация.

Я НЕ МОГУ ответить на свои вопросы, ответив на Ваши.

Резкий всплеск прямых заходов. Помощь в фильтрации ботов Как правильно настроить задание

90

Space

1 июля 2005, 11:29

#3

W.Ed.:

Есть какие-нибудь реальные методы для выборки шинглов или лучше их все сохранять в базе чтобы ни одно совпадение не ускользнуло

Вы можете подробнее объяснить - что под этим подразумевается?

WE

18

W.Ed.

1 июля 2005, 12:03

#4

Вы можете подробнее объяснить - что под этим подразумевается?

я подразумеваю такой выбор шинглов, чтобы это не шло в ущерб поиску схожих документов, при описанных выше условиях. Я понимаю когда в спамооброне используются супершинглы - этого достаточно для определения массовых рассылок, но годится ли выборка для определения неявных (одного-двух) зеркал сайтов с динамическим контентом?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

357

euhenio

1 июля 2005, 12:09

#5

Ну, как угодно.

Шинглы используют для поиска совпадений в больших базах, кандидатов для дальнейшей проверки. С большим числом документов. Поэтому, например, Сегалович писал, что из документа сохраняют только часть шинглов.

первый ваш вопрос из разряда "а теперь скажите, господа, в каком году умерла у швейцара бабушка?" :)

второй вопрос - "реальный метод" Сегалович описал, а "чтобы ни одно совпадение не ускользнуло" - не нужная задача, кроме того, при этом размер этой базы больше самого текста получится.

E

17

eshum

1 июля 2005, 23:05

#6

W.Ed.:
Есть какие-нибудь реальные методы для выборки шинглов или лучше их все сохранять в базе чтобы ни одно совпадение не ускользнуло?

Простой способ уменьшения их количества, состоит в том, чтобы отобрать только те шинглы значения которых делятся нацело на некое число N. Причем N должно быть константным в пределах всей коллекции документов.

R

37

Rusl

3 августа 2005, 09:42

#7

eshum:
Причем N должно быть константным в пределах всей коллекции документов.

Совсем не факт. В таком случае количество сохраненных шинглов будет прямо пропорционально количеству всех шинглов (равному n-9 для 10-словного шингла, где n-число слов в тексте) для всего текста. Оно вам надо?

В таком случае либо Вы будите хранить избыточное количество шинглов для больших по объему текстов, либо недостаточное количество для малых.

Из этой ситуации можно выкрутиться используя ранжирование текстов и сохраняя для текстов одного ранга шинглы кратные одному числу. Но для того, чтобы можно было сравнивать документы разных рангов, нужно чтобы эти числа тоже были кратны (например 10, 20 и 40) для документов разбитых на три ранга в зависимости от объема.

Надеюсь изложил свою мысль не слишком сумбурно.

M

133

medaest

15 августа 2005, 09:14

#8

Rusl:
Из этой ситуации можно выкрутиться используя ранжирование текстов и сохраняя для текстов одного ранга шинглы кратные одному числу.

Это конечно Выход, но я при решении похожей задачи лишь частично использовал шинглы, т.к. у меня было ограничение - минимум хранимой информации о документе.

Алгоритм определения степени схожести документа и выделения изменившихся блоков был следующий:

1. Входной текст разбивался на нумерованные блоки (под блоком подразумевается предложение, абзац, ячейка таблицы...);

2. Определялся доминирующий язык блока, из блока удалялись ВСЕ слова, кроме слов из букв определенного языка;

3. Над полученным в п.2. блоком проводится BWT (преобразование Буэрроса-Вильямса), преобразование производится по словам, причём сортировка происходит по измененному алфавиту, больший вес имеют слова из "редких" букв. (это наиболее ресурсоёмкий процесс).

4. Количество шинглов определялось по формуле аналогичной определению веса кворума в п.4. статьи "Яндекс на РОМИП 2004", только помню что были проблемы с этой формулой, она по моему приведена не правильно, там нужно вычислять как 1 - коэффициент мягкости в степени ... а не (1-коэффициент мягкости) в степени. За количество слов бралось количество слов в блоке.

5. Составлялось количество обрезанных (кратность подбиралась от длины блока не помню как) шинглов согласно п.4., по правилу 1 слово - последнее, 2 - предпоследнее и т.п.

6. Полученное после преобразования (п.3.) число и совпадение всех шинглов являло собой не изменившийся блок.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

D

0

dfo

6 декабря 2005, 19:52

#9

интересный метод, немного неконкретное описание. Вы не описали его в какой-нибудь статье?

каковы тестовые результаты? проверяли на больших наборах текстов?

"больший вес имеют слова из "редких" букв" - это Ваша идея, или где-то уже описана?

Как повысить уникальность GPT Опубликован Реестр провайдеров хостинга Директ: вопросы к Яндексу

R

37

Rusl

7 декабря 2005, 11:57

#10

dfo:
интересный метод, немного неконкретное описание. Вы не описали его в какой-нибудь статье?
каковы тестовые результаты? проверяли на больших наборах текстов?
"больший вес имеют слова из "редких" букв" - это Ваша идея, или где-то уже описана?

Смотрите здесь: http://www.livejournal.com/community/ru_ir/7911.html

Как раз в статье я его описал (раз Яндекс почему то этого не сделал), но в интернете ее нет.

Open AI тестирует память для ChatGPT

Зачем быть уникальным в мире, где все можно скопировать