Проверка на уникальность Яндекса. Рабочий алгоритм.

[Удален]

5 марта 2010, 18:39

2480

Добрый день, коллеги.

На данный момент есть масса сервисов, определяющих уникальность статьи (аля http://neotext.ru/check ). Все работают по своим (загадочным) алгоритмам. Если вбить один и тот же блок в разные проверяльщики, то результат бывает самый разный..

Мне интересно два момента:

1. есть ли у Яндекса некая база слепков уникальных контентов, обратившись (по нужному запросу) к которой можно получить на выходе ответ - уникален ли проверяемый контент или он уже где-то встречался?

2. к какой базе обращаются существующие проверяльщики типа http://neotext.ru/check откуда они берут инфу об уникальности? Явно что из внешки откуда-то..

Хочу пообщаться на эту тему.

132

Антоныч88

5 марта 2010, 18:44

#1

Текст разбивается на маленькие кусочки и ищются совпадения в яндексе и в гугле.

Выполняю недорогие прогоны по сайтам с ИКС 100: https://www.maultalk.com/topic389329.html

200

Дрозофила

5 марта 2010, 19:19

#2

Антоныч88:
ищются

Чу, Щу - пиши через У

1. Понимание СЕО приходит после пива. 2. Незнакомый мальчик жестами объяснил, что его зовут Хулио. 3. Причина по которой я на этом форуме https://pressair.ru (https://pressair.ru)

[Удален]

6 марта 2010, 06:18

#3

Что-то слишком премитивно. И потом.. совпадение то будет почти в любом случае, вопрос какое...

M

7

Mooker

7 марта 2010, 23:21

#4

Antonio1:
Что-то слишком премитивно. И потом.. совпадение то будет почти в любом случае, вопрос какое...

Если текст уникальный - точных совпадений не будет

[Удален]

9 марта 2010, 07:28

#5

Хорошо, тогда вопрос. Как отделить точное совпадение от неточного???

Это точное?

http://yandex.ru/yandsearch?text=%D0%95%D1%81%D0%BB%D0%B8+%D0%B6%D0%B5+%D0%B1%D1%83%D0%B4%D0%B5%D1%82+%D0%BD%D0%B0%D0%B9%D0%B4%D0%B5%D0%BD%D0%BE+%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D0%B5+%D1%81%D0%BE%D0%B2%D0%BF%D0%B0%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5%2C+%D1%82%D0%BE+%D0%BF%D1%80%D0%B8%D0%B4%D0%B5%D1%82%D1%81%D1%8F+%D0%B8%D0%B4%D1%82%D0%B8+%D0%BD%D0%B0%D0%B7%D0%B0%D0%B4+%D0%B2+%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D1%83+%D0%B8+%D0%B1%D1%80%D0%B0%D1%82%D1%8C+%D0%B4%D1%80%D1%83%D0%B3%D1%83%D1%8E+%D0%BA%D0%BD%D0%B8%D0%B6%D0%B5%D0%BD%D1%86%D0%B8%D1%8E&lr=213

Или это неточное?

http://yandex.ru/yandsearch?text=%D0%B5%D1%81%D0%BB%D0%B8%20%D1%82%D0%B5%D0%BA%D1%81%D1%82%20%D1%83%D0%BD%D0%B8%D0%BA%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9%20%D1%82%D0%BE%D1%87%D0%BD%D1%8B%D1%85%20%D1%81%D0%BE%D0%B2%D0%BF%D0%B0%D0%B4%D0%B5%D0%BD%D0%B8%D0%B9%20%D0%BD%D0%B5%20%D0%B1%D1%83%D0%B4%D0%B5%D1%82&lr=213

Как автоматизированно отличать такие вещи? Может у яндекса есть какие-то ключи и т.п..

[Удален]

9 марта 2010, 07:39

#6

Antonio1:

Может у яндекса есть какие-то ключи и т.п..

Ага, а при личной переписке с Платоном на почте можно вдруг(!) найти архив с текстовыми файлами-исходниками последних алгоритмов ранжирования.

269

praide

9 марта 2010, 07:53

#7

Antonio1:
Хорошо, тогда вопрос. Как отделить точное совпадение от неточного???

Это точное?

Нет, вот это точное.

Пассаж не уникален.

Antonio1:
Или это неточное?
http://yandex.ru/yandsearch?text=%D0...5%D1%82&lr=213

Да, неточное. Точное будет так:

http://yandex.ru/yandsearch?text=%22%D0%B5%D1%81%D0%BB%D0%B8+%D1%82%D0%B5%D0%BA%D1%81%D1%82+%D1%83%D0%BD%D0%B8%D0%BA%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9+%D1%82%D0%BE%D1%87%D0%BD%D1%8B%D1%85+%D1%81%D0%BE%D0%B2%D0%BF%D0%B0%D0%B4%D0%B5%D0%BD%D0%B8%D0%B9+%D0%BD%D0%B5+%D0%B1%D1%83%D0%B4%D0%B5%D1%82%22&lr=213

Этот пассаж уникален. До тех пор, как Яша сожрет эту страницу серча.

А вот Гугл уже сожрал, и этот контент там не уникальный.

"Наши летатели идут к смерти верным и скорым шагом." Антуан де Сент-Экзюпери Возьму пару проектов на продвижение. По себестоимости возьму на продвижение"песочный" сайт.

Все вопросы про продвижению Яндекс кобласит Передают ли сокращенные ссылки

N

4

newoldseo

9 марта 2010, 13:35

#8

Antonio1, правильно было замечено что проверить можно текст путем разбиения его на куски. Но выбирать в тексте нужно редкие фразы, а не фразы по типу "Жили были..." т.е. те которые скорее всего присутствуют в большинстве текстов.

А вообще принято считать что Яндекс при поиске дубликатов использует метод шинглов. К примеру программа DCFinder использует метод шинглов длинной в 5 слов. Все зависит от сервиса который вы будете использовать.

10

ZOOOL

9 марта 2010, 22:15

#9

Ктото по работе у меня спросил а почему 7 шинглов ответ

и небольшое продолжение

Это только наблюдение!!!

количество ******* 7

и еще один вариант

1

yascherka

9 марта 2010, 22:45

#10

Ну и что? Поиск со звездочками. Шинглы-то тут при чем? При сравнении текстов методом шинглов вычисляются контрольные суммы кусков текста длиной N. Звездочки вы тоже в контрольную сумму засунете?

Портфолио (http://www.free-lance.ru/users/asak_akam) на free-lance.ru Отзывы (/ru/forum/470531) на Серче || Предлагаю услуги редактора () e-mail: tashechka[a]gmail.com

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Все что нужно знать о DDоS-атаках грамотному менеджеру