Проверка на уникальность Яндекса. Рабочий алгоритм.

12
[Удален]
2438

Добрый день, коллеги.

На данный момент есть масса сервисов, определяющих уникальность статьи (аля http://neotext.ru/check ). Все работают по своим (загадочным) алгоритмам. Если вбить один и тот же блок в разные проверяльщики, то результат бывает самый разный..

Мне интересно два момента:

1. есть ли у Яндекса некая база слепков уникальных контентов, обратившись (по нужному запросу) к которой можно получить на выходе ответ - уникален ли проверяемый контент или он уже где-то встречался?

2. к какой базе обращаются существующие проверяльщики типа http://neotext.ru/check откуда они берут инфу об уникальности? Явно что из внешки откуда-то..

Хочу пообщаться на эту тему.

Антоныч88
На сайте с 02.07.2009
Offline
132
#1

Текст разбивается на маленькие кусочки и ищются совпадения в яндексе и в гугле.

Выполняю недорогие прогоны по сайтам с ИКС 100: https://www.maultalk.com/topic389329.html
Дрозофила
На сайте с 01.08.2007
Offline
200
#2
Антоныч88:
ищются

Чу, Щу - пиши через У

1. Понимание СЕО приходит после пива. 2. Незнакомый мальчик жестами объяснил, что его зовут Хулио. 3. Причина по которой я на этом форуме https://pressair.ru (https://pressair.ru)
[Удален]
#3

Что-то слишком премитивно. И потом.. совпадение то будет почти в любом случае, вопрос какое...

M
На сайте с 09.01.2010
Offline
7
#4
Antonio1:
Что-то слишком премитивно. И потом.. совпадение то будет почти в любом случае, вопрос какое...

Если текст уникальный - точных совпадений не будет

[Удален]
#6
Antonio1:


Может у яндекса есть какие-то ключи и т.п..

Ага, а при личной переписке с Платоном на почте можно вдруг(!) найти архив с текстовыми файлами-исходниками последних алгоритмов ранжирования.

praide
На сайте с 20.07.2007
Offline
269
#7
Antonio1:
Хорошо, тогда вопрос. Как отделить точное совпадение от неточного???

Это точное?

Нет, вот это точное.

Пассаж не уникален.

Antonio1:
Или это неточное?
http://yandex.ru/yandsearch?text=%D0...5%D1%82&lr=213

Да, неточное. Точное будет так:

http://yandex.ru/yandsearch?text=%22%D0%B5%D1%81%D0%BB%D0%B8+%D1%82%D0%B5%D0%BA%D1%81%D1%82+%D1%83%D0%BD%D0%B8%D0%BA%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9+%D1%82%D0%BE%D1%87%D0%BD%D1%8B%D1%85+%D1%81%D0%BE%D0%B2%D0%BF%D0%B0%D0%B4%D0%B5%D0%BD%D0%B8%D0%B9+%D0%BD%D0%B5+%D0%B1%D1%83%D0%B4%D0%B5%D1%82%22&lr=213

Этот пассаж уникален. До тех пор, как Яша сожрет эту страницу серча.

А вот Гугл уже сожрал, и этот контент там не уникальный.

"Наши летатели идут к смерти верным и скорым шагом." Антуан де Сент-Экзюпери Возьму пару проектов на продвижение. По себестоимости возьму на продвижение"песочный" сайт.
N
На сайте с 09.03.2010
Offline
4
#8

Antonio1, правильно было замечено что проверить можно текст путем разбиения его на куски. Но выбирать в тексте нужно редкие фразы, а не фразы по типу "Жили были..." т.е. те которые скорее всего присутствуют в большинстве текстов.

А вообще принято считать что Яндекс при поиске дубликатов использует метод шинглов. К примеру программа DCFinder использует метод шинглов длинной в 5 слов. Все зависит от сервиса который вы будете использовать.

ZOOOL
На сайте с 01.02.2010
Offline
10
#9

Ктото по работе у меня спросил а почему 7 шинглов ответ

и небольшое продолжение

Это только наблюдение!!!

количество ******* 7

и еще один вариант

yascherka
На сайте с 09.03.2010
Offline
1
#10

Ну и что? Поиск со звездочками. Шинглы-то тут при чем? При сравнении текстов методом шинглов вычисляются контрольные суммы кусков текста длиной N. Звездочки вы тоже в контрольную сумму засунете?

Портфолио (http://www.free-lance.ru/users/asak_akam) на free-lance.ru Отзывы (/ru/forum/470531) на Серче || Предлагаю услуги редактора () e-mail: tashechka[a]gmail.com
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий