Определение Я оригинальности контента

WladimirU · 2006-08-07T07:39:43.0000000Z

Интересно, как Яндекс определяет схожесть контента? Если текст содран один в один, то тут все ясно. А вот например если переставить абзацы местами? По доходчивость текста для пользователя пока молчим, интересут только определение Яндексом. Или например есть срезанная с другого сайта страница-каталог с 5 товарами, у каждого товара несколько характеристик. Будет ли для Я страницы являться оригинальной если переставить местами товары, да еще в каждом товаре поменять местами характеристики? Или же вообще идет сравнение по словам, но тогда возникает вопрос о процентном соотношении оригинального контента к неоригинальному. У кого какие соображения по этому поводу?

168

shmelina

7 августа 2006, 13:53

#21

Alar:

Про Пушкина. Не хотелось бы в поиске выйти на многотомник Пушкина. Если я на сайте публикую книгу, которая уже есть в сети, я загоняю её в архив. и пишу лишь название, автора и краткое описание. Т.е самое основное, по каким описанием пользователь будет её искать.

а если человек помнит строчку из стихотворения, и хочет по ней найти само произведение? Получается в сети должен быть только один сайт, на котором выложено полностью стихотворение, так что ли?

174

Astaldo

7 августа 2006, 14:03

#22

Alar, Знаете, а у кого-то нет кпк, кому-то удобнее, ковыряя в носу на работе, читать книги с монитора, особенно, если жк... и, реально, лопатят глубокие страниицы.

Live as if you were to die tomorrow. Learn as if you were to live forever. Mahatma Gandhi

[Удален]

7 августа 2006, 14:06

#23

Alar:
лишь название, автора и краткое описание. Т.е самое основное, по каким описанием пользователь будет её искать.

а еще и накачать внутренними факторами? ;)

94

Alar

7 августа 2006, 17:08

#24

Astaldo:
Alar, Знаете, а у кого-то нет кпк, кому-то удобнее, ковыряя в носу на работе, читать книги с монитора, особенно, если жк... и, реально, лопатят глубокие страниицы.

Я же сказал про себя. Я понимаю, что у всех свои хотелки.

Ранее один из пользователей упоминал про огромную базу сайтов, потому невозможно отследить все страницы. Я даже сказал бы так, робот смотрит новые морды что-ли. Главное чтобы морды были уникальны. А если сайт давно, то я не замечал случаев склейки и зазеркаливания.

Отсюда вывод что никто не будет целые сайты убирать если они отчасти уникальны.

В2

3

Виталий21

7 августа 2006, 19:24

#25

zig:
У яндекса есть одно НО - размер базы.
Нужен какой-то быстрый алгоритм выборки..
Искать по предложению или абзацу - немного не правильно, очень долго, и не рационально.

Быстрый алгоритм - основная функция Яндекса - поиск. Яндекс начинает отсеивать дубли, когда пользователь начинает листать страницы с результатами поиска, при этом количество найденных документов уменьшается, ИМХО конечно. Но по-моему представители Я сами так об этом писали где-то на этом форуме.

Z

16

zig

7 августа 2006, 22:32

#26

Виталий21:
Быстрый алгоритм - основная функция Яндекса - поиск. Яндекс начинает отсеивать дубли, когда пользователь начинает листать страницы с результатами поиска, при этом количество найденных документов уменьшается, ИМХО конечно. Но по-моему представители Я сами так об этом писали где-то на этом форуме.

Хм. По логике так и должно происходить - во время конкретного запроса делать анализ. Т.к. выборка все равно происходит при запросе и она в некоторой степени оригинальна. Рассуждения по поводу дальнейшего использования инфы из конкретного серпа приводить не буду - много их.

Кстати, иногда по запросу "хостинг" дальше второй страницы нет сайтов. Не во время апов.

Вот фильрует ведь дубли:)

Не стоит доверять этим цифрам.

И не стоить путать зеркала и дубли.

Дубли в выдаче есть и будут, их ну никак нельзя убирать.

Максимум - опускать дубли вниз.

Кол-во страниц не должно при этом изменятся в серпе, было бы странно.

И почему именно на второй-трейтьей-пятой странице серпа?

Могу предположить, что в целях экономии ресурсов конечно... но скорее это может объясняться структурой поискового движка и конкретным механизмом кластеризации.

+ могут оказывать влияние механизмы кеширования серпов.

Все ес-но мое имхо и не сфера моеё деятельности.

Если кто-то что-то знает по теме - сообщите.

Интересно, для общего развития.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Z

16

zig

7 августа 2006, 22:40

#27

Все таки нашел.

/ru/forum/56951

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Что делать, чтобы попасть в ответы Google Bard