Что есть спам? Краткий ответ.

A
На сайте с 23.11.2000
Offline
166
1394

Доброго дня всем!

Мы часто используем слова "спам", "спамминг", "спамдексинг".

Большая просьба: ответьте, пожалуйста, что лично Вы подразумеваете под спамом поисковых систем?

С уважением,

Андрей Иванов.

GK
На сайте с 07.02.2001
Offline
29
#1

И еще к этому вопросу: можно ли считать спамом поисковых машин преднамеренное использование известных формулировок запросов.

[This message has been edited by Green Kakadu (edited 20-02-2001).]

webscript.ru (http://webscript.ru)
F
На сайте с 15.11.2000
Offline
116
#2

<font face="Verdana" size="2">Originally posted by andre:
Мы часто используем слова "спам", "спамминг", "спамдексинг".
Большая просьба: ответьте, пожалуйста, что лично Вы подразумеваете под спамом поисковых систем?
</font>

Спам -- преднамеренные действия человека с целью заставить поисковую систему считать релевантность страницы или группы страниц, большей, чем она есть на самом деле. Под релевантностью я подразумеваю ту самую субъективную меру соответствия выданных документов ожиданиям пользователя, а не конкретную реализацию системы ранжирования документов. Следовательно, спам поисковиков тоже понятие субъективное.

Является ли спамом "преднамеренное использование известных формулировок запросов"? It depends. Если слова "вакансии работа" поменяли местами, это не спам. Если на юмористическом сайте вместо "юмор" написали "приколы", это не спам. Но если на странице о судмедэкспертизе вместо слова "сношение" поставлено "секс" -- это спам. Не применяется данный термин в данной области.

На практике спам, как правило, оказывается воздействием на содержание и оформление страницы, а также воздействием на другие элементы web-среды (например, расстановкой ссылок на страницу с других сайтов).

Как поисковик может выловить спам? Я имею в виду грамотный случай спама, когда ранг документа увеличивается ровно настолько, чтобы занять первые места по какому-либо запросу, но не пытаться обогнать еще не существующие в базе страницы.

В таких случаях поисковик не может опираться в поисках спама только на анализ текста, потому что не знает и не может знать, как выглядит текст "нормальной страницы", не использующей спама -- даже на узкую тему таких текстов десятки (да и классификация текстов по узким темам задача сама по себе нетривиальная), плюс поисковик не имеет гарантии, что гипотетическая "нормальная страница" существует в его базе. Более того, если в анализе текста поисковик будет опираться на собственную базу, корректно определить "нормальную" частотность слов и терминологический запас для данной области он сможет только в "чистой" web-среде, где нет ни одной спамерской страницы на исследуемую тему.

С оформлением еще хуже -- в большинстве случаев нельзя достоверно сказать, вызвано ли данное дизайнерское решение плохим вкусом или попыткой спама. И уж совсем худо со внешней средой -- кто может ответить точно, проставлены ссылки на страницу из-за активности владельца или потому что она столь хороша?

В итоге, приходим к тому, к чему давно пришли западные поисковики -- поскольку релевантность субъективна и зависит от пользователя, пусть этот пользователь и определяет ее. Поэтому ранг сайта зависит от числа кликов по ссылке и от среднего времени нахождения на найденной странице.

С уважением,

Александр Садовский.

AiK
На сайте с 27.10.2000
Offline
257
AiK
#3

Хм. Хороший вопрос. Я бы сказал что теософский. Знаешь как в хр. религии определяют дьявола? Дьявол - есть обезъяна господа Бога, которая всё делает в темноте сзади и наоборот. Более прямого определения ты не найдешь. Т.е. дьявол есть антитеза.

Так же и со спамом. Цитируя себя любимого :


Релевантность (англ. relevancy) - уместность. Соответственно релевантный - уместный, или относящийся к делу.

... спам - понятие прямо противоположное уместности. Тут надо сделать маленькое уточнение. Некоторые вебмастера ошибочно считают, что релевантность документа поисковой фразе - это частота употребления этой фразы в документе и в, частности, в различных тэгах как то: &lt;TITLE&gt;, &lt;A&gt;, &lt;B&gt;, &lt;H1&gt; и др. Позвольте не согласиться. Я ещё раз напомню русский эквивалент термина - уместность. Так вот, документ, в котором через каждые два-три слова встречается одна и та же фраза (или слово) - не уместен, или попросту является спамом.

И ещё одна цитата:


Вот как описывает спам Дмитрий Тейблюм (Яндекс) в моей с ним переписке:

On 22-Jan-01 Artyem V. Shkondin wrote:
&gt; Здравствуйте!
&gt;
&gt; Хотелось бы узнать у Вас немного больше о том, что поисковик Яндекса считает
&gt; спамом, чтобы второй раз не наступать на те же грабли.

Критерий очень простой. Вы уже могли слышать, что наша поисковая
система занимается поиском в текстах, предназначенных для чтения
людьми. Все остальные тексты (например, предназначенные для
заманивания пользователей www.yandex.ru) считаются спамом.

A
На сайте с 23.11.2000
Offline
166
#4

Спасибо за ответы! Особенно, за "теософизм". С Александром я не совсем согласен в... некоторой однозначности толкований. Как-то раз видел очень интересный милицейский документ, написанный по всем канонам жанра, с "довожу до вашего сведения,.. гражданин такой-то..." и т.п. Используемая лексика была вполне стандартна - не ошибешься. Запомнилась фраза: "причиной травмы являлся удар палком по яйцам". :0) Случай далеко не единичный. На мой взгляд, невозможно четко определить области применения любого слова, даже самого специального. Тем более, алгоритмически, львиная доля смысла при таком подходе исчезает, следовательно, и документов тоже, если подобные алгоритмы применять.

Почти половина поисковых запросов состоят из одного слова. Запрос из одного слова - нечеткий запрос, это всего-навсего обозначение темы. В реале максимально полным и точным ответом на такой вопрос является определение + разложение темы на составляющие. Например, запрос - "Биология", ответ - "Биология - это наука о живой природе. ... ... ... Выделяются отдельные предметы, как-то Зоология, Ботаника... и т.п." По однословному запросу "Зоология" картина та же, только деление будет начинаться уже от этого раздела - зоология позвоночных и беспозвоночных. Как видим, такой тип ответа отображает картину области знания по определяющему термину. Поисковые системы не могут четко выделить смысловую область запроса и обозначить все возможные варианты развития поиска наверху, один за другим. Смысловых вариантов единицы и десятки, найденных документов - десятки тысяч.

Разработчики поисковых систем искали способы, чтобы верхними документами являлись наиболее соответствующие запросам пользователей, так появился термин "релевантность" и современные алгоритмы ранжирования. Сами вебмастера, "не ожидая милостей от природы", стали искать свои способы продвижения наверх собственных документов, появился спам. По сути - единство, по форме в крайних случаях - "в темноте, сзади и наоборот".

Обладая даже приблизительной информацией об алгоритмах ранжирования, о формулировках и частотах запросов и кой-каким опытом в этом деле, теоретически мы можем научиться заранее определять позицию нового документа в ряду уже существующих по какой-то теме. А тогда попробуйте заставить себя "отрешиться" от этих навыков при составлении документов, которые хотим использовать на своих сайтах. Или при той же заказнухе. В итоге странная картина: учимся профессионально "заманивать пользователей", совершая при этом "преднамеренные поступки", прекрасно зная, что поисковые системы от этого не в восторге и никакой грани даже не существует между оптимизированием и спамом.

Во, блин, философия рекламы в поисковиках. Может, кто что-нибудь про "моральный выбор" скажет?.. :0)

GK
На сайте с 07.02.2001
Offline
29
#5

2Gray Получился настолько самодостаточный, информативный и законченнный топик, что его неплохо было бы выделить в отдельную статью "Что есть спам?" Это будет заметно отличаться от множества других "...не стоит писать 500 символов в титуле, желательно ограничиться сотней, а еще лучше 70..."

Лично мне все ответы более чем понравились, и кое-что прояснили. А яндексовская формулировка спама - весьма лаконична

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий