funsad

Рейтинг
116
Регистрация
15.11.2000

<font face="Verdana" size="2">Originally posted by Master99:
Распределение количества посетителей от номера позиции примерно экспоненциальное. При этом нужно учесть, что где-то 70% процентов дальше первой страницы списка не смотрят вообще.</font>

Может, Илья или Игорь ответят на этот вопрос?

По данным Дэвида Гиканди получается, что:

Research has shown that people hardly ever go past the top 30 search results for any one search. The top 10 results receive 78% more traffic than those in position 11 to 30 do. The top 30 results get over 90% of the search traffic.

Следовательно, на первой странице останавливаются 58% пользователей, на второй и третьей -- 32%, на все остальные страницы приходится около 10%.

Количество просмотренных страниц, на мой взгляд, зависит от релевантности (если все ссылки никуда не годятся, вряд ли кто пойдет на вторую страницу; и наборот -- если сразу все найдено, зачем идти еще куда-то), от количества ссылок на странице, от времени отклика поисковика и т.д.

Исследование четырех поисковиков (AltaVista, Excite, Google и Hotbot), проведенное фирмой Compaq, утверждает, что соотношение числа просмотренных страниц с результатами поиска несколько выше. Среднее число просмотренных страниц на один запрос составило 2,15. Если рассматривать только случаи, когда пользователь просматривает более одной страницы, среднее число страниц на запрос составило 3,98.

<font face="Verdana" size="2">Если же ты на 5, 10 позиции, то однозначно ответить, сколько посетителей придет нельзя. Т.к. здесь нужно учитывать сколько раз посетители вводили твой запрос, насколько привлекательно выглядит описание твоего сайта, выдаваемое поисковиком, в конце концов какой у тебя хостинг, т.к. если до тебя не достучаться то никаких посетителей у тебя не будет.</font>

Согласен. Кроме того нужно учитывать релевантность ссылок, которые стоят выше вашей ссылки -- если уже найдено нужное, до вашей ссылки никто не дойдет. Я испытал это на собственном опыте. Когда по малопопулярному запросу (3-10 запросов в сутки) ссылка на мою страницу стояла второй, я получал 1-5 человек в сутки, когда ссылка стала колебаться возле 5-8 мест (при релевантных ссылках выше), число заходящих уменьшилось до 1 человека в 2-3 дня.

Что касается того, сколько документов пользователь открывает, на небольшом метапоисковике было проведено исследование. Вот результаты (слева -- число просмотренных документов, справа -- процент сессий):

0 - 53.0

1 - 26.9

2 - 8.4

3 - 4.2

4 - 2.3

5 - 1.6

6 - 1.1

7 - 0.7

8+ - 1.9

Более точные цифры того, сколько трафика дает первая ссылка, а сколько 5-я или 10-я, сможет ответить только Игорь Ашманов, потому что на сегодня только в Рамблере есть система учета кликов по ссылкам (в Яндексе от нее отказались еще года два назад -- она неудобна для пользователя).

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by andre:
Мы часто используем слова "спам", "спамминг", "спамдексинг".
Большая просьба: ответьте, пожалуйста, что лично Вы подразумеваете под спамом поисковых систем?
</font>

Спам -- преднамеренные действия человека с целью заставить поисковую систему считать релевантность страницы или группы страниц, большей, чем она есть на самом деле. Под релевантностью я подразумеваю ту самую субъективную меру соответствия выданных документов ожиданиям пользователя, а не конкретную реализацию системы ранжирования документов. Следовательно, спам поисковиков тоже понятие субъективное.

Является ли спамом "преднамеренное использование известных формулировок запросов"? It depends. Если слова "вакансии работа" поменяли местами, это не спам. Если на юмористическом сайте вместо "юмор" написали "приколы", это не спам. Но если на странице о судмедэкспертизе вместо слова "сношение" поставлено "секс" -- это спам. Не применяется данный термин в данной области.

На практике спам, как правило, оказывается воздействием на содержание и оформление страницы, а также воздействием на другие элементы web-среды (например, расстановкой ссылок на страницу с других сайтов).

Как поисковик может выловить спам? Я имею в виду грамотный случай спама, когда ранг документа увеличивается ровно настолько, чтобы занять первые места по какому-либо запросу, но не пытаться обогнать еще не существующие в базе страницы.

В таких случаях поисковик не может опираться в поисках спама только на анализ текста, потому что не знает и не может знать, как выглядит текст "нормальной страницы", не использующей спама -- даже на узкую тему таких текстов десятки (да и классификация текстов по узким темам задача сама по себе нетривиальная), плюс поисковик не имеет гарантии, что гипотетическая "нормальная страница" существует в его базе. Более того, если в анализе текста поисковик будет опираться на собственную базу, корректно определить "нормальную" частотность слов и терминологический запас для данной области он сможет только в "чистой" web-среде, где нет ни одной спамерской страницы на исследуемую тему.

С оформлением еще хуже -- в большинстве случаев нельзя достоверно сказать, вызвано ли данное дизайнерское решение плохим вкусом или попыткой спама. И уж совсем худо со внешней средой -- кто может ответить точно, проставлены ссылки на страницу из-за активности владельца или потому что она столь хороша?

В итоге, приходим к тому, к чему давно пришли западные поисковики -- поскольку релевантность субъективна и зависит от пользователя, пусть этот пользователь и определяет ее. Поэтому ранг сайта зависит от числа кликов по ссылке и от среднего времени нахождения на найденной странице.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by AiK:
Я собственно пытаюсь подвести Вас к мысли о пределах применимости "закона". Тот же закон Бойля-Мариотта справделив только в н.у. т.е. при комнатной температуре и давлении в одну атмосферу.</font>

Безусловно, закон Зипфа нельзя назвать универсальным, и работает, как я уже сказал, он не всюду -- только большие и социально-зависимые числа. Есть еще ряд менее явных ограничений. Но это в данной ситуации не важно, главное, что он действует на большинстве текстов, и, следовательно, применим в поисковиках.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by Master99:
А почему об этом каталоге все молчат? Вообще он ведь очень старый и след-но база должна быть приличной, так что по идее там можно чего-нибудь дельного найти.</font>

Я зарегистрировался в www.ru в начале прошлого года, в то время небольшое количество посетителей он давал (максимум 2-3 человека в день). За последние полгода я не могу вспомнить ни одного посетителя с него.

Еще бы! Я проверил посещаемость www.ru -- в последнее время она едва достигает 5000 человек в сутки. Даже по первой ссылке самого популярного запроса вряд ли приходят сейчас больше 30 человек в день.

С уважением,

Александр Садовский.

[This message has been edited by funsad (edited 18-02-2001).]

<font face="Verdana" size="2">Originally posted by Ashmanov:
А поисковой машине Рамблер это не очень полезно, Яндексу и Апорту - тоже. По крайней мере, сразу этой пользы не видно.

Но ведь и пользователям - тоже не очень.
</font>

Игорь, я полностью согласен с Вами. Но я также поддерживаю мнение Андрея (а не его вариант реализации идеи). Как это может быть? Очень просто.

1. Я уже писал, что веб-мастеров (в отличие от спамеров) не сильно интересуют абсолютные значения частот запросов. Самая важная информация -- относительные значения в тематической группе запросов. Для Рамблера с появлением механизма "тематической" перевязки, как я понимаю, составление таких списков не является проблемой.

Например, если одна из моих страниц содержит афоризмы и каламбуры, я хотел бы знать, по какому из слов ее позиционировать: "афоризмы", "крылатые выражения", "фразы", "каламбуры" или что-то еще. Я не стану продвигать страницу под словом "порно" или "секс" -- зачем? -- но делать по всем релевантным словам отдельные страницы невыгодно ни мне (трата времени), ни поисковику (засорение базы).

Делать же по случайному слову означает игнорировать мнение пользователей -- они будут искать "каламбуры" и не находить их, так как те спозиционированы как "афоризмы". Тот же эффект наблюдается, если не проводить позиционирования вообще: как вы думаете, часто можно встретить афоризм, который содержит слово "афоризм"? И как робот узнает о том, что это афоризм? Вот и находят поисковики статьи про афоризмы вместо самих афоризмов.

2. Спамеров интересует, как правило, самая актуальная информация, потому что только из нее можно выжать максимум посещений. Сезонные колебания (рефераты, отпуска), катастрофы, политика -- все это дает большие всплески посещаемости. Обычным веб-мастерам не столь важно, сделаны запросы месяц назад или вчера -- психология людей, выбирающих вместо "вакансии работа" фразу "работа вакансии", меняется очень медленно. Только рост рунета и появление армии чайников способны существенно изменить статистику запросов. Но если обновлять их раз в 1-2 месяца, никаких проблем не будет.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by AiK:
Зарегистрироваться там понятно как. Но ни одна(!) моя страница не была проиндексирована. Пузомерки ставил - не помогает. В лучшем случае отображается та информация, что была внесена при регистрации
Поделитесь опытом плиз
</font>

После одновременной регистрации в Top100 и поисковике, Рамблер проиндексировал мой сайт примерно через месяц. Это был декабрь 1999.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by AiK:
А интересуют они меня по причине своего выпячивания. Т.е. я могу допускать, что 100 человек за месяц искали скажем mp3, но вот для того, что бы те же 100 дяденек или тетенек искали какой-то AnchorNet (а сайтов о нём или с ней всего-то раз два и обчёлся) должна быть веская причина.</font>

Прежде чем я выскажу свои предположения относительно причины таких событий, хочу заметить, что 30-100 места в top-100 запросов означает около 400-1000 запросов за месяц.

Вариант 1.

Артем, представьте, что Вам надо оптимизировать под поисковик страницу об автоматической регистрации сайтов. Что Вы будете делать первым делом? Зададите запросы "регистрация сайта", "регистрация", "регистрация страницы" и т.д. Просмотрите лучшие результаты. Затем создадите свой вариант страницы, зарегистрируете ее. Проверите, как она выглядит по всем этим запросам. Проверите через день, два, три. Думаю, после всего этого запрос "регистрация" встретися в статистике минимум 50-100 раз. Вы упомянете об этом на форуме, кто-то решит проверить, и т.д.

Вариант 2.

Есть ряд ситуаций, когда требуется отслеживать информацию во времени: что нового появилось. Подписка на запросы есть только у Яндекса, для остальных поисковиков приходится повторять запрос по нескольку раз в день.

Вариант 3.

Тестирование каких-либо функций. Например, метапоисковик использует какой-то тестовый набор запросов для определения релевантности. Некоторое время назад для проверки "Прямого эфира" Яндекса я тестировал его, многократно вводя в течение часа запрос вроде "триангуляция синхрофазатрон экстравертность", чтобы быть уверенным, что этот запрос задал именно я. Думаю, в статистике это выглядело странным.

Вариант 4.

Запросы, предлагаемые сетевыми или офлайновыми СМИ. Например, на главной странице Яндекса часто "Новость дня" задается в виде поискового запроса по новостям. Аналогично, у Google в январе был не на последнем месте запрос "dumb motherfucker".

Вариант 5.

Когда я проводил лабораторные со своими студентами, я иногда давал общее для всех задание. Вероятно, все 70 человек использовали схожие или одинаковые запросы.

И т.д. Следует заметить, что поднявшийся в популярности запрос, как правило, пропорционален числу переходов по найденным страницам. Это видят в статистике веб-мастера, и многие из них проверяют ранг ссылки на их сайт, а то и начинают оптимизировать ее. В свою очередь, подобная активность может вызвать интерес у сотрудников поисковика, которые тоже зададут запрос -- в итоге получается цепная реакция.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by AiK:
1. Чем длиннее текст, тем вероятнее он соответствует закону Зипфа.</font>

Безусловно. На малых величинах этот закон (как, впрочем, любой статистический закон) в принципе не действует, так как слишком велика роль случайных отклонений. Именно поэтому в иллюстрациях к закону, как правило, участвуют понятия, измеряемые миллионными числами -- население городов, посетители крупных веб-сайтов и т.д.

<font face="Verdana" size="2">2. Чем беднее язык пишущего, тем менее он соответствует закону, т.к. число слов-паразитов (или стоп-слов) довольно велико, а остальные слова имеют примерно одну и ту же частоту, что соответствует в пределе прямой на графике.</font>

Артем, у меня, к сожалению, нет под рукой достаточного количества "бедноязыковых" материалов для практической проверки данной гипотезы. Но могу порассуждать, чтобы в ответ на вышеизложенную гипотезу появилась другая гипотеза, опровергающая ее.

Рассмотрим нормального человека. Словарный запас любого человека делится на относительно небольшой активный (далее АЗ) и пассивный. В кратковременной памяти человек может держать небольшое число объектов (5..9), поэтому, описывая какие-либо события или факты, он будет подбирать слова из АЗ, относящиеся к объектам, которые находятся в фокусе его внимания. Аналогично, в фокусе внимания не могут находиться десятки слов из АЗ -- на этот фактор также воздействует объем кратковременной памяти. Чем больше употребляется какое-то слово, тем сильнее оно стремится закрепиться в состоянии активности. Поэтому следом за предлогами и вводными словами из АЗ (1-я группа) чаще всего будут встречаться слова из АЗ, относящиеся к описываемой теме (2-я группа). Затем по частоте будут идти общие слова из АЗ (3-я группа), и лишь в конце -- слова из пассивного запаса, ассоциирующиеся с описываемой темой (4-я группа).

Теперь рассмотрим человека с бедным словарным запасом. В чем заключается "бедность"? Как правило, это маленький пассивный запас и малый АЗ конкретных (не общих) слов (например, терминов), т.к. общие слова человек слышит постоянно (предлоги, "#ля" и пр.), значит 1-я группа слов будет в наличии непременно. Описывать тему хоть несколькими конкретными словами придется, иначе сообщение окажется бессмысленным. Следовательно, 2-я группа слов тоже будет присутствовать, просто "суперфилолог" подберет для описания слова, близкие к общим (вместо "архитектурное сооружение" -- "здание", "дом", а то и "эта фиговина"), и в меньшем количестве, компенсируемом частотой. Третья группа также должна присутствовать, так как редко кому удается с помощью "#ля" удачно связать термины "эта фиговина" и "та хреновина", просто 3-я группа будет бедной. А вот четвертой группы, возможно, и не будет.

Что получается? Хотя слова из 1-й группы будут употребляться чаще, чем человеком, владеющим языком, но за счет меньшего количества терминов во второй группе отрыв 2-й группы от 1-й будет не так велик. А третья группа (довольно маленькая) заменит третью и четвертую группу человека, владеющего языком. В итоге закон Зипфа будет верен.

Я только что случайно наткнулся на статью, в которой рассматриваются вопросы вхождения слов в АЗ в зависимости от того, какого типа это слово (неологизм, термин, обычное, архаизм и т.д.). Так вот, следующие за статьей таблицы и комментарии, несмотря на малое число испытуемых (30), в целом подтверждают законы Зипфа.

<font face="Verdana" size="2">3. Чем богаче язык пишущего (т.е. чем больше он использует синонимов), тем опять-таки он меньше соответствует закону, ибо "весомые" слова будут иметь примерно одну и ту же частоту, за счёт взаимозаменяемости.</font>

Здесь тоже есть свои ограничения, которые влияют на понимание и восприятие текста. Нельзя все заменять синонимами. Вот простой пример:

"Иван-царевич выстрелил из лука и пошел искать стрелу. Долго шел Иван, пока не увидел болото. Там сидела лягушка с его стрелой во рту. И говорит ей царевич: "Пасть порву, моргало выколю, заостренный стержень отдавай!" Земноводное и отвечает: "Не губи меня, сын царя, ведь по закону мне 25% найденного клада причитается". Задумался тут парень, и молвит пучеглазой: "Раз ты нашла стрелу, я должен на тебе жениться, следовательно, выкопанное сокровище -- это я, поэтому, четверть меня -- твои". Обрадовалась квакушка, и молвит парубку: "Согласна!" Но толкнули ее слова представителя власти в раздумья, а какую часть себя отдавать?

<font face="Verdana" size="2">Возможно закон и справедлив для скудного английского языка, но что-то слабо верится в действенность этого закона в применении к русскому языку. Кстати, закон подразумевает уменьшение частоты встречаемости второго слова в два раза (+\- константа), что на мой взгляд может быть справедливо по отношению к словарной статье, но ни как к сравнимому по объёму литературному произведению, ни тем паче к стихотворению.</font>

Со стихотворением мы уже разобрались -- у него слишком малый объем. Что касается языка, то, безусловно, отличия будут, но не столь значительные. Это ведь легко проверить.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by AiK:

Рассказал бы о законе. Я мож статистику удобнее сделаю.
</font>

Закон Зипфа (в менее общей форме -- закон Бенфорда, в более общей -- Мандельброта) отражает соотношение социально-зависимых (или природно-зависимых) величин и их ранга, определяемого как порядковый номер величины.

Закон Зипфа может применяться, например, для анализа текстов (идентификации авторства и определения жанра), для проверки уклонения от уплаты налогов, определения накруток счетчиков, анализа населения городов и т.д. Лично я успешно использовал закон Зипфа для определения того, "дописывает" ли моя телефонная компания в счет "левые" разговоры, или нет.

Вот некоторые статьи на эту тему:

Поиск в Интернете -- внутри и снаружи: описывает некоторые принципы анализа текстов, используемые поисковыми машинами.

Zipf Curves and Website Popularity: о распределении посещаемости страниц сайта и генераторов трафика.

Relationship Between Vocabulary, Text Length and Zipf's Law: Исследование соотношения числа слов тексте и длины текста для определения авторства и жанра.

Вот еще кое-что про закон Зипфа:

Benford's Law and Zipf's Law

The power of one

Zipf's Law

С уважением,

Александр Садовский.

[This message has been edited by funsad (edited 10-02-2001).]

<font face="Verdana" size="2">Originally posted by Master99:
О. А как можно УКАЗАТЬ размеры не явно???</font>

В структуре файла jpg/gif указывается размер картинки в пикселах. Часто эту информацию дублируют в атрибутах width/height тега img, потому что сайты обычно строятся на таблицах, и задание четких размеров позволяет отобразить таблицу как только будет считан текст внутри нее, а не дожидаться загрузки всех изображений.

Если размеры изображения не указаны, большинство поисковиков не загружают картинки, так как это, как правило, им не нужно и слишком расточительно в плане ресурсов. Следовательно, если залинковывать изображение без явно заданных атрибутов высоты и ширины, оно, скорее всего, анализироваться на предмет малого размера не будет.

С уважением,

Александр Садовский.

Всего: 1503