funsad

Рейтинг
116
Регистрация
15.11.2000

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
По-видимому, руководство Яндекса проводит кампанию по борьбе со спамом своих индексов, чему, по их мнению, способствует мой анализатор.</font>

Думаю, жизнь гораздо прозаичней. Когда я тестировал анализатор, я задал около 10 запросов. Учитывая, что по умолчанию стояло 50 проверяемых позиций, то TopPing загрузил пять страниц (если считать, что во всех случаях мой URL не находился в top-50), в то время как средний пользователь просматривает чуть больше 2 страниц. Следовательно, я через TopPing создал нагрузку на Яндекс, эквивалентную 25 обычным пользователям.

Учитывая, что на рассылку Харченко подписано более 8500 человек, а данный форум посещает под сотню человек в день, даже если 5% читателей Харченко и 30% данного форума испытали анализатор, получается 500 человек. Умножаем на коэффициент 25, получаем 12500 "условных человек". При средней посещаемости 300'000 в день по Спайлогу, то есть почти 5% номинальной нагрузки. А если бы поэкспериментировали не 500, а все 9000 человек? Это уже эквивалент 200'000 "условных пользователей". Зачем Яндексу бесплатно тянуть эту дополнительную нагрузку, не связанную с непосредственно поиском, когда их рекламные показы пропадают зря?

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by NewsSearch:
А что тут сложного: в БС "текст" лежит в базе данных, робот берет новость с сайта и ложит ее в ячейку БД, а потом БС извлекает этот текст.</font>

"Берет новость с сайта" означает, что робот отслеживает отличия на странице. А если изменился дизайн или навигационное меню? Как робот узнает, что появившееся "Ссылки" вместо "Links" -- это не новость? Пока сайтов десятки, за ними еще можно уследить, когда их будут сотни -- одним модератором не обойтись. Поэтому отслеживание роботом я считаю малоперспективным.

Если же подразумевается, что информацию предоставляют авторы, достаточно посмотреть, сколько сайтов на сегодня предоставляют информацию для my.yandex в формате RSS. Казалось бы, готовый канал получения посетителей -- и тем не менее участвуют только 30-40 сайтов.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by Gray:
Вот и возникла мысль добавить несколько разделов к форуму, скажем, посвященные баннерной рекламе, другим видам рекламы, может быть, техническим вопросам вебстроительства.</font>

Вебстроительство? Думаю не стоит, потому что таких сайтов больше, чем парней в женском общежитии после полуночи. Даже если вопросы завязаны непосредственно на технологии работы с SE, их лучше задавать в соответствующем разделе (например, клоакинг). Достаточно вместо данного раздела составить хороший FAQ-каталог ресурсов, где это можно прочесть.

А вот раздел по баннерной рекламе я бы приветствовал. Кроме листа e-banners, где постоянно спорят, чья распальцовка круче и кто кому не уступит, качественного места для обсуждения баннерной рекламы я не знаю. Пусть трафик в разделе будет первое время небольшим, но нормальная модерируемость, надеюсь, сделает его полезным.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by Gray:
Сегодня Илье Сегаловичу исполняется 37 лет.</font>

Илья, я с удовольствием присоединяюсь к поздравлениям. Желаю, чтобы в жизни у Вас всегда все находилось, независимо от того, как Вы сформулируете запрос и насколько бы сложен он не был. :-)

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
Судя по тому, что все молчат, или ищет слишком хорошо или совсем не в дугу
Программа получилось конкурентноспособной, скажем, с Metabot.ru?
</font>

Увы, пока слабей. Смотрим запросы:

GMAT примеры вопросов

У Metabot 1, 2, 5 и др. документы, судя по аннотации, точно соответствуют запросу. У Metaping -- в первой десятке ничего точного нет.

как делать гелевое наращивание

У Metabot подходящие ссылки 1, 2, 3 и т.д.

У Metaping -- 3, 5 и т.д.

По запросам "купить автомобиль", "Мастер и Маргарита" снова Metabot опережает Ping, хотя и незначительно.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by katya:

А кто знает откуда берется в Яндексе внизу (при результатах поиска) "Популярные находки наших пользователей"? Как они "находятся"?
</font>

Вот тут немного рассказал Илья Сегалович:

Вкратце: на каждый запрос (группы очень похожих запросов сливаются в один) считается число пользователей, выбравших документ. Чем больше разных людей его выбрало и чем дальше он отстоял от первой страницы найденного, тем больше шансов у него оказаться в этой секции.

В разделе Помощи Яндекса тоже есть информация:

Популярные находки наших пользователей

При поиске вашего запроса мы учитываем опыт тех, кто искал то же самое до вас. После результатов поиска по вебу вам предлагается список документов, которые определяются по статистике перехода на них по данному запросу. При этом в статистику не попадают документы, выводимые по этому запросу на первой странице результатов. То есть в дополнение к автоматическому рассчету релевантности вам предлагается также некоторый человеческий опыт. Популярные находки наших пользователей выводится в результатах поиска только при точном соответствии запросу.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by Gray:
Однако, Саша.
Эксперту все же стоило бы лучше ориентироваться в форумной иерархии
</font>

Поскольку Артем занимается диссертацией не первый день, Wolf уже защитился, значит, методом исключения, Тихонов?

<font face="Verdana" size="2">Originally posted by Gray:
Илья, выдача действительно разная в зависимости от способов поиска.</font>

Аналогично. И refresh ничего не меняет.

<font face="Verdana" size="2">Кстати, поздравляю с поступлением в аспирантуру </font>

Поздравляю! Кстати, кто именно поступил в аспирантуру, Илья? По какому направлению планируется (или уже готова) работа?

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by Sad Spirit:
а по поводу большого CI РБК --- это видимо, связано с тем, что они отдают курс доллара, погоду и т.п.? есть о чём задуматься... </font>

Дело, похоже, не только в количестве ссылок. На Яндекс, согласно CY, ссылок на 1500 больше, чем на РБК (9622 и 7992, соответственно). Но у Яндекса CI равен 150, а у РБК 1400. Я не верю, что такое могло быть случайно -- при общем числе ссылок в сотню "потеряный" Апортом десяток сайтов играет роль, а когда речь идет о тысячах, тут, думаю, и сотня ссылок не так заметна.

Следовательно, можно предположить, что CI не просто пропорционален числу ссылок на сайт, а пропорционален его весу по алгоритму PageRank, то есть в нем учтен вес ссылающихся сайтов.

Это предположение не противоречит тому, что вес сайта по PageRank коррелирует с числом ссылок на него. Я проводил эксперимент, на группе уже в 1000 сайтов корреляция веса по PageRank и числа ссылок на сайты составляла r=0,55..0,65. Когда речь идет о крупных сайтах и гораздо больших группах, логично предположить, что r возрастет, и 0,77 -- вполне подходящее значение.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by Nicholas:
Большое спасибо, уже понятнее.
PS: В NL еще добавляется &orl=2:1 вот это я не понял что есть такое.
</font>

В Northern Light есть понятие "Special Collection". Это группа документов, которые не доступны бесплатно -- статьи из журналов, газет, некоторые пресс-релизы и т.д. Данный оператор в URL исключает поиск из Special Collection, ограничиваясь только бесплатным WWW.

С уважением,

Александр Садовский.

Всего: 1503