Во-первых, у меня вышло 14 серверов и 468 страниц. Я задавал запрос, как рекомендуется Яндексом, через форму расширенного поиска, исключив ссылки с форума на себя.
Вот эти 14 ссылок:
1. http://www.besplatno.ru/forum/Forum2/HTML/000151.html
2. http://askme.webclub.ru/cgi-bin/forum.cgi?action=thread&id=97
3. http://net.technic.ru/print.php3?sid=53
4. http://hisnameis.narod.ru/p_98.htm
5. http://www.x-time.ru/cgi-bin/cataloglist.cgi?c=12&a=0&i=2&r=207
6. http://www.hi.ru/g.asp?id=506&id1=5&id2=&id3=&id4=&nn=100
7. http://www.microsoft.windows.ce.ru/cat/777/0060.html
8. http://lbe.ru/sites.html?group=00000010
9. http://www.submitter.ru/sites/ru/2/
10. http://hi.ru/g.asp?id=506&id1=5&id2=&id3=&id4=&nn=100
11. http://www.hellzone.spb.ru/hellforum/showthread.php?postid=141
12. http://www.elvesta.kiev.ua/cgi-bin/v_list2.cgi?kat0=1003&page=22
13. http://www.ce.ru/cat/000/10510.html
14. http://www.coollinks.ru/links.htm
Итак, видно, что ссылка под номером 5 находится на бесплатном хостинге narod.ru. Далее, ссылки 6 и 10 идентичны, отличаются только именем домена. Ссылки под номерами 7 и 13 соответствуют одному каталогу (сайту), и потому тоже могут считаться идентичными. Уже остается 11 ссылок из 14.
Ссылка 1 может быть воспринята как ссылка со своего сайта besplatno.ru на его же раздел besplatno.ru/se/. "Осталось" 10 ссылок. Если
теперь приравнять к "бесплатной" любую категорию сайтов, где поместить ссылку крайне легко (форумы, гостевые, каталоги и пр.), то количество ссылок на данный форум становится меньше 10.
Более точно логику CY смогут объяснить только сотрудники Яндекса.
А зачем каждый раз нужно лазить на Яндекс, если можно установить себе кнопку-индикатор CY?
Что касается предлагаемой формочки, то, вероятно, логичней вместо запроса
#link=sitename.ru
задавать запрос:
1) исключающий среди ссылающихся серверов тот, который анализируется;
2) учитывать ссылки не только на корневую страницу, но и на разделы, и на отдельные документы сайта:
#link="sitename.ru*" ~~#url="sitename.ru*"
Более того, в своей формочке ты правильно сделал, задав запрос через serverurl, так как обычный запрос не учитывает ссылки на зеркала сайта и его доменные синонимы (например, www.sitename.ru), как это явствует из http://forum.yandex.ru/?id_note_forum=14457&by_count_days=30&cur_page=1&by_count_page=75 .
Вероятный ответ см. на форуме Яндекса:
http://forum.yandex.ru/?id_note_forum=14470&by_count_days=10&cur_page=1&by_count_page=75
В двух словах, Яндекс перестал учитывать в CY ссылки с сайтов на бесплатном хостинге, так как многие веб-мастера создавли уйму "пустых" страниц со ссылкой на свой сайт исключительно для повышения индекса цитирования.
Кроме того, это мои личные наблюдения, данные по CY обновляются не в реальном времени, а с интервалом около недели или больше. Причем имеет место даже небольшое рассогласование во времени между обновлением собственно CY в каталоге и обновлением числа, отображаемом на кнопке с CY.
Мне кажется, Илья сказал только о том, что "классическая IR в чистом виде к интернету не применима" и "форум, по сути, данный тезис в развернутом виде".
И не только в этой. Я уже писал в @banners про загадочную систему ценообразования LBE:
=== Cut ===
Надеюсь ошибиться, но такое впечатление, что LBE считает деньги своим, никому не понятным образом. Самый живой пример -- цены на рекламу в этой баннерной сети. Примерно в марте этого года на сайте LBE появилось гордое заявление о том, что на базе салона мобильной связи (а попросту, как и LBE на тот момент, еще одного проекта г-на Клименко), "было проведено исследование", которое показало, что для того чтобы эффективность рекламы в сети совпадала с эффективностью печатной рекламы, цена на показы должна быть равна $1,8 за тысячу. При этом методика исследования тщательно скрывалась, и при чем тут мобильная связь, так и осталось загадкой. Но пришел апрель, и то ли печатная реклама резко стала неэффективной, то ли реклама LBE стала ужасно эффективной, но фраза об "исследовании" не изменилась, а цифра выросла до $2,8 за тысячу показов. Майское обновление сайта LBE я уже встречал хохотом: косметические изменения коснулись только цены за баннеры, которая преобразилась в гордое $3,8 за тысячу.
Таким нехитрым образом категорический императив Клименко о примате количества баннеропоказов в определении полезности сайта приобрел на практике второе, денежное измерение.
"Вот скажи мне, американец, в чем сила? Думаешь сила в деньгах? Вон и брат говорит что в деньгах... А я думал, что сила в баннерах..."
И это, конечно, далеко не все. Постоянное сотрудничество list.ru с бездарными проектами вроде fomenko.ru нанесло Листу, на мой взгляд, непоправимый ущерб имиджу. Стремление показать баннер в каждом уголке тоже вряд ли добавляет им популярности. И перечислять подобные "штрихи к портрету" можно очень долго.
Так что говорить о том, что Лист испортил свою репутацию историей с Яндекс.Бар, по-моему, неправомерно -- Лист в моих глазах никогда и не имел высокой репутации.
С уважением, Александр Садовский.
[This message has been edited by funsad (edited 19-12-2000).]
Очень напоминает известную историю с инсталляцией IE поверх Netscape. Как мы видим, это кончилось разделением Microsoft.
Вы имеете в виду пару книг
Information Retrieval: Data Structures and Algorithms
by William Frakes, Ricardo Baeza-Yates (Editor), Richardo Baeza-Yates (Contributor)
http://www.amazon.com/exec/obidos/ASIN/0134638379/qid=977094416/sr=1-2/002-4460495-2892060
и
Modern Information Retrieval (Acm Press Series)
by R. Baeza-Yates, Berthier Ribeiro-Neto, Ricardo Baeza-Yates
http://www.amazon.com/exec/obidos/ASIN/020139829X/qid=977094035/sr=1-1/002-4460495-2892060
Просто на Amazon есть несколько книг с похожими названиями.
Большое спасибо за подсказку.
Я уже упоминал на форуме, что читаю в ХАИ (ныне Национальный аэрокосмический университет) лекции по теме "Эффективный поиск информации в интернете". Кому, как не мне, знать подобные списки?
Кстати, почему бы Яндексу не организовать курсы по обучению поиску информации или хотя бы сайт? Учитывая его авторитет и имидж в этой области, мне кажется, курсы пользовались бы немалой популярностью. Кроме того, подобные курсы удачно бы дополняли основные услуги Яндекса, не конкурируя с ними. На их основе можно было бы наладить исследования поведения пользователей при поиске, на основе которых можно сделать Яндекс более эффективным.
Я давно занимаюсь этой темой, и могу сказать, что спрос на информацию огромный, но даже в обычных библиотеках искать ее умеет далеко не каждый.
И тут есть тонкости. Мертвые ссылки нельзя однозначно толковать как "минус" Апорту, нужно смотреть на запрос. С помощью "реконструкции текста", как правило, можно получить достаточную информацию. Только если запрос был по поиску информации, которая без графики не обойдется, либо подразумевающий сайт в целом (а не один релевантный документ), только в этих случаях Апорту нужно засчитать "минус".
Если не повторить затем исследование в десятке других областей, обязательно пойдут нарекания в необъективности. Поиск специальных терминов в области геологии, которые встречаются редко в обыденной речи, может существенно отличаться от поиска, например, музыкальной информации, где запрос "Ногу свело" означает не желание найти медицинскую помощь, а удовлетворенность состоянием "уши свело". Аналогично, поиск информации о математике и химии, где активно используются специальные символы, которые веб-мастера могут просто перевести в графику, будет отличаться от исследования геологической тематики, где почти всю информацию можно выразить словесно.
Тоже спорно с точки зрения точности оценки релевантности, но имеет однозначный плюс в смысле справедливости и равноправности условий для поисковиков.
Мне кажется, что методика получислась чересчур упрощенной, но я согласен, что для первой попытки, возможно, более сложная и не нужна.
[This message has been edited by funsad (edited 18-12-2000).]
Вы правы, действительно интересная дискуссия. Однако, она оставляет одно желание -- найти хорошую литературу на тему поисковых технологий. На Amazon я нашел только одну книгу по данной теме -- мало того, что стоит она $295, так еще о ней есть два негативных отзыва. Возможно, Вы можете подсказать какие-нибудь удачные труды или хотя бы URL. Был бы очень благодарен за такую информацию.