Алгоритм поиска с обратной связью

N
На сайте с 18.05.2003
Offline
100
431

Разбираясь с поведением пользователей по AOLовской базе, мы выяснили, что посетители сами очень хорошо ранжируют сайт по качеству. Внизу оказались сайты действительно довольно стремные. (Рассматривались только сайты, по которым была хоть какая-то статистика. По 10 кликам естественно ничего нельзя сказать об отношении людей к сайту).

Вот это худшие сайты по мнению пользователей AOL (самые худшие внизу):

http://www.foreclosurefreesearch.com

http://tattoo.about.com

http://www.anysonglyrics.com

http://mujweb.cz

http://www.healthgrades.com

http://www.free-beauty-tips.com

http://www.celebsdb.com

http://www.boats.com

http://www.poemsforfree.com

http://www.allpar.com

http://www.allaboutvision.com

http://fashion.about.com

http://www.realty-usa.com

http://www.lyrics.com

http://www.abeservice.org

http://sliceoftheday.com

http://www.wannabuyamonkey.net

http://www.starfool.com

http://www.hair-styles.org

http://www.stagebeautymovie.com

http://www.saintralphmovie.com

http://www.midon.com

Топ не публикую, т.к. хочу сам попользоваться результатами в виде клонирования идей в рунете. В топе, оказались проекты от монстров, типа яхи, гугла, ибея, довольно много порнухи. И так же некоторые интересные сайты, которые вполне реально повторить. В рунете есть их аналоги, но ниши явно не забиты.

Методика ранжирования очень простая:

1) проводим небольшую чистку (примерно 10% результатов, портящих статистику);

2) если пользователь остановился на сайте, то ресурс получает "+", если пошел дальше, то "-";

3) отнормировали результаты.

Метод может быть использован любым поисковиком с наработанной статистикой, т.е. в рунете это яндекс, рамблер, гугл, мейл или апорт. Для этого по мере получения статистики для нового сайта пара показателей (или их аналогов) вИЦ + ссылочное плавно заменяется на "пользовательская оценка" + метакейвордс. Метод в долговременном плане устойчив к идиотам, которые могут проставить неправильные кейвордсы. Тогда пользовательская оценка будет падать.

Если кому-то очень хочется посмотреть топ, то себестоимость перевода моего словоблудия в алгоритмическую форму я оцениваю в $200. Поэтому я готов продать топ100 за $100 или обменять на интересные БД,

Т.к. яндекс на "Интернет-математике" с логами пожадничал:), то готов рассмотреть вопрос приобретения свежих логов любой из пяти поисковых систем по русскоязычным запросам за разумную плату или за результаты экспериментов. Интересуют логи от 20 млн. поисков с возможностью хотя бы приблизительно выделять поисковые сессии.

PS Для дорвеев мне вполне достаточно имеющихся у меня баз. Логи же требуются именно для исследований.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий