Компьюлента взяла интервью с Еленой Колмановской о Яндекс.Картинках. Новых технических деталей в нем нет, но обсуждается история проекта и его будущее.
С уважением,
Александр Садовский.
Я поговорил с Петром, ситуация с поисковиком следующая.
1. Поисковик -- прежде всего хобби Петра, а не коммерческая разработка, тем не менее, после доработки, он будет "пущен в свободное плавание" (основная задача -- увеличить быстродействие). Работает поисковик уже полгода. Реализация использует MySQL.
2. В качестве факторов ранжирования не используется ничего принципиально нового. Петр упомянул:
Действительно, похоже он появился совсем недавно. А вот кое-что о его авторе, Петре Власенко:
Родился в марте 1973 года.
Образование:
Работа:
Основное направление деятельности, начиная с 1996 г. – веб-разработка, программирование для www, базы данных.
Авторство/участие в проектах:
whois.com.ua - база данных по доменам *.UA
www.colocall.net - официальный ISP ColoCall
dns.com.ua - регистратор доменных имен
control.com.ua - служба мониторинга серверов
stat.infocom.km.ua - биллинговая система ISP
noc.evitel.net - биллинговая система ISP
www.in.net.ua - редиректинговая служба
crime.kiev.ua - криминальная хроника (совместно с ГУВД Киева)
fido.net.ua - интерфейс к базе конференций FidoNet
rating.km.ua - региональный рейтинг интернет-ресурсов
pix.com.ua - фотоколлекция, развлекательный сайт
music.com.ua - архив украинской музыки
banner.km.ua - региональная баннерообменная сеть
chat.km.ua - хмельницкий чат
pager.km.ua - отсылка e-mail на пейджер
vector.km.ua - консультант по выбору модема
и многое другое.
E-mail: peter@vlasenko.net
Из того, что не перечислено на этой страничке, могу добавить только:
Что родился Петр 31 марта 1973, а ICQ у него 5507930.
Формально это так. Но реально, задавая короткие запросы вида "дело", "почта" и подобные им, пользователь подразумевает вполне определенный контекст. Речь идет не о том, чтобы выделять по контексту документа смысл омонима, относя его к тому или иному слову. Речь о том, что из всей массы документов пользователя интересует небольшая доля, в которых обычно есть четко выраженный контекст, позволяющий отличить один омоним от другого. Примером такого контекста (хотя и очень неточным) могут быть слова из Рамблер-Ассоциаций. Для "дело" это:
а для "девать" ничего нет. Аналогично, для "почта"
а для "почти" ассоциаций нет. Сейчас существует немало алгоритмов классификации по теме, и большинство из них сумеют отсеять документы с лишними омонимами, если они не соответствуют теме, ожидаемой пользователем.
Вы можете заметить, что будут ущемлены те, кто ищет именно слова "девать" и "почти". Верно. Но, во-первых, это небольшой процент пользователей, во-вторых, как уже упоминалось, можно выдавать сообщение с предложением поискать по более редкому из двух омонимов.
Подсказка номер 1:
на сайте может стоять и другой счетчик с открытой статистикой, выдающий информацию по реферерам, например, RAX или Ping.
Подсказка номер 2:
Сайт редко находят по словам, которых на нем нет -- нахождение по ссылке, скорее, исключение, чем правило. На каждой странице встречается не более 3-5 слов(и их сочетаний), по которым ее могут отыскать, и несложно проверить, выдается ли сайт по этим словам в верхней десятке у ведущих поисковиков. Конечно, возможно нахождение и по редким словосочетаниям, случайно набранным пользователем, но это исключение, а задача, как я понял, найти источник трафика. Этот метод очень трудоемкий, но если ничего другого не остается, он все же дает хоть какие-то результаты.
Есть еще пара методов, но это уже авторские секреты. :)
Партнерская программа -- это процесс взаимодействия какого-либо сайта или магазина (организатора ПП) с владельцами других сайтов. Организатор ПП платит сайтам, а сайты рекламируют его за это. Оплата может быть очень разного плана -- за показы, за клики, процент с продаж и т.д. В отличие от обычной рекламы партнерская программа чаще связана с одним типом продаваемого товара и потому тематика сайта-партнера должна хотя бы частично пересекаться с нишей, в которой работает организатор ПП. Кроме того, чаще практикуется оплата в виде процента с продаж, что намного выгодней организатору.
Замечу, что реальный трафик от увеличения посещаемости можно получить только с Rambler's Top100 и, при некоторых условиях, с поиска Рамблера. Поэтому перед тем, как платить за фиктивные заходы (скажем, через системы визитинга), лучше оценить, сколько посетителей зайдут на сайт.
Что касается оплаты за клики, могу посоветовать две системы: Бегун и NTBA. Обе дают вполне заинтересованных посетителей (не хуже и не лучше, чем обычная баннерная реклама) по цене 1-5 центов за клик.
У DMOZ даже без искусственного поднятия Гуглом веса PageRank достаточно высокий индекс цитирования. Следовательно, любой поисковик, использующий как фактор ранжирования аналог PageRank, сочтет сайт более весомым, чем до попадания в DMOZ. Попадание в одну из высоких категорий может дать с нуля (без других ссылок на сайт) PR=6/10 или даже 7/10.
Ответ от службы техподдержки Рамблера:
1) строятся списки запросов, поданных каждым пользователем в течение одного дня. Для каждого запроса запоминается время;
2) запросы, поданные одним и тем же пользователем с интервалом не более 1,5 часа, объединяюся в группы. Такие группы запросов считаются кандидатами на ассоциации;
3) группы запросов от всех пользователей за все проанализированные дни
объединяются, подсчитывается, сколько разных людей подали на поиск одинаковые пары запросов;
4) для каждого запроса строятся списки ассоциаций. Для построения
используются сформированные на предыдущем шаге группы запросов;
5) выполняется аналитическая обработка сформированных ассоциаций -- выделяются наиболее "весомые" группы (кластеры), вычисляются меры близости между ними, запросы внутри группы ранжируются так, чтобы на верх списка поднимались те, которые заданы большим количеством людей и при этом присутствуют в похожих группах;
6) выполняется фильтрация мата.
Например, вот так:
Empirical Analysis of Predictive Algorithms for Collaborative Filtering
или по-другому.
Во-первых, в искомой фразе "l;bg" есть знак препинания, поэтому Рамблер воспринимает его как два слова -- "l" и "bg". Во-вторых, ассоциации не всегда двунаправленные. Например, слово Путин ассоциируется у интернетчиков с "тестом на беременность", но тест на беременность не ассоциируется с Путиным.
Дело не только в части речи, а в выборе наиболее вероятной формы слова в случае отсутствия контекста. Евгений приводил еще один пример: дело = день (тоже логично: дело => девать => день). Я написал Илье Сегаловичу, он сказал, что они сейчас работают над этим.