funsad

Рейтинг
116
Регистрация
15.11.2000

Компьюлента взяла интервью с Еленой Колмановской о Яндекс.Картинках. Новых технических деталей в нем нет, но обсуждается история проекта и его будущее.

С уважением,

Александр Садовский.

Я поговорил с Петром, ситуация с поисковиком следующая.

1. Поисковик -- прежде всего хобби Петра, а не коммерческая разработка, тем не менее, после доработки, он будет "пущен в свободное плавание" (основная задача -- увеличить быстродействие). Работает поисковик уже полгода. Реализация использует MySQL.

2. В качестве факторов ранжирования не используется ничего принципиально нового. Петр упомянул:

  • частотные характеристики слов,
  • теги, в которых находятся ключевые слова,
  • как близко находится слово к началу документа,
  • число ссылок на страницу,
  • "несколько абстрактных факторов".

С уважением,

Александр Садовский.

Действительно, похоже он появился совсем недавно. А вот кое-что о его авторе, Петре Власенко:

Родился в марте 1973 года.

Образование:

Работа:

Основное направление деятельности, начиная с 1996 г. – веб-разработка, программирование для www, базы данных.

Авторство/участие в проектах:

whois.com.ua - база данных по доменам *.UA

www.colocall.net - официальный ISP ColoCall

dns.com.ua - регистратор доменных имен

control.com.ua - служба мониторинга серверов

stat.infocom.km.ua - биллинговая система ISP

noc.evitel.net - биллинговая система ISP

www.in.net.ua - редиректинговая служба

crime.kiev.ua - криминальная хроника (совместно с ГУВД Киева)

fido.net.ua - интерфейс к базе конференций FidoNet

rating.km.ua - региональный рейтинг интернет-ресурсов

pix.com.ua - фотоколлекция, развлекательный сайт

music.com.ua - архив украинской музыки

banner.km.ua - региональная баннерообменная сеть

chat.km.ua - хмельницкий чат

pager.km.ua - отсылка e-mail на пейджер

vector.km.ua - консультант по выбору модема

и многое другое.

E-mail: peter@vlasenko.net

Из того, что не перечислено на этой страничке, могу добавить только:

Что родился Петр 31 марта 1973, а ICQ у него 5507930.

С уважением,

Александр Садовский.

Первоначальное сообщение от Ashmanov
На самом деле интеллектуальный поисковик дал вам невыполнимое обещание: различить в ТЕКСТЕ он может только словоформы вида 1) и 3).

Формально это так. Но реально, задавая короткие запросы вида "дело", "почта" и подобные им, пользователь подразумевает вполне определенный контекст. Речь идет не о том, чтобы выделять по контексту документа смысл омонима, относя его к тому или иному слову. Речь о том, что из всей массы документов пользователя интересует небольшая доля, в которых обычно есть четко выраженный контекст, позволяющий отличить один омоним от другого. Примером такого контекста (хотя и очень неточным) могут быть слова из Рамблер-Ассоциаций. Для "дело" это:

  • документооборот
  • делопроизводство-2000
  • номенклатура дел
  • свое дело
  • своё дело
  • свое
  • делопроизводство

а для "девать" ничего нет. Аналогично, для "почта"

  • кроватка
  • бесплатная почта
  • chat
  • e-mail
  • знакомства
  • mail
  • электронная почта
  • mail.ru
  • чаты
  • почтовый ящик

а для "почти" ассоциаций нет. Сейчас существует немало алгоритмов классификации по теме, и большинство из них сумеют отсеять документы с лишними омонимами, если они не соответствуют теме, ожидаемой пользователем.

Вы можете заметить, что будут ущемлены те, кто ищет именно слова "девать" и "почти". Верно. Но, во-первых, это небольшой процент пользователей, во-вторых, как уже упоминалось, можно выдавать сообщение с предложением поискать по более редкому из двух омонимов.

С уважением,

Александр Садовский.

Первоначальное сообщение от Vlad_7
А вот по каким словам они сюда попали?

Подсказка номер 1:

на сайте может стоять и другой счетчик с открытой статистикой, выдающий информацию по реферерам, например, RAX или Ping.

Подсказка номер 2:

Сайт редко находят по словам, которых на нем нет -- нахождение по ссылке, скорее, исключение, чем правило. На каждой странице встречается не более 3-5 слов(и их сочетаний), по которым ее могут отыскать, и несложно проверить, выдается ли сайт по этим словам в верхней десятке у ведущих поисковиков. Конечно, возможно нахождение и по редким словосочетаниям, случайно набранным пользователем, но это исключение, а задача, как я понял, найти источник трафика. Этот метод очень трудоемкий, но если ничего другого не остается, он все же дает хоть какие-то результаты.

Есть еще пара методов, но это уже авторские секреты. :)

С уважением,

Александр Садовский.

Первоначальное сообщение от SYNPHARA
Я так понял, что партнерская программа - это когда платишь за клики.

Партнерская программа -- это процесс взаимодействия какого-либо сайта или магазина (организатора ПП) с владельцами других сайтов. Организатор ПП платит сайтам, а сайты рекламируют его за это. Оплата может быть очень разного плана -- за показы, за клики, процент с продаж и т.д. В отличие от обычной рекламы партнерская программа чаще связана с одним типом продаваемого товара и потому тематика сайта-партнера должна хотя бы частично пересекаться с нишей, в которой работает организатор ПП. Кроме того, чаще практикуется оплата в виде процента с продаж, что намного выгодней организатору.

Мне нужно заплатить и иметь некр. кол-во фиктивных захождений.

Замечу, что реальный трафик от увеличения посещаемости можно получить только с Rambler's Top100 и, при некоторых условиях, с поиска Рамблера. Поэтому перед тем, как платить за фиктивные заходы (скажем, через системы визитинга), лучше оценить, сколько посетителей зайдут на сайт.

Что касается оплаты за клики, могу посоветовать две системы: Бегун и NTBA. Обе дают вполне заинтересованных посетителей (не хуже и не лучше, чем обычная баннерная реклама) по цене 1-5 центов за клик.

С уважением,

Александр Садовский.

Первоначальное сообщение от Nicon
Вот какой еще прок от попадания в dmoz?

У DMOZ даже без искусственного поднятия Гуглом веса PageRank достаточно высокий индекс цитирования. Следовательно, любой поисковик, использующий как фактор ранжирования аналог PageRank, сочтет сайт более весомым, чем до попадания в DMOZ. Попадание в одну из высоких категорий может дать с нуля (без других ссылок на сайт) PR=6/10 или даже 7/10.

С уважением,

Александр Садовский.

Первоначальное сообщение от Nicon
И все же, кто-нибудь знает алгоритм сего продукта?

Ответ от службы техподдержки Рамблера:

1) строятся списки запросов, поданных каждым пользователем в течение одного дня. Для каждого запроса запоминается время;

2) запросы, поданные одним и тем же пользователем с интервалом не более 1,5 часа, объединяюся в группы. Такие группы запросов считаются кандидатами на ассоциации;

3) группы запросов от всех пользователей за все проанализированные дни

объединяются, подсчитывается, сколько разных людей подали на поиск одинаковые пары запросов;

4) для каждого запроса строятся списки ассоциаций. Для построения

используются сформированные на предыдущем шаге группы запросов;

5) выполняется аналитическая обработка сформированных ассоциаций -- выделяются наиболее "весомые" группы (кластеры), вычисляются меры близости между ними, запросы внутри группы ранжируются так, чтобы на верх списка поднимались те, которые заданы большим количеством людей и при этом присутствуют в похожих группах;

6) выполняется фильтрация мата.

И как работает нечто похожее в электронных магазинах?

Например, вот так:

Empirical Analysis of Predictive Algorithms for Collaborative Filtering

или по-другому.

С уважением,

Александр Садовский.

Первоначальное сообщение от Nicon
Странно, ввел в Рамблере l;bg http://search.rambler.ru/cgi-bin/rambler_search?words=l%3Bbg&where=1 , ничего подобного, джипов в результатах и близко нет, а в ассоциациях есть...

Во-первых, в искомой фразе "l;bg" есть знак препинания, поэтому Рамблер воспринимает его как два слова -- "l" и "bg". Во-вторых, ассоциации не всегда двунаправленные. Например, слово Путин ассоциируется у интернетчиков с "тестом на беременность", но тест на беременность не ассоциируется с Путиным.

С уважением,

Александр Садовский.

Первоначальное сообщение от AiK
Любопытно узнать, когда Яндекс научится разбирать части речи?

Дело не только в части речи, а в выборе наиболее вероятной формы слова в случае отсутствия контекста. Евгений приводил еще один пример: дело = день (тоже логично: дело => девать => день). Я написал Илье Сегаловичу, он сказал, что они сейчас работают над этим.

С уважением,

Александр Садовский.

Всего: 1505