Ashmanov

Ashmanov
Рейтинг
66
Регистрация
21.11.2000
Должность
"Ашманов и Партнёры", гендиректор

Насколько я могу судить, заявленная тема обсуждения - это фактически тезаурус поисковых запросов.

В Рамблере мы это проделали с 60,000 самых частотных запросов и получили 2,500 рубрик. На каждой рубрике оказался повешен семантический образ рубрики. Образы пополнялись, естественно, не только из запросов, но и с помощью различных систематических процедур, например, в "фармакологию" можно сразу залить словарь названий лекарств.

В поиск этот тезаурус не был включён, потому что тут нужна хорошая теория - как объединять расчёт релевантности с тезаурусом. Это задача очень интеллектуально сложная, как и всё связанное с тезаурусом, а разработчикам Рамблера сейчас не до неё.

А вот для вывода ссылок на проекты Рамблера это использовали ещё в 2001, и получились так называемые "перевязки". Работают они очень хорошо, релевантность практически 100%, это даёт зацикливание трафика, то есть повышает число показов страниц на портале процентов на 10-12%.

На работу мы затратили усилия нескольких лингвистов в течение нескольких месяцев, но заниматься этим можно сколько угодно.

Как писал mnt

например поиск по объявлениям: если объявлений очень много, то соотвественно ошибок в них очень много, потому что все объявления пишутся разными людьми.

Таким образом, вы говорите не об ошибках вввода при задании поискового запроса, а об опечатках в тексте. Это разные вещи.


К тому же зачем людей заставлять по 20 раз пытаться найти какую-то информацию, если это запросто может сделать ПС.

Запросто - может, хорошо - не может. Проделайте простой следственный эксперимент: наберите в Microsoft Word слово с опечаткой и вызовите проверку правописания. Посмотрите варианты замены - хотите ли вы, чтобы искался весь этот мусор, слова, совершенно не связанные с исходным?

кхня -> кухня, коня;

внна -> ванна, вона, вена, вина, анна, инна,...

ваная -> ванная, важная, рваная, важная,...

и пр.

И не говорите, что нужно "просто" взять первое слово. Тут ещё повезло, что правильный вариант - первый. Это далеко не всегда так:

зявка - звяка, зевка, заявка, зябка,...;

верхнй - верхней, верхний;

западый - западай, западный.

Это нужно передавать на поиск?

А между прочим, в ОРФО в составе Word имеет очень сложный механизм подбора замен, который примерно раз в десять больше вариантов отбрасывает (на основе триграммного анализа и пр.). Я сильно сомневаюсь, что можно алгоритмически подобрать точный вариант намного лучше, чем ОРФО.

А вот вручную подобрать таблицу замен для поисковика можно.

Зачем нужно искать слова с ошибками, объясните, пожалуйста?

Я думаю, раз в квартал - нормально.

Впрочем, это предположение проверить легко - попробовать организовать следующие посиделки, если сложится, значит - людям нужно.

В принципе, и раз в месяц может пойти. Скажем, сказать, что каждый последний четверг или второе воскресенье месяца там-то.

Только не собирать деньги и не предоплачивать, а то организатор замучается. Кто пришёл, тот пришёл, заплатит за себя сам.

В общем, тут мы и проверим, пришла ли пора кристаллизации сообщества оптимизаторов.

Да, Восточный мастер, жующего меня можно публиковать. А что делать.

Ива, ты дошла до дому?

Как добрались остальные?

Всё-таки 9 часов просидели, не шутка.

Как писал Isidorus
Кто видит другие применения Яндекс.XML, кроме отслеживания позиций сайтов?

Метапоисковик.

Про Семантическую паутину ключевое слово - "удастся договориться". А если удастся договориться про почту, не будет почтового спама. А если удастся договориться про таможню, не будет наркотиков. Преступности. Войн. Национальных конфликтов. Обиженных и несчастных. И так далее.

Что касается open source, то чем всё-таки будет нова эта поисковая система? Просто применить давно известный способ разработки и ожидать автоматического появления новизны - это как-то по-детски немного? Так уже это делали не раз именно с поисковиками - и где они? Вы хоть одним поисковиком opensource в жизни пользовались? А ведь до Линуха открытых операционок и прочего ПО было полно.

В принципе, можно было бы попытаться создать поисковую систему peer-to-peer, Тогда и проблема с дисками и трафиком бы решилась. Но обычно в таких одноранговых сетях 99% пользователей - простые потребители, ничего полезного не привносящие, в этом-то проклятие пиринговых технологий - в жлобстве среднего пользователя, за которого приходится платить.

А про Рунет говорили неспроста. Он отличается от всего Интернета значительно - размером. Сделайте новый поисковик по Рунету, для начала. Небольшая, обозримая задачка, формальное упражение, чтобы убедить скептиков.

Использование таких слов как "ренегат" показывает, что кое-кто находится в психологическом состоянии войны с поисковиками.

Там они, тут мы, перейти в окопы противника - измена. Эх, что ж никто в спину перебежчику не выстрелил!

Вы бы вообще спросили Садовского, чем он там занимается. Я недавно видел его и спрашивал - развитием поиска, руководством проектами, программистами. Не думаю, что ему поставили задачу извести оптимизаторов. Им там вообще не до этого. Объём, трафик, конкуренты, надёжность, управляемость, новые проекты, новые виды контекстной рекламы - оптимизаторы, я думаю, даже в первую десятку проблем не входят.

Что касается того, что Саша правильно поступил или нет - а вы бы на его месте как поступили? Отказались пойти поработать в Яндекс?

Там дело не в том, что потом можно "создать свою собственную оптимизаторскую компанию". Заметим, что Саша мог её создать и без этого промежуточного этапа.

Просто задача впечатляющая, вызывающая, как говорят по-английски. Поработать в большом интернет-проекте, посмотреть своими глазами, поставить своё имя на что-то такое новое и известное - разве это не интересно?

В своё время в 1999 году, когда мы выбирали, куда пойти целой командой - из 4-5 серьёзных предложений Рамблер выбрали потому, что задача интересная. Деньги и доли были сами собой. Мы задачу, в общем, решили, а свою фирму создали оттого, что на калейдоскоп инвесторов надоело работать. Оптимизаторская деятельность, кстати, у нас вовсе не основная.

Раньше денег не было. Боролись за посетителя. Когда инвесторы в 2001 в ужасе из Интернета разбежались, посетитель вроде стал не нужен. Правда, Яндекс рекламироваться в офлайне и вообще продвигать себя почти не переставал. А сейчас реклама прёт как на дрожжах, и рост аудитории превращается буквально в живые деньги.

К сожалению, не все от этого роста умеют выиграть по-настоящему. Яндекс, несомненно, умеет. Mail.ru И Рамблер отстают от него как бы на виртуальную эпоху - они ментально ещё в том 2001 дохлом году, когда денег было мало и рунет-бизнес не закрутился. И поведение у них на рынке не агрессивное, а слегка старческое - сохранить бы ресурсы, остатки сил, не поднять бы тяжёлого... Всё по бартеру, всё своими силами, не дай бог лишнюю копеечку потратить на себя.

Но вот вроде и они зашевелились.

Но когда же Рамблер сделает наконец Рамблер-Директ?

Я прошу прощения, ответят и счёт пришлют. У нас на той неделе было две нежданных беды - наша двухдневная конференция по спаму (www.spamtest.ru) и ограбление квартиры Михаила Козлова, ответственного секретаря конференции, с пропажей всего нажитого непосильным трудом, в том числе всех телефонов.

Всего: 359