Насколько я могу судить, заявленная тема обсуждения - это фактически тезаурус поисковых запросов.
В Рамблере мы это проделали с 60,000 самых частотных запросов и получили 2,500 рубрик. На каждой рубрике оказался повешен семантический образ рубрики. Образы пополнялись, естественно, не только из запросов, но и с помощью различных систематических процедур, например, в "фармакологию" можно сразу залить словарь названий лекарств.
В поиск этот тезаурус не был включён, потому что тут нужна хорошая теория - как объединять расчёт релевантности с тезаурусом. Это задача очень интеллектуально сложная, как и всё связанное с тезаурусом, а разработчикам Рамблера сейчас не до неё.
А вот для вывода ссылок на проекты Рамблера это использовали ещё в 2001, и получились так называемые "перевязки". Работают они очень хорошо, релевантность практически 100%, это даёт зацикливание трафика, то есть повышает число показов страниц на портале процентов на 10-12%.
На работу мы затратили усилия нескольких лингвистов в течение нескольких месяцев, но заниматься этим можно сколько угодно.
Таким образом, вы говорите не об ошибках вввода при задании поискового запроса, а об опечатках в тексте. Это разные вещи.
Запросто - может, хорошо - не может. Проделайте простой следственный эксперимент: наберите в Microsoft Word слово с опечаткой и вызовите проверку правописания. Посмотрите варианты замены - хотите ли вы, чтобы искался весь этот мусор, слова, совершенно не связанные с исходным?
кхня -> кухня, коня;
внна -> ванна, вона, вена, вина, анна, инна,...
ваная -> ванная, важная, рваная, важная,...
и пр.
И не говорите, что нужно "просто" взять первое слово. Тут ещё повезло, что правильный вариант - первый. Это далеко не всегда так:
зявка - звяка, зевка, заявка, зябка,...;
верхнй - верхней, верхний;
западый - западай, западный.
Это нужно передавать на поиск?
А между прочим, в ОРФО в составе Word имеет очень сложный механизм подбора замен, который примерно раз в десять больше вариантов отбрасывает (на основе триграммного анализа и пр.). Я сильно сомневаюсь, что можно алгоритмически подобрать точный вариант намного лучше, чем ОРФО.
А вот вручную подобрать таблицу замен для поисковика можно.
Зачем нужно искать слова с ошибками, объясните, пожалуйста?
Я думаю, раз в квартал - нормально.
Впрочем, это предположение проверить легко - попробовать организовать следующие посиделки, если сложится, значит - людям нужно.
В принципе, и раз в месяц может пойти. Скажем, сказать, что каждый последний четверг или второе воскресенье месяца там-то.
Только не собирать деньги и не предоплачивать, а то организатор замучается. Кто пришёл, тот пришёл, заплатит за себя сам.
В общем, тут мы и проверим, пришла ли пора кристаллизации сообщества оптимизаторов.
Да, Восточный мастер, жующего меня можно публиковать. А что делать.
Ива, ты дошла до дому?
Как добрались остальные?
Всё-таки 9 часов просидели, не шутка.
Метапоисковик.
Про Семантическую паутину ключевое слово - "удастся договориться". А если удастся договориться про почту, не будет почтового спама. А если удастся договориться про таможню, не будет наркотиков. Преступности. Войн. Национальных конфликтов. Обиженных и несчастных. И так далее.
Что касается open source, то чем всё-таки будет нова эта поисковая система? Просто применить давно известный способ разработки и ожидать автоматического появления новизны - это как-то по-детски немного? Так уже это делали не раз именно с поисковиками - и где они? Вы хоть одним поисковиком opensource в жизни пользовались? А ведь до Линуха открытых операционок и прочего ПО было полно.
В принципе, можно было бы попытаться создать поисковую систему peer-to-peer, Тогда и проблема с дисками и трафиком бы решилась. Но обычно в таких одноранговых сетях 99% пользователей - простые потребители, ничего полезного не привносящие, в этом-то проклятие пиринговых технологий - в жлобстве среднего пользователя, за которого приходится платить.
А про Рунет говорили неспроста. Он отличается от всего Интернета значительно - размером. Сделайте новый поисковик по Рунету, для начала. Небольшая, обозримая задачка, формальное упражение, чтобы убедить скептиков.
Использование таких слов как "ренегат" показывает, что кое-кто находится в психологическом состоянии войны с поисковиками.
Там они, тут мы, перейти в окопы противника - измена. Эх, что ж никто в спину перебежчику не выстрелил!
Вы бы вообще спросили Садовского, чем он там занимается. Я недавно видел его и спрашивал - развитием поиска, руководством проектами, программистами. Не думаю, что ему поставили задачу извести оптимизаторов. Им там вообще не до этого. Объём, трафик, конкуренты, надёжность, управляемость, новые проекты, новые виды контекстной рекламы - оптимизаторы, я думаю, даже в первую десятку проблем не входят.
Что касается того, что Саша правильно поступил или нет - а вы бы на его месте как поступили? Отказались пойти поработать в Яндекс?
Там дело не в том, что потом можно "создать свою собственную оптимизаторскую компанию". Заметим, что Саша мог её создать и без этого промежуточного этапа.
Просто задача впечатляющая, вызывающая, как говорят по-английски. Поработать в большом интернет-проекте, посмотреть своими глазами, поставить своё имя на что-то такое новое и известное - разве это не интересно?
В своё время в 1999 году, когда мы выбирали, куда пойти целой командой - из 4-5 серьёзных предложений Рамблер выбрали потому, что задача интересная. Деньги и доли были сами собой. Мы задачу, в общем, решили, а свою фирму создали оттого, что на калейдоскоп инвесторов надоело работать. Оптимизаторская деятельность, кстати, у нас вовсе не основная.
Раньше денег не было. Боролись за посетителя. Когда инвесторы в 2001 в ужасе из Интернета разбежались, посетитель вроде стал не нужен. Правда, Яндекс рекламироваться в офлайне и вообще продвигать себя почти не переставал. А сейчас реклама прёт как на дрожжах, и рост аудитории превращается буквально в живые деньги.
К сожалению, не все от этого роста умеют выиграть по-настоящему. Яндекс, несомненно, умеет. Mail.ru И Рамблер отстают от него как бы на виртуальную эпоху - они ментально ещё в том 2001 дохлом году, когда денег было мало и рунет-бизнес не закрутился. И поведение у них на рынке не агрессивное, а слегка старческое - сохранить бы ресурсы, остатки сил, не поднять бы тяжёлого... Всё по бартеру, всё своими силами, не дай бог лишнюю копеечку потратить на себя.
Но вот вроде и они зашевелились.
Но когда же Рамблер сделает наконец Рамблер-Директ?
Я прошу прощения, ответят и счёт пришлют. У нас на той неделе было две нежданных беды - наша двухдневная конференция по спаму (www.spamtest.ru) и ограбление квартиры Михаила Козлова, ответственного секретаря конференции, с пропажей всего нажитого непосильным трудом, в том числе всех телефонов.