<font face="Verdana" size="2"> А не преследуется ли задача создания тезауруса русского языка подобным образом? Ведь через некоторое время при большом количестве запросов мусор можно будет отфильтровать и получить почти чистые кластера.</font>
Преследуется, конечно.
Но это не будет тезаурус русского языка, поскольку тезаурус зависит от смысловой сетки - в разных пространствах разные слова могут быть синонимами или антонимами, а могут и не быть. Например, вытереть и уничтожить, кликнуть и щёлкнуть, загрузить и скачать, форум и текстовое общение - близкие слова только в компьютерной области.
Это получится тезаурус потребностей сетевого пользователя, то есть структура сетевой жизни.
А словарь синонимов русского языка делает великий (кроме шуток) академик Апресян. Слава Богу, наконец-то сделает.
В принципе, сетевой тезаурус может сделать всякий, у кого есть логи поисковика. Только нужны стада лингвистов и куча работы.
Игорь.
Если выбросить половину, остаются как бы тематически близкие слова, то есть кластер есть, но размазанный, слабый:
Те, кто ищут 'релевантность', ищут также:
ребалансировка
словарь терминов
дезадаптация
контент-анализ
коррекция
факторы
информация
информационные ресурсы
определение
промоушн
толковый словарь русского языка
память
толковый словарь
образование
словарь
поисков
маркетинг,
...
ну и так далее
Тут ведь заранее не знаешь, добавление какого из этих слов даст прирост позиции в поисковиках и приток посетителей.
Это, конечно, мусор, но очень полезный. Логи сайта выглядят ещё более странно, а тут логи, которые никогда не были видны пользователю.
[This message has been edited by Ashmanov (edited 14-07-2001).]
Ну что ассоциировалось, то и есть. Там ведь никакого отбора не делается.
Чо народ спрашивает, то и показывается.
Если смысловой кластер реально есть, он будет виден, а если запрос "неустойчивый", на грани тематик, то есть кто угодно мог дать, а потом побежали в разных направлениях, то и кластера нет - список слов дурацкий. Попали на перегиб "семантической поверхности", а не в лобжинку.
А принцип (очень примерно) такой - по некоторому множеству запросов, скажем за неделю, собираются те запросы, которые давались теми же пользователями в течение, скажем, получаса до и после введения заданного запроса.
Упорядочиваются по частоте, мат фильтруется.
Пользователь определяется по куке.
Чтобы найти и использовать смысловые кластеры, давайте запросы из узких предметных областей.
Пока нет - я целыми днями хожу по переговорам. Своего офиса пока нет. Только по почте.
Пока можно писать на ashmanov@rambler.ru, ashmanov@hotmail.com, а там видно будет.
Нет, пока ничего не подписал, финальный разговор об увольнении так пока и не состоялся. Вот-вот.
Там речь будет идти об условиях увольнения, положенной мне доле в компании и способе её выдачи, несманивании людей и так далее. Думаю, на следующей неделе.
Пока могу предложить прочитать интервью на РИКНе и последовавшую краткую дискуссию с Антоном Носиком:
ricn.ru/interviews
Я пока целыми днями езжу, обсуждаю предложения работы и/или создания компании, так что даже почту читаю редко.
А про невозможность подкручивать - всё верно. Всей компанией это делать невозможно (иначе получится не компания, а банда с круговой порукой, что в IT-бизнесе практически нереально), а в одиночку никто также не может - много грамотных и честных людей имеют доступ ко всем данным.
[This message has been edited by Ashmanov (edited 17-06-2001).]
[This message has been edited by Gray (edited 17-06-2001).]
Я думаю, неправда. Такие же байки рассказывают про деньги за позицию в Тор100.
А про Касперских рассказывают, что они пишут вирусы, а потом сами их и лечат. А Микрософт нарочно пишет неэффективный софт, чтобы железа у Интел больше брали. Ну и так далее.
При мне - вплоть до месяца назад - ничего подобного не было. А за этот месяц вряд ли сама собой развилась подобная "бизнес-схема". Это очень непросто организовать, прежде всего. Выкидывать из индекса - технически возможно, но придётся ждать до переиндексации. За это время сайт переместится под другой домен - мало ли их!
Кроме того, в Рамблере брать деньги и за более разумные услуги не очень-то получается.
Просто некому было потребовать, я такого сотрудника и такой должности в Рамблере не знаю.
То же и с Тор100 - нет механизма взятия денег, даже если бы и взяток. И нет нужной для такого грязного дела секретности. Сразу все узнают. И сольют в сетевые СМИ.
И собственные ресурсы не подкрутишь - сотрудники, управляющие поиском и Тор100, довольно независимые. Я лично, будучи в здравом уме, не стал бы им ничего подобного приказывать - будет конфликт, никакого авторитета не останется и приказывать уже не сможешь. И собственная репутация тоже дорога.
Вот сейчас в мае опробовали другую, честную схему - подсветку строчки в рейтинге другим цветом. Но пока и такой платной услуги не объявлено.
Может быть несколько причин для договорённостей о том, что я и дальше не даю комментариев, особенно резких и откровенных.
Примерно так могут развиваться события:
1. Я остаюсь в Рамблере, беру на себя ответственность за судьбу компании - ну и, значит, за её имидж. Тут рассказывать подробно о конфликтах - нехорошо.
2. Я ухожу, но условием ухода являются акции, деньги (выходное пособие), прочее и соблюдение конфиденциальности/лояльности какое-то время.
3. Я организовываю с Рамблером некое совместное предприятие - аналогично пункту 1.
Я пообещал не давать подробных интервью до 30 мая, когда всё официально решится. Однако, поскольку в средствах массовой информации продолжается самодельный бенефис Носика, я могу коротко прокомментировать.
Итак, коротко о текущей ситуации:
В прошлую пятницу один из акционеров предложил мне следуюший вариант:
Ханов уходит, формальным президентом назначается Носик, а в действительности "вы с ним всё будете решать вдвоём". Носик будет отвечать за маркетинг, я - за технологии.
Ну, поскольку подобных формальных постов почти никогда не бывает, а про квалификацию и бизнес-способности Носика и возможность с ним о чём-либо договариваться у меня есть уже сформированное собственное мнение, я твёрдо отказался.
Я считаю, что в игры с мутными правилами играть нельзя, потом это выходит дороже.
Как тут же и выяснилось, второй акционер узнал утром в субботу о "смене" президента из сетевых газет (подконтрольных Носику).
Он возмутился и попросил нас с Хановым пока не объявлять официально об уходе, а оставить всё по-старому и подождать, пока все договорятся.
Таким образом, все победные публикации были просто сознательной дезинформацией и её производными. Таковы манеры у мастеров культуры, впрочем, вы это могли видеть на примере войны телепузиков.
Сейчас идут консультации перед Советом директоров 30 мая.
Тем временем, хотя все договорились не давать комментариев, Носик продолжает использовать прессу, как оружие. Он привык к "сливу" за годы журналистики и борьбы за НТВ, и, видимо, считает, что если публично десять раз сказать "халва", будет сладко.
В настоящий момент, однако, он не президент, и фактически, даже и не вице-президент. поскольку формально его пока никто не назначал, кроме, опять-таки сетевых СМИ.
Будет ли Носик президентом - посмотрим. Я думаю, вряд ли, хотя всё возможно в этом лучшем из миров.
Вероятнее всего, всё-таки, будет формально подтверждён его пост вице-президента по стратегии.
Вероятность моего ухода в любом случае довольно высока, поскольку мне интересно продуктивно работать во внятном и перспективном бизнесе, а дело там не в одном только Носике.
Про причину конфликта, структуру власти в Рамблере, судьбу поисковика и команды, прочее смогу рассказать не раньше чем через неделю. Если конечно, не подпишу обет молчания по какой-то причине.
Мы об этом давно думаем, но никак не возьмёмся - других дел много. С русским языком всё несколько сложнее, хотя в принципе это сделать можно. Более того, это можно сделать, вообще используя мета-поисковую схему, а не сам поисковик.
Вопрос в том, зачем это делать. Тут много вопросов - нагрузка, состав будущих пользователей и так далее. Я пока вижу только один ответ - это имеет смысл для создания платного сервиса. Но будут ли преподаватели платить - большой вопрос.