Искусственный интеллект=поисковик

-=Илья=-
На сайте с 05.12.2003
Offline
222
#61
tar729:
Правила нарушаются, но это не есть хорошо, и в конечном итоге приводит к неправильному и неэффективному функционалу, вот прямо как вы и описали работу своего зомби и последствий для не правильно структурированной системы.

Да при чём тут структуризация. Есть релевантная страничка, есть 70 других релевантных страничек. Они удовлетворяют всем нужным условиям, всё замечательно.

Но на первое место попадёт всего одна.

Как её выделить? Ну конечно же, на неё кликнут! Замечательно. Пришёл пользователь, потыкал, потом второй, третий - страница хорошая, потому что на неё кликают!

Ну и всё, зомби едят мозг поисковику.

Рамблер на этом прокололся года три назад, да и он был не первым таким умным.

Слава Шевцов
На сайте с 23.07.2005
Offline
370
#62
-=Илья=-:
Ну и всё, зомби едят мозг поисковику.

Илья, отсев таких зомби - проблема техническая. Если она будет поставлена и экономически обоснована, то для высоко- и среднечастотников она будет решена. Для низкочастотников хуже, но там поисковик просто не сможет собрать статистику для ранжирования за исторически значимое время и алгоритм ранжирования неприменим.

Неизменность точки зрения неизменно порождает иллюзию понимания.
-=Илья=-
На сайте с 05.12.2003
Offline
222
#63

Слава, всё, связанное с улучшением релевантности выдачи - чисто техническое. И зомби можно отсеять, да, проблемы нет, надо всего-то... знать как пользователь должен себя правильно вести.

Теперь вопрос: если мы точно знаем, как себя должен вести пользователь, то спрашивается, нужна ли нам его статистика?

[Удален]
#64
Слава Шевцов:
Извините за то, что заставил Вас потратить время на мои вопросы. Но для меня Ваши ответы очень важны.

На эти - нет. Выгода с увеличенной релевантностью, как Вы правильно отметили, видна только профессионалам. Но если выгода будет не очевидна пользователю, он, в массе своей, на поисковик не придёт. А программные коды и непатентованные в США алгоритмы для Гугла ничего не стоят. Гугл даже американские патенты нарушал. Даже патенты компаний, которые могли отстоять их в суде..

Релевантность системы с предлагаемым алгоритмом будет выше на порядок. Вы представляете себе что такое порядок?

Представьте, что вы что то ищите, вы копаетесь в ссылках яндекса, просматриваете то что вам нужно и находите именно ту ссылку, которая вам нужна. Оцените, сколько ссылок вы забраковываете в среднем.

Я около 20, но я умею искать, получается, что релевантность меня как поисковой машины выше чем яндекс в 20 раз.

Я предлагаю алгоритмы, которые позволят сделать поисковик на порядок лучше, и это реальность.

Вы думаете пользователь не в состоянии будет отличить порядок?

Я думаю, что даже самый тупой пользователь отличит резкий качественный скачек, но, это только при работе комплексной системы, а не ее кусков. Профессионал увидит превосходство даже в начальной стадии. Что касается гугла и больших ребят в целом, то они просто сопрут любой алгоритм, который им понравиться, но дело не в том, что кто то может что то спереть, дело во времени, которое будет потеряно, если не купить команду целиком.

Продавать надо команду, коли не можешь отстоять продукт. Вот о чем заботится надо. Ну, а если команда хорошая, то продавать никому ничего не надо, надо качать бабло самому. Преимущество в том, что если пользователь увидел твое преимущество, то это навеки твой пользователь. Разрыв в качестве слишком велик, это козырь, сильный козырь.

Слава Шевцов:
Что может интересовать пользователя? Например, облегчённый поиск информации в нише. Будет популярен поисковик по законам и подзаконным актам. Выгода очевидна - только юридическая информация. Например, более чёткие сниппеты. Выгода очевидна - легче понять нужен ли документ. Например, отсечение порноресурсов и страниц с троянами. Выгода очевидна - выше защита детей и компьютера. В таких ситуациях можно проводить исследования и выяснять популярность (плюс-минус километр) поисковика до его создания...

Только дурак не увидит в этом выгоды она как вы сказали очевидна, достаточно просто логически подумать немножко, нужно думать не о том как пользователя потенциального заманить, а о том, как команду создать, а потом не растерять вместе с кусками кода.

Слава Шевцов:
Пойдёт ли пользователь на поисковик с новым улучшенным в десять раз алгоритмом поиска? На сколько я помню исследования - нет. Вы просто не сможете объяснить рядовому пользователю, чем Ваш поисковик лучше Яндекса, Гугла или какой-нибудь ВебАльты. То есть имеются шикарные риски спустить всю работу псу под хвост.
...

Это верно, но только не для скачка в порядок.

Достаточно собрать статистику изобретений, которые имели конкурентное преимущество с таким отрывом, и вы увидите, как быстро пипл "выбирал пэпси".

Бояться нужно того, что отрыв будет меньше, вот тогда проблемы будут.

Но цифра эта взялась не с потолка, я вам привел пример с количественной оценкой человека как поисковика. Учитывая то, что мои алгоритмы тождесственны человеческим алгоритмам, можно смело говорить о правильной (и даже заниженной) оценке эффективности работы ИИ.

Откуда я взял, что предлагаемые алгоритмы похожи на человеческие и их дублируют?

Вот когда будете как я уметь делать степ бай степ деятельности собственного мозга на этапе решения задачи, тогда и поговорим...

Слава Шевцов:
Зачем грамотный бизнес-план? 10 листов на все три документа вполне хватит. Надо понять зачем на поисковик придёт пользователь, сколько денег нужно для кодирования и для запуска, где Вы их сможете взять. Пока что Вы решили взять деньги из карманов работников, причём этим работникам обещана возможность избавления от них. Что самое смешное, никаких опционов и никакой ответственности. Поверьте, это не лучший метод.

Надо понимать не зачем пользователь придет, а что пользователь хочет, а хочет он релевантность. Не надо думать о том, о чем думать не надо. Не надо думать где брать деньги, деньги сами тебя найдут, надо просто сделать так, чтобы они нашли именно тебя, а не другого, за счет тебя.

Слава Шевцов:
Вы правы. Денег Вы не просите. Вы предложили людям участвовать в Вашем проекте и потратить значительное количество их личного времени. .

как только человек начинает работать над проектом, он становится частью команды. Я даже не программист, я даже воспользоваться кодом не смогу если никого рядом не будет. И я прекрасно понимаю, что люди в данном случае ценнее, чем сам продукт, потому что один человек заменим, подкупаем, не стабилен. Коллектив инерционен, надежнее, безопаснее, и главное, дороже стоит в несколько раз, чем каждый человек по отдельности. (кстати, тоже на порядок примерно).

Слава Шевцов:
Я своё время ценю дорого и поэтому задаю некоторые важные для меня вопросы. Вопросы продуманности стратегии и финансовой продуманности для меня важны..

Вас должно волновать моя честность и порядочность, а не такая ерунда, как проблемы с финансированием.

Возьмете код и устроитесь в любую солидную фирму. Лучшее портфолио, которое у вас только может быть-создание собственного поисковика. Вы это, похоже, как вложение не рассматриваете. Кроме того, я тоже ценю свое время дорого, не дешевле вас по крайней мере. Я не альтруист, но я еще и увлечен этой темой, мне проще.

Продумывать стратегию здесь следует каждому в свое лицо.

Я хочу сказать, что каждый решает для себя сам, срубать бабки на клепании интернет магазинчиков по 500 баксов за клон, или делать в своей жизни что то интересное.

Пока не будет первых результатов, ни о какой стратегии не может быть и речи, кроме того, всякая стратегия строится на том, что есть, а не на том, что может быть, но пока нет (с).

Слава Шевцов:
Спасибо за прямой ответ. То есть в любой момент я, как участник, могу потерять свой вклад в Ваш проект....

Знаете, можно и хер сдуру сломать. На мелочные проблемы, включая личные склоки, мне плевать. Есть цель, если есть цель, то поведение мое предсказуемо, если поведение предсказуемо и вы будете работать на цель, то проблем у вас не будет и вы будете в проекте столько, сколько захотите, если будете выполнять свой "план" по способностям (естесственно, что ценность участника команды и его вклад будет мной расценен адекватно). Без плана нельзя, человек слаб и ему нужна палка, а если вы думаете, что можно вложить свой талант на рубль и уйти с надеждой, что ваш вклад вспомнят, то вы ошибаетесь.

Подобное мероприятие не может иметь иждивенцев и мертвых душ-прихлебал. В дамки попадет тот, кто вкладывался, и меру буду оценивать я в одно лицо. Следует помнить, что я один никто и звать меня никак, а вместе мы имеем шанс. Каждый ценный человек будет у меня на вес золота и не иначе. Боязнь потерять обоюдная и связывающая сила-страховка.

Слава Шевцов:
По Вашему произволу. Кроме того, я, как участник, не застрахован от исков других выбывших участников в адрес проекта и их авторских прав...

Почитайте законодательство по этому вопросу, вам станет все ясно. Не стоит защищать себя законом, которого нет, и даже если бы и был, тоже не стоит. Следует защищать себя своей нужностью в проекте и поддержанием целостности команды (кода, что одно и то же.)

Слава Шевцов:
Судя по заявленной выше позиции по некоторым вопросам, Гугл у Вас ничего не купит. ...

У нас вообще никто ничего не купит, будут рвать команду на куски.

Где вы живете? Методы стары как мир. Существуют профессионалы по растаскиванию на куски целых стабильных компаний...что стоит растащить на куски вольное сообщество чудаков?

Слава Шевцов:
Ему потребовался Финам для отмывки обеих компаний с чёрными бухгалтериями и сложными схемами инвестирования и владения. Та ситуация, которую Вы предлагаете, будет ещё хуже.
QUOTE]
До этой ситуации как до китая раком, о ней даже говорить не стоит.
Есть люди увлеченные делом и не увлеченные. Так вот увлеченных людей даже трактор не расцепит, а деньги сами будут предлагать. По рунку бродят люди с большими пачками денег в карманах и прожекторами, давно уже бродят, и не знают куда их сунуть, помните это.
Слава Шевцов
На сайте с 23.07.2005
Offline
370
#65
-=Илья=-:
Слава, всё, связанное с улучшением релевантности выдачи - чисто техническое. И зомби можно отсеять, да, проблемы нет, надо всего-то... знать как пользователь должен себя правильно вести.
Теперь вопрос: если мы точно знаем, как себя должен вести пользователь, то спрашивается, нужна ли нам его статистика?

Илья, Вы ведь знаете, наверное, что имея деньги и желание, можно пробить на рынок инструмент, который будет сканировать сеть и искать прокси перебором портов? При этом все защитники от абуз типа Спамкопов будут объяснять тем, кто увидел скан портов, что это делается в целях их же безопасности. Софт есть. Осталось желание и деньги на спонсорство спамкопов. Соответственно, значительная часть анонимных прокси станет известна.

Второй вариант, поскромнее. Можно спонсорством пробить команду phpbb на то, чтобы они встроили в движок проверку через внешний сервис на спам. И вставить в настройки флажок, чтобы владельцы форумов могли отказаться от сервиса. Все будут довольны. Этот же сервис будет собирать ip-шники от проксей.

-=Илья=-
На сайте с 05.12.2003
Offline
222
#66
Слава Шевцов:
Илья, Вы ведь знаете, наверное, что имея деньги и желание, можно пробить на рынок инструмент, который будет сканировать сеть и искать прокси перебором портов?

А Вы думаете, нам нужен прокси?

Слава Шевцов:
Второй вариант, поскромнее. Можно спонсорством пробить команду phpbb на то, чтобы они встроили в движок проверку через внешний сервис на спам. И вставить в настройки флажок, чтобы владельцы форумов могли отказаться от сервиса. Все будут довольны. Этот же сервис будет собирать ip-шники от проксей.

Да на здоровье!

Слава Шевцов
На сайте с 23.07.2005
Offline
370
#67
-=Илья=-:
А Вы думаете, нам нужен прокси?

Есть ещё системы САР, но они нищие, с ними можно договориться. Остальные способы смены IP и кук сложнее. С другой стороны, Вы правы - Rambler-то не смог противостоять накрутке. А там не дураки.

[Удален]
#68
-=Илья=-:
Да при чём тут структуризация. Есть релевантная страничка, есть 70 других релевантных страничек. Они удовлетворяют всем нужным условиям, всё замечательно..

Если система такая тупая как Яндекс, то релевантность у всех 70 будет по морфологии одинаковой, и тогда приоритетность задают надстройки. Беда яндекса в том, что надстройка тупая, она уже с качеством никак не связана. Я же предлагаю производные надстроек не только первого, но и второго и третьего уровней, и все интеллектуальные.

Такая возможность может быть открыта только с правильной структурой понятийного множества, построенной по бинарным определителям.

Яндекс в принципе не может сделать ккачественные надстройки даже первого уровня, Морфологический разбор без осмысления-это паровоз с КПД 3%. Возможности морфологии уже исчерпаны, дальше путь закрыт.

-=Илья=-:
Но на первое место попадёт всего одна.
Как её выделить? Ну конечно же, на неё кликнут! Замечательно. Пришёл пользователь, потыкал, потом второй, третий - страница хорошая, потому что на неё кликают!
Ну и всё, зомби едят мозг поисковику...

Это самый последний уровень надстройки.

Сначала идет совпадение смыслового контекста терминов, потом надстройка первого уровня -смысловой контекст фраз, затем надстройка второго уровня- выборка из наиболее вероятных контекстов этих фраз, опять же по смыслу, затем надстройка третьего уровня- весовые коэффициенты по времени с привязкой к смыслу запроса (обработка запросов согласно целям запроса, точно также, как это делаете вы, когда ищите нужную инфу, вы видите релевантность, но понимаете, что информация вам не подходит, потому что устарела, так вот система будет в состоянии оценивать даже это), потом четвертый уровень, как раз тот, который вы описали.

Поисковая строка, как я уже говорил, многоуровневая:

1) ключевая фраза,

2) цель поиска.

И в ту и другую строку вбиваются фразы, на основании которых строятся релевантные выборки.

2 строки в поиске, не обратить внимание на это невозможно! Любой юзер- пень сразу поймет, зачем нужно вбивать цель поиска и тут же оценит полученную релевантность.

В частности, если в целях будет написан поиск работы, то алгоритм надстройки автоматически исключит ссылки на старые вакансии, надстройка самостоятельно примет решение сортировки с учетом даты и выдаст релевантный ответ, т.е. то, что нужно юзеру, т.е. ибавит его от дальнейшей сортировки по дате и от множества других сортировок, которые юзер делал бы сам. СМЫСЛ-вот ключевой термин, который выведет поисковик на совершенно иной уровень релевантности...впрочем, это очевидно.

Слава Шевцов
На сайте с 23.07.2005
Offline
370
#69
tar729:
Вы думаете пользователь не в состоянии будет отличить порядок?

Именно. Это реальный эксперимент - Нигма.

tar729:
Продавать надо команду, коли не можешь отстоять продукт. Вот о чем заботится надо. Ну, а если команда хорошая, то продавать никому ничего не надо, надо качать бабло самому. Преимущество в том, что если пользователь увидел твое преимущество, то это навеки твой пользователь. Разрыв в качестве слишком велик, это козырь, сильный козырь.

Посмотрите на http://www.nigma.ru/index.php?q=%E4%E8%E7%E0%E9%ED&0=1&1=1&2=1&3=1&4=1&5=1&6=1&7=1&onsite= - они реализуют релевантность на порядок (в 10 раз лучшую) на первом уточнении запроса (по тематике в левой колонке) и делают это минимум два года. За ними стоит сильная команда - МГУ им.М.В.Ломоносова, факультеты ВМиК и психологии. И они в России не входят даже в пятёрку лидеров.

tar729:

Надо понимать не зачем пользователь придет, а что пользователь хочет, а хочет он релевантность.

Большой секрет поисковиков в том, что пользователю давно не нужна релевантность. Она ему никогда не была нужна. Если человеку была бы нужна релевантность, то он бы вводил длинные вопросы. А пользователь вводит однословный запрос и потом его уточняет - это поведение можно проверить по базе AOL. Это ментально удобнее, чем сформулировать точный запрос. А прирост релевантности на одном слове возможен только в варианте Нигмы.

[Удален]
#70
Слава Шевцов:
Именно. Это реальный эксперимент - Нигма.

Посмотрите на http://www.nigma.ru/index.php?q=%E4%E8%E7%E0%E9%ED&0=1&1=1&2=1&3=1&4=1&5=1&6=1&7=1&onsite= - они реализуют релевантность на порядок (в 10 раз лучшую) на первом уточнении запроса (по тематике в левой колонке) и делают это минимум два года. За ними стоит сильная команда - МГУ им.М.В.Ломоносова, факультеты ВМиК и психологии. И они в России не входят даже в пятёрку лидеров..

Принцип структуризации понятийной базы у них старый, что вы хотите?

Не будет там релевантности на порядок лучше по определению, и вообще, кто и как это оценивал?

Слава Шевцов:
Большой секрет поисковиков в том, что пользователю давно не нужна релевантность. Она ему никогда не была нужна. Если человеку была бы нужна релевантность, то он бы вводил длинные вопросы...

Вывод ваш не верный, поскольку длинные запросы релевантность уменьшают, что в яндексе, что в других системах.

вводить длинные вопросы в яндекс????

бугаааа, лично мой опыт работы с яндексом говорит об эффективности запроса из 2-х 3-х слов, тщательно взвешенных и тем самым я лично качеством своего запроса увеличиваю релевантность, я делаю работу за его гребаный движок! Это яндекс должен делать за меня мою работу. и пока юзер будет делать работу за поисковик, этот поисковик никому не будет интересен. И в этом проблема Нигмы.

Все прекрасно знают, чем кончаются такие запросы, яндекс начинает неимоверно глючить и он выдает полную чушь, и нет у яндекса инструментария обработать качественно этот запрос.

Слава Шевцов:
А пользователь вводит однословный запрос и потом его уточняет - это поведение можно проверить по базе AOL. Это ментально удобнее, чем сформулировать точный запрос. А прирост релевантности на одном слове возможен только в варианте Нигмы.

Их алгоритм всегда будет на уровне амебы, пока в фразах не начнут искать смысла, а до этого никто еще не дошел и не дойдет я вас уверяю еще лет 10.

Есть существенная причина, по которой до этого в ближайшее время никто не дойдет. Это Шенон, Это физики, которые ставят препоны в вопросах теории систем, в которых откровенно не соображают. Препон математики, потому что их понятийное множество структурировано по типу куста, они не в состоянии разработать ни одного стоящего алгоритма для обработки терминов, проверено! У них мозги работают только с формулами, они не видят взаимосвязей между формулами и физическими явлениями. Формулы найдут, а объяснить не получается у них, именно поэтому квантовая механика если почитать физику-полная бредятина, это известный факт и есть куча анекдотов:

Пишут как-то Ландау и Лифшиц ``Электродинамику сплошных сред``,

ну и в одной главе получали какую-то сумасшедшую формулу с

использованием максвелловского тензора напряжений в анизотропной

среде. А на следующий день Лифшиц говорит:

- Слушай, я вчера три листа выкладок в трамвае потерял.

Что делать?

- Да ладно, - говорит Ландау, - напишем, как обычно:

``откуда очевидно...``

Даже нейробиологи, занимающиеся исследованием мозга не видят связи между интеллектом и обработкой информации.

Может я и не единственный в своих идеях, но похожих алгоритмов вы не увидите еще долго.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий