Keva

Рейтинг
80
Регистрация
27.11.2000
Интересы
Software development, linguistics, BMW, dogs, girls ;-)
А в цивилизованном мире рядом с официальным есть тюнинговые ателье типа BRABUS, HAMMAN, ALPINE, AMG, ABT.

И хорошие производители хороших машин не считают зазорным сотрудничать с ними на официальном уровне.

Да кто бы спорил! Не только сотрудничают, но и предоставляют недособранные кузова, как, например, "Баварские моторные мастерские" - Хаманну или Alpine.

Только разница тут в том, что те тюнингуют двиuгатель, подвеску, меняют дизайн автомобиля, то есть реально создают интересный продукт и сотрудничают с производителем, а вовсе не занимаются забодяживанием присадок в бензин :)

Опять двадцать пять!

Да нет, что ты! Примерно тридцать два :)


Почему "искуственно завышают" рейтинг? Где объективное мерило рейтинга - что искуственно, а что естественно? Я добавил некую информацию на страницу, рейтинг ее в терминах вашей поисковой машины по некоему запросу увеличился. Это искуственное завышение или естественный процесс?

Объективное мерило? Ну, поскольку о том, что такое объективное мерило, можно спорить до бесконечности, давайте введем понятие правильного, а не объективного мерила релевантности и рейтинга, и будем считать оным мнение тех, кому принадлежат поисковики, кто вложил деньги в их становление и развитие, а также тех, кто в настоящий момент занимается их эксплуатацией и совершенствованием по поручению первых :) Предлагаю на выбор Илью Сегаловича, Влада Шабанова и т. д. :) Список можете продолжить :)

Логическое завершение этого процесса исправления багов - создание модерируемого списка страниц по каждому запросу.
...
Только вот ресурсов у вас на это никогда не хватит.

А нет необходимости создавать такие списки по каждому запросу. Достаточно ограничиться, опять же в идеальном случае, только коммерческими запросами. Скажем, вряд ли есть платежеспособный спрос на первые позиции по запросам типа "RS-232", "терминатор 3 сценарий" или "адрес финского посольства".

В этом обсуждении больше всего меня даже не удивляет, а шокирует наглядное подтверждение известного правила из "Законов Мерфи". Гласит оно следующее: "Как бы доходчиво Вы ни излагали свои мысли, все равно кто-нибудь поймет Вас неправильно". Есть и следствие из него - "В любом случае Вы будете поняты неправильно".

Основная идея исходного текста состояла в том, что есть ОДИН и ЕДИНСТВЕННЫЙ способ для клиента ГАРАНТИРОВАННО получить хороший отклик и заинтересованных посетителей с поисковика - это покупать рекламу, покупать ее у поисковика.

Все то, что делают оптимизаторы - это, как говорят в конференциях auto.ru, "колхоз", то есть небольшой частный автосервис рядом с сервисом официального дилера. Так и тут - есть люди, в реале очень приятные, с которыми можно весело пообщаться, попить пивка и получить от этого массу удовольствия, которые, пользуя недостатки поисковиков, да и просто откровенные ошибки, искусственно завышают рейтинг некоторых сайтов, "продвигают" их в поисковых системах. При этом гарантий никаких, естественно, никто дать не может - баги мы перически исправляем :)

Размещение же рекламы в поисковике, то есть через рекламное агентство поисковика, по определению гарантирует показ оной тем, кому она адресована.

С уважением и приязнью к участникам форума, Андрей.

Как писал bvd
...
Написать можно по-разному, и даже если я ошибаюсь
насчет мощи PL/SQL, тогда дело решится вставкой в совсем уж узкое место маленького кусочка на С или Java.

Уважаемый bvd, эта Ваша фраза свидетельствует о том, что Вы не вполне разбираетесь в проблематике. О каких "фрагментах на C" или, тем более, на Java, может идти речь, если ключевые по производительности места "самописного", т. е. полностью ручками написанного поисковика, оптимизируются очень глубоко, с борьбой за каждую лишнюю, но часто исполняющуюся инструкцию процессора?


... по крайней мере ORACLE (наверно и остальные) предоставляет
в распоряжение разработчика гораздо более широкий набор
объектов, доступ к которым пишется на вполне качественном
уровне (низкоуровневом) и совершенствуется от года в год.

Да, согласен, и спорить даже не буду. Оракл развивается, имеет мощные, разнообразные алгоритмы. Однако даже на ОЧЕНЬ хорошем и мощном тракторе "Катерпиллер" вы никогда не выиграете не то что Гран При, а даже уличную гонку с "восьмерками". Обратное утверждение также справедливо.

Кроме того, как известно, можно построить машину, которая будет ездить, плавать и летать. Но она будет ПЛОХО ездить, ПЛОХО плавать и ПЛОХО летать :)


Можно, конечно, верить, что русские программисты круче
американских, китайских или индийских, но это неочевидно.

Можно. Однако причем тут это? Или Вы хотите сказать, что американские, китайские и индийские программисты реализуют любые задачи исключительно средствами больших СУБД, в том числе Оракл?

Как писал Gray
... выливается ... в большое количество SELECT`ов ...

Серег, это зависит от того, что является ключом. Если сама форма слова - да, много селектов. Если же внедрить крюк поглубже, то можно индексировать основы.

Подробнее об этом могут сами Гаранты рассказать.

Кстати, к вопросу о русских морфологиях: есть же еще русский бессловарный Портер на sourceforge.net. Snowball. Быстрый как зверь (120 тыщ слов пер сек), "грязный" как "чушка", но думаю получше предлагаемого Борисом отрезания 25 процентов с хвоста. Хоть и чуть-чуть помедленней. :)

Ага... И есть моя бесплатная stemka, русский и украинский стеммер, ты о ней читал. http://linguist.nm.ru/stemka/stemka.html. Работает ощутимо чище, чем Snowball. Используется для анализа не известных морфологическим анализаторам слов в продуктах Меты. В том числе и в большом поисковике.

... Только я бы предостерег всех от увлечения этим условным "морфоанализатором". ... Эта трагическая разница хорошо видна в английском ispell-е. Думаю что и в русском она заметна.

Заметна - не то слово! :) Но если выбора нету, а денег заплатить возможности нет, то это лучше, чем ничего :)

... у кого поисковик лучше...

А мы поисковики, вроде, не сравниваем :) Мы о самом подходе говорим :)

Андрей, Борис, не ссорьтесь!

Да ну что ты, Илья! Мы ж вовсе даже и не... :) У нас тут, понимаешь, дискуссия получается :)

Давайте лучше РОМИПом займемся. :) ... почему это его Рамблер манкирует? :)

Илья, эти решения принимаю не я.

Борис, продолжим? :)

Я же не говорю, что наша морфология лучше всех. Я только утверждаю, что она не хуже Вашей
...
показатели полноты/точности по словоформам/леммам будут у всех одинаково высокими с незначительными отличиями.

Ну, это понятно :) Вот в этих самых отличиях и состоит разница :) Один запрещает множественное число, а другой, по наследству от Великого Словаря Зализняка (без смайликов, словарь действительно великий), его разрешает. Например, у слова "скотоложство". Не пробовали заниматься, к примеру, скотоложствами? :)

Ладно, предлагаю закончить тему морфологий. Готов даже не глядя признать, что ваша и лучше, и полнее... :)
Это ведь никому здесь, кроме нас с вами, не интересно :)

У нас своя коллекция текстов...
... мы используем тезаурус...
... чтобы они помогали при поиске их надо ПРАВИЛЬНО делать...
... на наших текстах ... при СОХРАНЕНИИ точности полнота в 4 раза больше. Результаты опубликованы.

Во-о-от :) Вы сами подтвердили мои самые мрачные подозрения :) Ваша система безупречно работает на ваших текстах. Просто потому, что она под них отлажена! И система машинного перевода ЭТАП-N на конференциях тоже демонстрирует чудеса интеллектуального перевода! Правда, только на текстах, на которых ее отлаживали разработчики :(

Кроме того, тезаурусы для поиска нельзя делать "правильно" или "неправильно". Тезаурус, который увеличивает полноту поиска, не портя отношения "сигнал/шум", или, если угодно, не уменьшая точность, составить можно только одним способом. И способ этот - сузить предметную область до предела.
Более того, такие тезаурусы еще и имеют тенденцию стареть и терять актуальность какое-то время. Небольшое весьма.

Мы, кстати, слово "семантика" сами не любим. И в своей организации я сам приложил руки к закрытию
такого проекта.

:) Семантика: лженаука или продажная девка новой буржуазии? (c) Ашманов, "Диалог-99"

Однако определять тематику общественно-политических текстов
(в том числе на английском языке) мы умеем неплохо, умеем автоматически рубрицировать ... порождать достаточно связную аннотацию.

Это как раз не фокус. И делается это без ручного составления каких-либо словарей. У МедиаЛингвы аннотатор и классификатор были в линейке продуктов уже в 1998 году. Впрочем, и сейчас, кажется, есть.

Кстати, об отечественных искалках. Забыл! Есть еще такой продукт - Следопыт, также от МедиаЛингвы.

С уважением, Андрей Коваленко.

Автор нынешнего топика - тоже Игорь и он как раз из Питера.

О! И вправду :) Сергей, привет :)

Всего: 238