goover

Рейтинг
10
Регистрация
26.09.2005
Читайте основополагающие работы Клейнберга по Hits.

вчитался еще раз в эту фразу... может имелось в виду индексирование в первую очередь только "авторитетных" с точки зрения бОльших весов сайтов заданной тематики? или фокусное следование по ссылкам на/с авторитетных ресурсов...

Насколько я знаю, это системы с открытым исходным кодом, поэтому в случае необходимости подобную функциональность можно добавить самому.

ценное замечание.... если есть возможность реализации, то это уже лучше чем ничего...

Ну да, как это автоматически невозможно? Читайте основополагающие работы Клейнберга по Hits.

Вячеслав, поясните пожалуйста - что именно прочитать? насколько я знаю - Hits это рекурсивный алгоритм ссылочного ранжирования, который достаточно ресурсоемок и поэтому широкого применения в чистом виде не получил. У меня пока он не коррелируется с представлениями об автоклассификации.... что вы имели в виду?

спасибо. посмотрел, но там только некоторые широкораспространенные форматы, не годится...

2Zute

огромное спасибо! ну должен же быть хоть один дельный ответ.

Вопрос Вам: что ставить. Читал много про mnogosch и dataparksch, вроде как по смыслу одно и тоже, люди говорили много хорошего про Aspsearch.

Я бы все таки хотел чтото связанное с PHP, наверное mnogo нужен... там есть extension. Слышал что он страшно глючный, не знаю, так или нет.

Скорость работы не интересует, важен сам процесс :)

Можно еще командами Disallow запретить файлы с заведомо неинтересными расширениями.

а указать интересующие расширения можно?

кстати заодно вопрос - можно ли этот GPL поисковик использовать для создания вообще тематического поисковика?

ну то есть:

1) указание интересующего пула тематических сайтов для индексации (ну например из некого каталога сайтов, который также есть в данной тематической поисковой системе). (полагаю это он должен уметь)

2) индексация только того материала, который входит в тематику. То есть имеется в виду некий частный случай автоклассификации текстов, когда мы просто принимаем решение - подходит страница по тематике или нет. Мы задаем некую обучающую выборку текстов по тематике, или например поисковик сам обучается на вручную отобранных из каталога сайтах. Алгоритмы принятия решения любые, хоть наивный баессовский фильтр.

3) более навороченный вариант - "focused crawling" (фокусное индексирование), когда паук ползет по тем ссылкам (или в первую очередь по тем), которые близки по тематике.

можно ли такие штуки выжать из данных продуктов?

и (если у кого есть опыт), то как?

что касается поиска по определенным файлам - то это один из нужных сервисов, который должен быть доступен.

Нужно очень много ресурсов...

в курсе, интересует реализация... или тут все очевидно?

InSAn:
Ну да! ;)
какое отношение этот вопрос имеет к технологиям?
Ведь интересует возможность, а не реализация?

нет... ну если рассматривать применение текущих SE, и некий синтаксис запроса - то конечно возможность.

А как по второму вопросу? про паука... именно реализация интересует. То что это возможно, создать такого, наверное не подлежит сомнению....

я не прав?

а как вы язвительность определили? по интонации?

да, большой опыт просто общения в форумах :)

Можно искать файлы прямо по файловым архивам, например, так (для .avi):
+avi -html -htm -cgi -asp -aspx -php -jsp -shtml "index of"

уже лучше, спасибо. Весь вопрос в том, насколько сильно мы в запросе ограничим поиск и не обрежем ли чего то нужное. Да и где гарантии что база поисковика достаточно полна, чтобы искать по достаточно узкой теме.

А если задачу поставить так - чтобы работал паук, бродящий по инету с одной целью - отыскания нужных файлов, как насчет этого?

Вообще-то вопрос никак не относится к поисковым технологиям.

да ну? :)

поясню что не ставится цель искать авишки в частности..... там задача на нераспространенные, специфичные форматы.... для специалистов в предметной области.

> Вы в Google по filetype: искать не пробовали?

проглотил несколько язвительную реплику.... поясню еще раз... меня не интересуют поддерживаемые гуглем форматы: ms office, pdf, txt, ps, rtf. Меня интересуют специфичные форматы... и вообще те расширения файлов, которые я захочу искать... т.е. чтобы настраивалось

и еще просьба модераторам - перенести тему в раздел "поисковые технологии" (там где она была создана), а не в раздел от новичков.... я не новичок отнюдь

Дальнейшие разборки, если вам так хочется, проводите в личке. И если говорить о недопонимании, вы сами начали не с того конца. Говорили о Гуле.локал не зная, каким образом эта база заведена.

у меня с вашего позволения 3 вопроса:

1) какие разборки и с кем в личке??? у меня разборок ни с кем не ведется

2) я как раз начал с того конца... в самом первом посте темы я заговорил о GIR как о научном направлении... далее пошла дискуссия по методам, которые уже применяются или могут (не могут) применяться. Много людей высказали ценные замечания, с несколькими из них у нас продолжились интересные обсуждения в привате. Во всех же ваших постах по отношению к данной тематике как таковой всегда был полный скептицизм, а точнее просто нежелание рассматривать вопрос как научную проблему.... Поэтому в сообщении #95 я и упомянул о научной актуальности.

3) про гугл локал? а вы знаете как она устроена на 100%? пока мы владеем лишь предположениями, к тому же мы уж точно не знаем какие разработки сейчас ведет гугл. А если бы вы держали руку на пульсе конференций по GIR, то были бы немного другого мнения о проблеме.

Ваше участие в этой теме свелось к неконструктивной критике и попыткам оспорить все что можно, вы уж простите но это подход на уровне "хочу не хочу".. Кстати про гугл вы так и сказали "не нравится"....

> goover, Ну так, не по айпишнику же этот радиус определяется. Вам уже рассказали, откуда его берут.

какая разница откуда его берут. я отвечал на фразу "бред про 10 км"... Я вобщем то не понимаю в чем состоит суть вашего недопонимания ситуации.

GIR это совокупность методов и алгоритмов - какие то методы более точны, какие то менее. Какие то применяются уже на практике, какие то еще сложно использовать в силу местной специфики, отсутствия данных (в публичном доступе) и пр. Это достаточно типичная ситуация для любой науки, и отрицать науку впринципе как таковую в силу этих причин просто глупо. Если вы считаете что науки в этом нет, то вы глубоко ошибаетесь. В решении этих проблем, есть как прикладные так и фундаментальные составляющие....

Всего: 50