Мозговой штурм

157

vuhrust

17 мая 2006, 21:02

5608

На данном форуме собралось много экспертов информационного поиска, поетому, надеюсь, Вы сможете что-то предложить.

Возникла потребность+желание разработать что-то полезное для информационного поиска. Причем полезность должна быть как-то совмещена с новизной.

Для выбора направления работ необходимы глубокие знания (новизна) и опыт в указанной области (полезность).

Очерчу примерно область, которой занимаюсь сейчас

1. Определение схожести документов

Когда придумывал тему, и близко не знал что это такое. По найденным материалам со временем прихожу к мысли низкой полезности, с другой стороны можно использовать в :

-Определение тематического подобия (Кластеризация и классификация используется для автоматического построения каталогов больших массивов информации и результатов поиска в поисковых системах)

-Поиск нечетких дубляжей (Используется для защиты от спама, выявления плагиата, предотвращения повторного индексирования документов поисковыми системами)

-Поиска информационных центров (ИМХО Используют в QA системах, реферирования, где в реферат не должна попадать общая для многих документов информация)

-Поиска документов по запросу (Строка запроса рассматривается как документ, а результатом поиска являются наиболее схожие проиндексированные документы)

2. Для исследований выбрана векторно-пространственная модель (tdidf).

3. Рассматривать схожесть как тупое умножение векторов - банально и не научно что ли :). Хочется усложнить: например схожесть слов = схожести описаний слов = статистике документов, в которых слова встречаются... Или что-то более умное.

Дальше можно пойти в сторону LSA и заниматся анализом матрицы. Но опять таки, нужно определиться с задачами, наверняка многое уже зделано. А для того что-бы углубится и чего-то достичь желательно иметь под рукой руководителя-эксперта в изучаемой области.

4. Наверника вокруг да около есть более интересные/нужные задачи (в IR конечно же).

Буду очень благодарен за все предложения и полезные ссылки на открытые для исследования темы, как-то близкие с описанным.

I

64

itman

18 мая 2006, 05:49

#1

Вообще, ИМХО, IR стал таким большим, что это достаточно широкие (глобальные) темы. Нужно брать какие-то их подразделы. И лучше в контексте Интернета. Потому что в Интернете все по-другому. Там есть спам. И вот, кстати, про спам: мне лично очень импонирует тема борьбы с поисковым спамом. Создается ощущение, что на этом фронте все не слава богу. Уж какая-нибудь классификация основных типов атак и типичных методов борьбы с ними не помешала бы.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

I

64

itman

18 мая 2006, 05:55

#2

Вот взять, например, любимый нами Гугель. И новый алгоритм BigDaddy, в котором со спамом борются методом включения-исключения (или по-другому не индексируем вообще то, что считаем спамом). ИМХО, это метод хирургический, потому как ошибка автоматического определения спам-страницы довольно велика. А если страницу посчитали спамом, то ее не по какому запросу найти нельзя. Что не есть правильно.

Яндекс кобласит Ищу абузоустойчивого хостера под Новая метрика

V

157

vuhrust

18 мая 2006, 12:32

#3

Я понимаю спам как _массовость_ и _нежелательность_.

Для массовости действительно можно использовать сходство, однако здесь скорее что-то эвристическое надо, а если по сходству - то только имея хорошие данные касательно нежелательности. А нежелательность определяет пользователь и нужна огромная база вручную обработанной информации.

ИМХО спам лучше решать на этапе сложности массовой отправки. Типа придумать какой-то стандарт, требующий подписи, сертификаты или введения кода с картинкой (которые генерит сервер получателя). Хотя это всего лишь мысль.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

18 мая 2006, 12:40

#4

Я имею в виду: поисковый, а не почтовый спам.

B

42

bvd

18 мая 2006, 15:40

#5

vuhrust:

Возникла потребность+желание разработать что-то полезное для информационного поиска. Причем полезность должна быть как-то совмещена с новизной.

при словах "возникла потребность" [накатать нетленку] возникают неприличные ассоциации [про Гондурас]

(не хотел бы обидеть - просто здесь не "с налета" надо действовать, а много работать - чтобы в результате реально конкурировать с другими)

vuhrust:

Очерчу примерно область, которой занимаюсь сейчас
1. Определение схожести документов

если серьезно - тема неплохая и нужная (имеется много интересных задач, часть из которых Вы назвали).

Самый важный вопрос здесь - что есть "схожие документы" - формул можно написать много, придумать много "продвинутых" моделей - однако, схожесть придется определять из внешних критериев (например, разметкой).

Поэтому самая большая здесь проблема - получить адекватное (большое) тестовое множество.

vuhrust:
...
2. Для исследований выбрана векторно-пространственная модель (tdidf).
3. Рассматривать схожесть как тупое умножение векторов - банально и не научно что ли :).

Что же всех тянет сразу на Нобелевку-то?

tfidf бывает разный (и даже очень разный). Посмотрите статьи Savoy, например, для CLEF. Да и другие статьи там - все не стоит на месте, но двигается.

vuhrust:
...
4. Наверника вокруг да около есть более интересные/нужные задачи (в IR конечно же).

Зачем мучаться - читать надо!

Возьмите CFP или программы последних (за пять лет) конференций SIGIR, WWW, TREC, CLEF, HLT и т.п., и спроецируйте на свои нужды.

Там более чем адекватно покрываются задачи нужные сегодня (а может быть и завтра).

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

V

157

vuhrust

18 мая 2006, 23:32

#6

bvd:

не хотел бы обидеть - просто здесь не "с налета" надо действовать, а много работать - чтобы в результате реально конкурировать с другими

Материала и направлений действительно очень много. В институте ничего связанного с IR не учили и толком консультироваться в этой области к сожалению не с кем. А чтобы определится в перспективных направлениях развития нужно знать особенности всех направлений.

bvd:

Самый важный вопрос здесь - что есть "схожие документы" - формул можно написать много, придумать много "продвинутых" моделей - однако, схожесть придется определять из внешних критериев (например, разметкой).

Вполне согласен, как только возникает определение схожести - мера следует. Осталось только определиться с задачей и дать под нее определение.

Наверно, можно дополнять строку поиска, введенную пользователем, схожими словами. Cказать что схожесть слов = схожести их определений. Если определением слова считать все документы, содержащие слово, то схожесть слов можно считать равной схожести документов. И получить какой-то замкнутий круг

bvd:

Что же всех тянет сразу на Нобелевку-то?

Пока что тянет хорошо написать магистерскую, что б двигаться дать по пути на Нобелевку :)

bvd:

Посмотрите статьи Savoy, например, для CLEF. Да и другие статьи там - все не стоит на месте, но двигается.

10х

bvd:

Зачем мучаться - читать надо!
Возьмите CFP или программы последних (за пять лет) конференций SIGIR, WWW, TREC, CLEF, HLT и т.п., и спроецируйте на свои нужды.

Исходя из данного треда планировал как-то очертить и сузить круг информации, которую нужно переварить, а то уж больно много всего разного. Может есть класика по IR, типа Буча по проектированию и Рихтера по Win32?

Пока что под вниманием http://www.dcs.gla.ac.uk/Keith/Preface.html#PREFACE.

bvd:

Там более чем адекватно покрываются задачи нужные сегодня (а может быть и завтра).

не осилил :(

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

42

bvd

19 мая 2006, 10:57

#7

vuhrust:

не осилил :(

ничем нельзя помочь - ПРИДЕТСЯ читать (если на что-то хотите расчитывать)!

Совершенно согласен с itman - пока постановка задачи слишком широка.

Надо выбрать более узкую - суженные задачи могут сильно отличаться друг от друга алгоритами и методами (аналог из урматов - какой из членов считать малым - разные типы уравнения).

Выбрать надо самому - должно же нравиться чем заниматься.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

30

lagif

19 мая 2006, 11:07

#8

Как-то все расплывчато и риторично... :(

Это тоже пройдет...

B

42

bvd

19 мая 2006, 11:26

#9

lagif:
Как-то все расплывчато и риторично... :(

каков вопрос - такой ответ

271

Тарас Гуща

6 июня 2006, 11:54

#10

А как вам идея системы, которая бы не искала среди других сайтов и давала линки на них, а отвечала на вопросы заданные ей? К примеру вводишь "сколько пять + пять" - она тебе "10"... Это банальный вопрос, но система бы отвечала и и другие вопросы, то есть немного ИИ...

"EasyConf.Bz" - товарная конференция №1 в Украине - 20.02.2020 - Киев (https://easyconf.bz) Seo.Ua - Создание и продвижение сайтов (http://www.seo.ua) с гарантиями! Ура! Трастовые ссылки/статьи на 500+ СДЛах от 1$! (/ru/forum/847121)

Продажи с авито перешли Упал доход Продвижение большого количества НЧ

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Маркетинг для шоколадной фабрики. На 34% выше средний чек