- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
На данном форуме собралось много экспертов информационного поиска, поетому, надеюсь, Вы сможете что-то предложить.
Возникла потребность+желание разработать что-то полезное для информационного поиска. Причем полезность должна быть как-то совмещена с новизной.
Для выбора направления работ необходимы глубокие знания (новизна) и опыт в указанной области (полезность).
Очерчу примерно область, которой занимаюсь сейчас
1. Определение схожести документов
Когда придумывал тему, и близко не знал что это такое. По найденным материалам со временем прихожу к мысли низкой полезности, с другой стороны можно использовать в :
-Определение тематического подобия (Кластеризация и классификация используется для автоматического построения каталогов больших массивов информации и результатов поиска в поисковых системах)
-Поиск нечетких дубляжей (Используется для защиты от спама, выявления плагиата, предотвращения повторного индексирования документов поисковыми системами)
-Поиска информационных центров (ИМХО Используют в QA системах, реферирования, где в реферат не должна попадать общая для многих документов информация)
-Поиска документов по запросу (Строка запроса рассматривается как документ, а результатом поиска являются наиболее схожие проиндексированные документы)
2. Для исследований выбрана векторно-пространственная модель (tdidf).
3. Рассматривать схожесть как тупое умножение векторов - банально и не научно что ли :). Хочется усложнить: например схожесть слов = схожести описаний слов = статистике документов, в которых слова встречаются... Или что-то более умное.
Дальше можно пойти в сторону LSA и заниматся анализом матрицы. Но опять таки, нужно определиться с задачами, наверняка многое уже зделано. А для того что-бы углубится и чего-то достичь желательно иметь под рукой руководителя-эксперта в изучаемой области.
4. Наверника вокруг да около есть более интересные/нужные задачи (в IR конечно же).
Буду очень благодарен за все предложения и полезные ссылки на открытые для исследования темы, как-то близкие с описанным.
Вообще, ИМХО, IR стал таким большим, что это достаточно широкие (глобальные) темы. Нужно брать какие-то их подразделы. И лучше в контексте Интернета. Потому что в Интернете все по-другому. Там есть спам. И вот, кстати, про спам: мне лично очень импонирует тема борьбы с поисковым спамом. Создается ощущение, что на этом фронте все не слава богу. Уж какая-нибудь классификация основных типов атак и типичных методов борьбы с ними не помешала бы.
Вот взять, например, любимый нами Гугель. И новый алгоритм BigDaddy, в котором со спамом борются методом включения-исключения (или по-другому не индексируем вообще то, что считаем спамом). ИМХО, это метод хирургический, потому как ошибка автоматического определения спам-страницы довольно велика. А если страницу посчитали спамом, то ее не по какому запросу найти нельзя. Что не есть правильно.
Я понимаю спам как _массовость_ и _нежелательность_.
Для массовости действительно можно использовать сходство, однако здесь скорее что-то эвристическое надо, а если по сходству - то только имея хорошие данные касательно нежелательности. А нежелательность определяет пользователь и нужна огромная база вручную обработанной информации.
ИМХО спам лучше решать на этапе сложности массовой отправки. Типа придумать какой-то стандарт, требующий подписи, сертификаты или введения кода с картинкой (которые генерит сервер получателя). Хотя это всего лишь мысль.
Я имею в виду: поисковый, а не почтовый спам.
Возникла потребность+желание разработать что-то полезное для информационного поиска. Причем полезность должна быть как-то совмещена с новизной.
при словах "возникла потребность" [накатать нетленку] возникают неприличные ассоциации [про Гондурас]
(не хотел бы обидеть - просто здесь не "с налета" надо действовать, а много работать - чтобы в результате реально конкурировать с другими)
Очерчу примерно область, которой занимаюсь сейчас
1. Определение схожести документов
если серьезно - тема неплохая и нужная (имеется много интересных задач, часть из которых Вы назвали).
Самый важный вопрос здесь - что есть "схожие документы" - формул можно написать много, придумать много "продвинутых" моделей - однако, схожесть придется определять из внешних критериев (например, разметкой).
Поэтому самая большая здесь проблема - получить адекватное (большое) тестовое множество.
...
2. Для исследований выбрана векторно-пространственная модель (tdidf).
3. Рассматривать схожесть как тупое умножение векторов - банально и не научно что ли :).
Что же всех тянет сразу на Нобелевку-то?
tfidf бывает разный (и даже очень разный). Посмотрите статьи Savoy, например, для CLEF. Да и другие статьи там - все не стоит на месте, но двигается.
...
4. Наверника вокруг да около есть более интересные/нужные задачи (в IR конечно же).
Зачем мучаться - читать надо!
Возьмите CFP или программы последних (за пять лет) конференций SIGIR, WWW, TREC, CLEF, HLT и т.п., и спроецируйте на свои нужды.
Там более чем адекватно покрываются задачи нужные сегодня (а может быть и завтра).
не хотел бы обидеть - просто здесь не "с налета" надо действовать, а много работать - чтобы в результате реально конкурировать с другими
Материала и направлений действительно очень много. В институте ничего связанного с IR не учили и толком консультироваться в этой области к сожалению не с кем. А чтобы определится в перспективных направлениях развития нужно знать особенности всех направлений.
Самый важный вопрос здесь - что есть "схожие документы" - формул можно написать много, придумать много "продвинутых" моделей - однако, схожесть придется определять из внешних критериев (например, разметкой).
Вполне согласен, как только возникает определение схожести - мера следует. Осталось только определиться с задачей и дать под нее определение.
Наверно, можно дополнять строку поиска, введенную пользователем, схожими словами. Cказать что схожесть слов = схожести их определений. Если определением слова считать все документы, содержащие слово, то схожесть слов можно считать равной схожести документов. И получить какой-то замкнутий круг
Что же всех тянет сразу на Нобелевку-то?
Пока что тянет хорошо написать магистерскую, что б двигаться дать по пути на Нобелевку :)
Посмотрите статьи Savoy, например, для CLEF. Да и другие статьи там - все не стоит на месте, но двигается.
10х
Зачем мучаться - читать надо!
Возьмите CFP или программы последних (за пять лет) конференций SIGIR, WWW, TREC, CLEF, HLT и т.п., и спроецируйте на свои нужды.
Исходя из данного треда планировал как-то очертить и сузить круг информации, которую нужно переварить, а то уж больно много всего разного. Может есть класика по IR, типа Буча по проектированию и Рихтера по Win32?
Пока что под вниманием http://www.dcs.gla.ac.uk/Keith/Preface.html#PREFACE.
Там более чем адекватно покрываются задачи нужные сегодня (а может быть и завтра).
не осилил :(
не осилил :(
ничем нельзя помочь - ПРИДЕТСЯ читать (если на что-то хотите расчитывать)!
Совершенно согласен с itman - пока постановка задачи слишком широка.
Надо выбрать более узкую - суженные задачи могут сильно отличаться друг от друга алгоритами и методами (аналог из урматов - какой из членов считать малым - разные типы уравнения).
Выбрать надо самому - должно же нравиться чем заниматься.
Как-то все расплывчато и риторично... :(
Как-то все расплывчато и риторично... :(
каков вопрос - такой ответ
А как вам идея системы, которая бы не искала среди других сайтов и давала линки на них, а отвечала на вопросы заданные ей? К примеру вводишь "сколько пять + пять" - она тебе "10"... Это банальный вопрос, но система бы отвечала и и другие вопросы, то есть немного ИИ...