Позвольте, и я немного пооппонирую Игорю.
Я не буду детально обсуждать каждый аргумент, просто приведу несколько важных, и возможно не до конца воспринимаемых аудиторией обстоятельств, ставших более-менее очевидными в последние несколько лет.
1. Социальная сеть, а не коллекция текстов: природа данных + природа интереса.
Живая, активно и агрессивно пополняемая коллекция под нащзванием ВЕБ, в которой есть все и на любой вкус - единственное по настоящему массовое применение поисковых технологий сегодня. Наличие (относительно? качественного) поиска стимулирует как интерес к этой коллекции так и ее пополнение.
Пополнение устроено так, что анализ текста сам по себе не может справиться с поисковыми задачами. Отсюда и разговоры об относительной исчерпанности традиционных IR подходов 20го века. (я датирую конец двадцатого века концом 1998 года)
Социометрия -- понимаемая не просто как грубый анализ линков а гораздо шире: анализ логов, то есть поведения пользователей, анализ посещаемости сайтов, анализ "заимствования" текстов и их фрагментов -- то есть анализ поведения человеческого сообщества -- есть поставщик наиболее продуктивных факторов в ранжировании и кластеризации поиска в ближайшие годы. Просто потому что тут еще как следует не копали. И копать тут еще - не перекопать!
2. Новизна "истинного" опыта использования поисковых систем.
То опыт который мы сейчас наблюдаем: как действия пользователей, так и вебмастеров - единственный реальный источник материалов для обсуждения использования поисковых систем.
Это реальный, а не воображаемый опыт, каковой изучался в 20-м веке, когда "ПОИСКОВЫХ СИСТЕМ В МАССОВОМ ПОЛЬЗОВАНИИ НЕ СУЩЕСТВОВАЛО".
3. Поисковая система - простой и понятный механизм на службе человека.
На основе этого реального опыта, многие, и я в том числе, делают примерно следующий вывод.
Поисковая машина должна быть "глупа" и проста ровно настолько, чтобы ею было просто и понятно пользоваться. Она не может и не должна заменить интеллект человека. По крайней мере в ближайшие XXX лет. Аналогично тому, как от программы Word мы не требуем (пока?) возможности автогенерации текста по двум трем положенным в его основу мыслям.
Сумма действий поисковой системы и человека должны быть максимальной эффективной. Сумма. А не действия поисковой системы само по себе.
Это вовсе не означает, что ИПС не должны быть интеллектуальны. Там должно быть (и реально уже) зашито очень много интеллекта. На наружу его надо подсовывать очень аккуратно, не разрушая ментальную модель поиска.
Противопоставлять data mining (в котором Игорь делает основной акцент на распознавании артефактов) и поиск не вполне корректно. Это все о разном. Простая токенизаци имеет много своих предпочтений, но при этом многие веб-искалки анализируют "фразы", ну и что? Математики над матрицами в веб-искалках тоде много, но она просто не торчит наружу.
По поводу задач, приведенных Игорем. Многие подобные задачи, думаю, прекрасно решаются (и как я пытался объяснить раньше: во многом быстрее и эфективнее) при помощи "простой" поисковой системы - в рамках кубка по поиску за честные три минуты. Совместными усилиями человека и веб-искалки.
С уважением,
Илья
Интересно кого?
В порядке убывания доли на корпоративном рынке:
Дальше неясно и приблизительно:
Для меня тоже. См. выше.
Спасибо.
Это иллюзия. Такого не бывает. Грязь есть всегда и никто ее за нас не вычистит.
Нужен. Практика показала.
Еще одна иллюзия. Спам - это часть социальной природы человека. Он есть везде, скажем даже в наших Я.Товарах (примерно то, что Вы описываете).
Боюсь, что если вы будете удалять раз и навсегда, то останетесь без клиентов.
Так бы сразу и сказали. А то спорим об алгоритмах, а постановки задачи оказывается и не было.
Самый полный набор формул на любой вкус (от любителей теорвера до законченных детерминистов) в книжечке Modern IR.
Она на амазоне недорогая (юзанная от $32, новая - $50).
Перепечатывать формулы влом. Сорри.
Понял вашу мысль. В Оракле можно дописывать расширения на C. Согласен. Только объем дописывания будет равен в точности текущему коду Яндекса.
В сущности предлагается заменить файловую систему на хранение в Оракле. Только зачем?
Если очень хочется не писать эти пять системных вызвовов, имеет смысл посмотреть на более низкоуровненые БД. Беркли, например.
Какой-то аспирант Гарсиа-Молины на позапрошлом WWW докладывал Web-поиск с хранением в Беркли. (я где-то в этом форуме его уже упоминал)
Там оверхед на скорости поиска был всего-то вдвое. Потрясающий результат, позволяющий например Гуглю использовать лишь на 54000 компьютеров больше чем сейчас :)
Сомнительно. Точнее просто не верно. В Оракле реализованы 3-4 базовых алгоритма хранения и обновления индексов. Поисковых систем много и алгоритмов хранения, исполнения запросов, обновления индексов сильно больше четырех.
Только в исполнении и ранжировании запросов поисковыми системами наблюдается такой зоопарк, которые никакими стандартными средствами Оракла не воспроизвести.
Думаю, что задача Веб-поиска в достаточно широкой постановке невыполнима на Оракле ни за какие деньги.
Ну хорошо, наши 50 компов можно заменить на 200 Оракловых (интересно, бывают такие лицензии? а работать оно вообще будет?). Но что делать с Инктоми или Гуглем? 54 тысяч компьютеров заменить на миллион? :) Боюсь, что это не поможет.
По людям:
У нас 80 в офисе, еще 20 - вне офиса. При этом спектр нашего софта пошире (хостинг, почта), плюс мы сами себе портал, то есть продаем много разной рекламы. Программистов у нас - 30 человек. Подробнее см ответы журналу "Системный Администратор" (http://www.webclub.ru/events/searchenginequestions/).
В Гугле 300 сотрудников было больше год назад и они активно нанимали и нанимают. И прикупили несколько компаний за последнее время. И открыли офис в Ирландии. В общем там сейчас человек 500-700 (по моим оценкам (можно еще порыться здесь: http://www.google.com/jobs/great-people-needed.html)
Теперь по железу. Сейчас у нас 40 бэкендов (неделю назад случился переход с 30 на 40) и 15 фронтендов на поиске. Мы выдаем 6 миллионов страниц с поисковыми результататми в сутки по базе из почти 100 миллионов уникальных документов.
У Гугля 250 миллионов страниц с выдачей в день (см searchenginewatch) 54000 компьютеров (см блог гугля) и база в 3 миллиарда страниц.
OFF: Правда я не уверен, что 3 миллиарда - это "полные тексты". Раньше в это число Гугль для пущего "пиара" включал документы, известные только по ссылкам. Но потом кажется было "пиар-бодание" с Фастом, возможно что подсчет внешних ссылок отменили...)
Если помножить и разделить, то как раз получается все более-менее пропорционально: 10-15 (миллионов документов * миллионов запросов) на 1 сервер в день. (Я встречал и цифры в духе 20, исходящие от Фаста, но там кажется координатный поиск не полностью в то время работал).
О компьютере. И у наc и у Гугля (см блог) типовой комп: слим?, 2 процессора, 3-4 диска (то количество, которое влезает в слим). Такие машины наверное лучшее предложение по соотношению производительность/цена. Не забывайте и про стоимость размещения, (в цену толстых корпусов входит дополнительные кондиционирование, помещение, электричество и т.д. и т.п.). Однопроцессорные не сильно дешевле двухпроцессорных. Четырехпроцессорные намного дороже.
Про иные службы (не-поиск)
В яндексе их довольно много: Народ, почта, баннерная крутилка, открытки и т.п. Все они требуют железа. Плюс есть еще и робот. "На круг" у нас примерно 170 машин.
У гугля тоже есть не-поисковые службы, но в общем количестве серверов их процент очень мал. Почему я так думаю, могу объяснить. Всегда требуется некоторое начальное количество серверов, необходимое для "сетапа", а остальное обычно определяется трафиком. Трафик на поиске в десятки раз превосходит трафик на "группах".
Там где всегда. У киберсквоттеров. Их много. И они очень, очень шустрые.
Это точно. Еще году в 1994-м наши потенциальные заказчики выбирали между "Аркадией" (то есть нами), МИРС-ом (Пархоменко) и ИРБИСом (Максимов).
Последние две системы требовали свой собственный входной формат.
Вообще, судя некоторым конференциям (http://www.gpntb.ru/libcom/), ИРБИС доминирует в госструктурах ориентированных на z39.50 (протокол поиска в библиографических данных) и RUSMARC (отчечественная версия USMARC-а - стандартного библиографического формата).
Ты наверное Hull-а имеешь в виду?
Картунен и Ко давно, уже лет 8 как, сделали машинку, которая читает PC-KIMO-вский формат и строит очень быстрый FSM. Они это называют transducer.
В PC-KIMO ужасно противно описывать правила. Таблички надо ручками печатать. Но словарь получается вполне себе закрытый и на корпус вообще не смотрит.
Вот в Америке есть относительно новая програмулька Linguistica (Гольдшмит кажется автор). Так вот он действительно со страшным по силе убежденности пиаром пропагандирует полностью автоматическую систему построения - вчистую по корпусу.
Для языка уагу-дугу действительно альтернативы нет :) (ну нет в уагу-дугу зализняка, ну что поделаешь)
Кстати, к вопросу о русских морфологиях: есть же еще русский бессловарный Портер на sourceforge.net. Snowball. Быстрый как зверь (120 тыщ слов пер сек), "грязный" как "чушка", но думаю получше предлагаемого Борисом отрезания 25 процентов с хвоста. Хоть и чуть-чуть помедленней. :)
А в бесплатных системах (многосерч, аспсик) - царство ispell-а. Только я бы предостерег всех от увлечения этим условным "морфоанализатором". Дело в том, что словарь ispell решает задачи спеллинга и максимально экономно описывает все "разрешенные" в данном языке словоформы. А это не то же самое, что описание слов и их словоизменительных парадигм. Эта трагическая разница хорошо видна в английском ispell-е. Думаю что и в русском она заметна.
Андрей, Борис, не ссорьтесь!
Давайте лучше РОМИПом займемся. :) Вот например, Андрей, скажи, почему это его Рамблер манкирует :) ?