iseg

Рейтинг
80
Регистрация
15.12.2000
Должность
Search Engine Department Manager, Yandex
Интересы
Search Engine Development

Позвольте, и я немного пооппонирую Игорю.

Я не буду детально обсуждать каждый аргумент, просто приведу несколько важных, и возможно не до конца воспринимаемых аудиторией обстоятельств, ставших более-менее очевидными в последние несколько лет.

1. Социальная сеть, а не коллекция текстов: природа данных + природа интереса.

Живая, активно и агрессивно пополняемая коллекция под нащзванием ВЕБ, в которой есть все и на любой вкус - единственное по настоящему массовое применение поисковых технологий сегодня. Наличие (относительно? качественного) поиска стимулирует как интерес к этой коллекции так и ее пополнение.

Пополнение устроено так, что анализ текста сам по себе не может справиться с поисковыми задачами. Отсюда и разговоры об относительной исчерпанности традиционных IR подходов 20го века. (я датирую конец двадцатого века концом 1998 года)

Социометрия -- понимаемая не просто как грубый анализ линков а гораздо шире: анализ логов, то есть поведения пользователей, анализ посещаемости сайтов, анализ "заимствования" текстов и их фрагментов -- то есть анализ поведения человеческого сообщества -- есть поставщик наиболее продуктивных факторов в ранжировании и кластеризации поиска в ближайшие годы. Просто потому что тут еще как следует не копали. И копать тут еще - не перекопать!

2. Новизна "истинного" опыта использования поисковых систем.

То опыт который мы сейчас наблюдаем: как действия пользователей, так и вебмастеров - единственный реальный источник материалов для обсуждения использования поисковых систем.

Это реальный, а не воображаемый опыт, каковой изучался в 20-м веке, когда "ПОИСКОВЫХ СИСТЕМ В МАССОВОМ ПОЛЬЗОВАНИИ НЕ СУЩЕСТВОВАЛО".

3. Поисковая система - простой и понятный механизм на службе человека.

На основе этого реального опыта, многие, и я в том числе, делают примерно следующий вывод.

Поисковая машина должна быть "глупа" и проста ровно настолько, чтобы ею было просто и понятно пользоваться. Она не может и не должна заменить интеллект человека. По крайней мере в ближайшие XXX лет. Аналогично тому, как от программы Word мы не требуем (пока?) возможности автогенерации текста по двум трем положенным в его основу мыслям.

Сумма действий поисковой системы и человека должны быть максимальной эффективной. Сумма. А не действия поисковой системы само по себе.

Это вовсе не означает, что ИПС не должны быть интеллектуальны. Там должно быть (и реально уже) зашито очень много интеллекта. На наружу его надо подсовывать очень аккуратно, не разрушая ментальную модель поиска.

Противопоставлять data mining (в котором Игорь делает основной акцент на распознавании артефактов) и поиск не вполне корректно. Это все о разном. Простая токенизаци имеет много своих предпочтений, но при этом многие веб-искалки анализируют "фразы", ну и что? Математики над матрицами в веб-искалках тоде много, но она просто не торчит наружу.

По поводу задач, приведенных Игорем. Многие подобные задачи, думаю, прекрасно решаются (и как я пытался объяснить раньше: во многом быстрее и эфективнее) при помощи "простой" поисковой системы - в рамках кубка по поиску за честные три минуты. Совместными усилиями человека и веб-искалки.

С уважением,

Илья

Как писал Atomic Max
коммерческие системы достигли своего апогея развития в области лингвистики (по крайней мере, встречались цитаты представителей Yandex-а)

Интересно кого?

Как писал bvd
Что называется "коммерческой" искалкой?

В порядке убывания доли на корпоративном рынке:

  • Verity Search Products
  • Autonomy Enterprise Search
  • Convera / Excalibur RetrievalWare

Дальше неясно и приблизительно:

  • Endeca
  • Hummingbird SearchServer (Fulcrum / Open DOCS)
  • Fast Data Search
  • AltaVista Enterprise/Desktop Search
  • Google Search Appliance
  • Oracle Text, Ultra Search and interMedia Search
Для меня признаком "коммерческой" является количество продаж/установок и обший объем продаж.

Для меня тоже. См. выше.

Здесь искренне желаю Яндексу, Рамблеру и другим достичь уровня оборота и прибылей Oracle.

Спасибо.

то, что может быть названо как "тематический Интернет" (часть Интернета под заказ,
с полной, а невыборочной выкачкой страниц, с вычищенным без дублей, спама и т.п. содержанием).
Эти коллекции достаточно большие, но, естественно, меньше чем Интернет.

Это иллюзия. Такого не бывает. Грязь есть всегда и никто ее за нас не вычистит.

А нужен ли, с точки зрения отдачи (а не только с точки зрения социальной функции), весь Интернет?

Нужен. Практика показала.

топ-листы специализированных
площадок, деньги - на порядок больше (с бюджетом в 150 уе не подходить), а спама на порядок будет меньше - там банят сразу и навсегда.

Еще одна иллюзия. Спам - это часть социальной природы человека. Он есть везде, скажем даже в наших Я.Товарах (примерно то, что Вы описываете).

Боюсь, что если вы будете удалять раз и навсегда, то останетесь без клиентов.

Вас интересует только поисковик. Наших клиентов
обычно интересует поисковик, интегрированный с чем-то иным.

Так бы сразу и сказали. А то спорим об алгоритмах, а постановки задачи оказывается и не было.

С уважением,
bvd

С уважением,

Илья

Самый полный набор формул на любой вкус (от любителей теорвера до законченных детерминистов) в книжечке Modern IR.

Она на амазоне недорогая (юзанная от $32, новая - $50).

Перепечатывать формулы влом. Сорри.

Как писал bvd
В этом случае, надо говорить точнее, конечно, не "средствами Oracle"
а "на основе средств Oracle".

Что я имею в виду. Например, "кишка" Яндекса может быть задана
стандартным объектом типа IOT (Index Organazed Table). То есть
на физически на диске будет лежать аналогично.

Понял вашу мысль. В Оракле можно дописывать расширения на C. Согласен. Только объем дописывания будет равен в точности текущему коду Яндекса.

В сущности предлагается заменить файловую систему на хранение в Оракле. Только зачем?

  • От файловой системы нам требуется 3-4 системных вызова (open, write, read, lseek, mmap). Это даже не процент того, что есть в Оракле. Это промилле. Ничего больше нам от Оракла не потребуется. А оверхед, боюсь, будет чудовищный.
  • Файловая система неплохо написана и оптимизирована ровно под наши 5 вызовов. Ничего лишнего там нет. Она допускает тонкие настройки, если надо.
  • Файловая система бесплатна

Если очень хочется не писать эти пять системных вызвовов, имеет смысл посмотреть на более низкоуровненые БД. Беркли, например.

Какой-то аспирант Гарсиа-Молины на позапрошлом WWW докладывал Web-поиск с хранением в Беркли. (я где-то в этом форуме его уже упоминал)

Там оверхед на скорости поиска был всего-то вдвое. Потрясающий результат, позволяющий например Гуглю использовать лишь на 54000 компьютеров больше чем сейчас :)

2) Насчет будет ли работать в масштабах Google - честно не знаю.
Чтобы проверить в масштабах Google надо пять-десять миллионов долларов. Чтобы проверить в масштабах Яндекса - где-то миллион.
[/Q]

Оценки очень заниженные.

1сервер = $2.5K.
1000000 = 250 миллионов.


Кстати, давно мне уже не удается исполить запрос на Google.com
- все меня перекидывает на Google.ru.
[/Q]

А при чем тут база? Поиск делается там же. Более того, с того же самого IP.

Ни у одной всемирной искалки нет локальных копий базы для региональных партнеров. Ну альты, ни у лайкоса. И никогда не было. Подробонее см webmasterworld, searchenginewatch.

Практический совет. У вас просто кука "русская" стоит. Перейдите 1 раз по ссылке "Gooogle in English". Гугль вам сотрет "русский флаг" в куке, и вас перестанет перебрасывать.

На самом деле года с 1996 (может и раньше - не знаю),
по крайней мере ORACLE (наверно и остальные) предоставляет
в распоряжение разработчика гораздо более широкий набор
объектов, доступ к которым пишется на вполне качественном
уровне (низкоуровневом) и совершенствуется от года в год.


Очень уважаю Оракл. Но поисковую систему даже middle-range на нем делать не стану. И никому не посоветую.

Барков (удмсерч, который теперь многосерч) мучился, мучился с SQL-машинками для ПС. И вот уже два года как они на это забили и все переписали ручками. Иностранцев в команде многосерча больше чем русских.

Можно, конечно, верить, что русские программисты круче
американских, китайских или индийских, но это неочевидно.


При чем тут национальность? Я подобных вещей никогда не утверждал.

Зайдите на searchtools.com и посмотрите как широко представлены страны разработчиков поисковых систем. Сколько там систем на баз "СТАНДАРТНЫХ SQL-МАШИНОК". Боюсь, что меньше 5 процентов. И от страны это никак не зависит.

Если вас не убеждает статистика коммерческих искалок, загляните не sourceforge.net в раздел поисковых систем. Сколько там проектов ПС на основе SQL? По-моему вообще нет.
Как писал bvd
Утверждаю, что стандартными ДОКУМЕНТИРОВАННЫМИ средствами Oracle
МОЖНО в точности повторить алгоритм обработки ЛЮБОГО поисковика.

Сомнительно. Точнее просто не верно. В Оракле реализованы 3-4 базовых алгоритма хранения и обновления индексов. Поисковых систем много и алгоритмов хранения, исполнения запросов, обновления индексов сильно больше четырех.

Только в исполнении и ранжировании запросов поисковыми системами наблюдается такой зоопарк, которые никакими стандартными средствами Оракла не воспроизвести.

Как писал bvd
Поэтому использование ORACLE для задач типа Яндекса или Рамблера
будет стоить больше чем специализированная база на ограниченное число функций - надо ставить больше машин, приобретать лицензию на
паралельную версию и т.д.

Думаю, что задача Веб-поиска в достаточно широкой постановке невыполнима на Оракле ни за какие деньги.

Ну хорошо, наши 50 компов можно заменить на 200 Оракловых (интересно, бывают такие лицензии? а работать оно вообще будет?). Но что делать с Инктоми или Гуглем? 54 тысяч компьютеров заменить на миллион? :) Боюсь, что это не поможет.

По людям:

У нас 80 в офисе, еще 20 - вне офиса. При этом спектр нашего софта пошире (хостинг, почта), плюс мы сами себе портал, то есть продаем много разной рекламы. Программистов у нас - 30 человек. Подробнее см ответы журналу "Системный Администратор" (http://www.webclub.ru/events/searchenginequestions/).

В Гугле 300 сотрудников было больше год назад и они активно нанимали и нанимают. И прикупили несколько компаний за последнее время. И открыли офис в Ирландии. В общем там сейчас человек 500-700 (по моим оценкам (можно еще порыться здесь: http://www.google.com/jobs/great-people-needed.html)

Теперь по железу. Сейчас у нас 40 бэкендов (неделю назад случился переход с 30 на 40) и 15 фронтендов на поиске. Мы выдаем 6 миллионов страниц с поисковыми результататми в сутки по базе из почти 100 миллионов уникальных документов.

У Гугля 250 миллионов страниц с выдачей в день (см searchenginewatch) 54000 компьютеров (см блог гугля) и база в 3 миллиарда страниц.

OFF: Правда я не уверен, что 3 миллиарда - это "полные тексты". Раньше в это число Гугль для пущего "пиара" включал документы, известные только по ссылкам. Но потом кажется было "пиар-бодание" с Фастом, возможно что подсчет внешних ссылок отменили...)

Если помножить и разделить, то как раз получается все более-менее пропорционально: 10-15 (миллионов документов * миллионов запросов) на 1 сервер в день. (Я встречал и цифры в духе 20, исходящие от Фаста, но там кажется координатный поиск не полностью в то время работал).

О компьютере. И у наc и у Гугля (см блог) типовой комп: слим?, 2 процессора, 3-4 диска (то количество, которое влезает в слим). Такие машины наверное лучшее предложение по соотношению производительность/цена. Не забывайте и про стоимость размещения, (в цену толстых корпусов входит дополнительные кондиционирование, помещение, электричество и т.д. и т.п.). Однопроцессорные не сильно дешевле двухпроцессорных. Четырехпроцессорные намного дороже.

Про иные службы (не-поиск)

В яндексе их довольно много: Народ, почта, баннерная крутилка, открытки и т.п. Все они требуют железа. Плюс есть еще и робот. "На круг" у нас примерно 170 машин.

У гугля тоже есть не-поисковые службы, но в общем количестве серверов их процент очень мал. Почему я так думаю, могу объяснить. Всегда требуется некоторое начальное количество серверов, необходимое для "сетапа", а остальное обычно определяется трафиком. Трафик на поиске в десятки раз превосходит трафик на "группах".

С уважением,

Илья

Как писал IlVin
Где яндекс.com ?

Там где всегда. У киберсквоттеров. Их много. И они очень, очень шустрые.

Как писал AlexA
ИПС Ирбис имеет большую историю развития, возможно, не меньше Артефакта,

Это точно. Еще году в 1994-м наши потенциальные заказчики выбирали между "Аркадией" (то есть нами), МИРС-ом (Пархоменко) и ИРБИСом (Максимов).

Последние две системы требовали свой собственный входной формат.

Вообще, судя некоторым конференциям (http://www.gpntb.ru/libcom/), ИРБИС доминирует в госструктурах ориентированных на z39.50 (протокол поиска в библиографических данных) и RUSMARC (отчечественная версия USMARC-а - стандартного библиографического формата).

Как писал Keva
насколько мне известно, Херох всегда делал акцент на автоматическое построение анализаторов по корпусу текстов

Ты наверное Hull-а имеешь в виду?

Картунен и Ко давно, уже лет 8 как, сделали машинку, которая читает PC-KIMO-вский формат и строит очень быстрый FSM. Они это называют transducer.

В PC-KIMO ужасно противно описывать правила. Таблички надо ручками печатать. Но словарь получается вполне себе закрытый и на корпус вообще не смотрит.

Вот в Америке есть относительно новая програмулька Linguistica (Гольдшмит кажется автор). Так вот он действительно со страшным по силе убежденности пиаром пропагандирует полностью автоматическую систему построения - вчистую по корпусу.

Для языка уагу-дугу действительно альтернативы нет :) (ну нет в уагу-дугу зализняка, ну что поделаешь)

Кстати, к вопросу о русских морфологиях: есть же еще русский бессловарный Портер на sourceforge.net. Snowball. Быстрый как зверь (120 тыщ слов пер сек), "грязный" как "чушка", но думаю получше предлагаемого Борисом отрезания 25 процентов с хвоста. Хоть и чуть-чуть помедленней. :)

А в бесплатных системах (многосерч, аспсик) - царство ispell-а. Только я бы предостерег всех от увлечения этим условным "морфоанализатором". Дело в том, что словарь ispell решает задачи спеллинга и максимально экономно описывает все "разрешенные" в данном языке словоформы. А это не то же самое, что описание слов и их словоизменительных парадигм. Эта трагическая разница хорошо видна в английском ispell-е. Думаю что и в русском она заметна.

Андрей, Борис, не ссорьтесь!

Давайте лучше РОМИПом займемся. :) Вот например, Андрей, скажи, почему это его Рамблер манкирует :) ?

Всего: 442