- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева

Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Увы, тут есть теоретический предел: при приближении объёмов простого текста к 10-12 Гбайт, поисковики с хранением индекса в реляционных базах перестают работать.
Эээ... стесняюсь спросить, а что это за теоретический предел такой? Предел чего?
Эээ... стесняюсь спросить, а что это за теоретический предел такой? Предел чего?
О, и мне тоже интересно!
Когда-то (довольно давно) были вполне реальные (но скорее практические) трудности для локальных реляционных баз данных,
индекс которых основан на B-деревьях, - для ускорения работы
производителями закладывалось внутрь определенное предположение
о предельном размере индекса. При превышении этого размера начинались
разные проблемы.
У меня Oracle (несколько баз на разных компьютерах), самая
большая примерно на 10 Гбайт текстов (что-то типа 500 млн. записей,
может больше),
дисковое пространство особенно не экономим. И есть у меня стойкое
ощущение, что могу я без всяких проблем увеличить базу где-то
на порядок - пока дисков хватит (можно еще паковать индексы).
В случае чего, разнести на разные машины, прозрачно использовать несколько баз и т.п.
Но - не проверял.
В целом же, я согласен с И.Ашмановым.
Существует несколько разных бизнес-моделей, которые и определяют
требования на поисковую машину. Требования разные - и машины разные,
хотя имеют много общих черт.
Разве это не элементы, составляющие "качество"?
И есть моя бесплатная stemka, русский и украинский стеммер, ты о ней читал. http://linguist.nm.ru/stemka/stemka.html. Работает ощутимо чище, чем Snowball. Используется для анализа не известных морфологическим анализаторам слов в продуктах Меты. В том числе и в большом поисковике.
Насчет ощутимо чище.
Я тогда, в апреле проделал некоторую исследовательскю работу. Результат опубликовал. см. здесь
http://company.yandex.ru/articles/iseg-las-vegas.html
Кроме небольшого пиара собственного метода :), там еще реализована следующая техника и идея по "сравнению2 морфологий:
1. Взять все известные и распространяемые публично несловарные русские морфологии (4 штуки: "майстем", "стемка", "сноуболл", "лингвистика")
и применить их так сказать к "дневному кролу", где "дневной крол" моделируется размеченным корпусом.
2. Собрать все "экстра"- и "потерянные" ассоциации для каждого алгоритма. Мы предполагаем, что "руками" лингвисты ошибок не сделали, и что ассоциация, созданная руками, "как бы на 100% верна", хотя бы для и в рамках данного корпуса.
3. Затем дважды их отфильтровать: по частоте в корпусе (убрать слишком редкие и слишком частые) и по логу яндекса (оставить только "интересные" пользователю и поисковой системе)
4. Затем оставшиеся потерянные и добавленные каждым алгоритмом
ассоциации (в статье они называются Pair of Potential Morphological Variants -- PPMV) обработать "алгоритмом определния семантической близости слов" (изобретение мое :)).
"Семантическая близость" двух слов
= число общих хостов в первых тридцатках в результатах поиска в поисковой системе без морфологии (например Google :))
Чем выше этот показатель для приобретенных пар и ниже для утерянных - тем лучше работает несловарная морфология.
5. По обоим показателям mystem занял уверенное первое место. На втором месте snowball и вплотную за ним stemka ("глубокий" вариант). На третьем Linguistica. Хуже всех консервативная стемка.
Могу привести в отдельном постинге частотные верхушки списков для каждого "несловарного" русского "стеммера".
Не понравилось всё остальное. Отсюда вопрос к Илье: недружественность по отношению к владельцам виртуальных серверов (абсолютно непонятная политика лицензирования, да и цена в 80$ за Мб заставляет надолго задуматься...) - это "политика партии" или можно попытаться вести конструктивный диалог с Алексеем (он вроде крайним выбран)?
Запоздалый ответ. :) Но все же.
Начиная с третьей версии я-сайт неограничен по объему в shareware-версии.
Дружественность его тоже повысилась. По крайней мере мы очень старались этого добиться.
Неограниченная версия - это, конечно, здорово :)
А не боитесь, что особо продвинутые умельцы будут результаты поиска этого самого я-сайта вызывать из собственного скрипта, на ходу разбирать выдачу и формировать собственную страницу с результатами поиска? :)
Никто ведь и не поймет, что это был яндекс-сайт, а самому себе закрыть доступ - слабо, я думаю. :)
Никто ведь и не поймет, что это был яндекс-сайт, а самому себе закрыть доступ - слабо, я думаю. :)
Специфика нашей морфологии достаточна чтобы понять что это Яндекс. А все остальные проблемы все равно техническим способом непобедимы (в смысле, если захотят своровать то и своруют, как не защищайся). Поэтому уповать надо на юридически-моральные. :)
Есть еще одна фирма занимающаяся поиском для корпоративных клиентов. Они затачивают поисковики под каждого клиента индивидуально в зависимости от специфики. Используют вероятнострый алгоритм анализа морфологии, что при больших объемах оказывается вполне приемлимым.
Вот собственно, и ссылка www.inteltec.ru
Для связи с разработчиками адрес info не со всех доменов принимает почту. Пробуйте support@и т.д.
Есть еще одна фирма
Почем одна? Моему списку уже полтора года, и он требует конечно обновления, но все же их как минимум 24.
http://www.dialog-21.ru/direction_fulltext.asp?dir_id=15156
Илья
Могу привести в отдельном постинге частотные верхушки списков для каждого "несловарного" русского "стеммера"
Как и обещал, привожу верхушки списков ассоциациативных групп.
Для каждого алгоритма перечислены по убыванию частоты первого слова 10 ассоциативных групп, добавленных и потерянных соответствующим алгоритмом по сравнению с каноническими ассоциациями, установленными из морфологически размеченного корпуса, отредактированного вручную.
ПРИМЕЧАНИЕ: Для каждой группы пришлось оставить несколько самых характерных слов, чтобы влезло в данный постинг.
ПРИМЕЧАНИЕ 2: Все равно таблицы сюда не влезли, поэтому пришлось выложить на отдельную страничку, сорри.
http://iseg.narod.ru/summary.html