No cyrillic keyboard here, at Koh Samui... Sorry!
The performance of original, C/C++ library is really limited by bus performance, the tests show the performance >>= (no less than) 10,000 words per second, some tests on good computers provide about 100000 words per second and more in sequental plain text lemmatization mode (without normal forms string generation, lemmas only).
The PHP wrapper (PHP extension based on native dictionary), probably, will be slower regardless to API support and variables decoding.
Unicode - no problem, the C/C++ vesrion received UTF16 API 2 years ago. Perhaps, I'll support unicoide and in PHP edition for first request of fully-qualified technology.
По идее, должно понравиться. Потому как "нативный" для процессора код, "обёрнутый" в PHP.
По запросу могу выложить и версию для *nix. Но, вероятно, только по возвращении из Таиланда :)
Да, полностью согласен, но мы приходим к той же проблеме, что и была озвучена ранее. Надо выкачивать некоторую окрестность страницы, чтобы сличить их "на просвет" (не менее 3-5), и их надо еще найти.
А в индексе у нас и вправду есть данные о разментке, о навигационной разметке в том числе, но - вот беда - только для украинских сайтов.
Слава, "сервис" - это вторично. На самом деле это удобный способ тестировать те алгоритмы, над которыми я сейчас работаю.
Первая секция - это выделенные из документа, наиболее значимые (по моему разумению) слова, описывающие его суть и актуальные, скажем, для показа рекламы или при поиске этого документа. Моя жена, к примеру, дёргает их в <meta name="keywords"...> страниц своего сайта и весьма довольна.
Вторая секция - словосочетания - для меня практического значения не имеет и сделана по вскользь высказанной просьбе Антона Санченко, который spark. Там я даю потенциально значимые словосочетания, вес которых определяю как P(12) = sqrt( P(1) * P(2) * F(12) ), где F(12) - убывающая функция вероятности смысловой связи между словами. Аналогично формула распространяется и на трёхсловный случай - для словосочетаний с вклинившимся предлогом, к примеру.
Третья секция - определение рубрики каталога <META>, к которой стоило бы отнести данный документ. Сейчас печатаются все гипотезы, соответствующим образом взвешенные. Скоро сделаю усечение маловероятных. Ну, а потом пущу это дело "в бой" 😂
Keva добавил 26.02.2009 в 12:20
В принципе, это можно сделать - для сайта, однако мне самому это, вроде как, сейчас не нужно, стимулов делать нету, в то время как трудозатраты достаточно велики - надо в приложение спайдер небольшой вкручивать, дёргать некоторое количество страниц, это ж и кодировать надо, и ответ не будет быстрым.
С другой стороны, мысленно обобщить по десятку обработанных страниц тематику сайта достаточно просто.
Выложил пре-альфу определения тематики документа.
Нет. Там работает обратный алгоритм, который, можно сказать, индексирует все тексты объявлений, а страницу считает запросом. То есть "поиск наоборот". Получается набор рекламных объявлений, которые можно показать на странице.
А дальше уже Лёша Кирдин включает свои эвристики.
Keva добавил 14.02.2009 в 00:58
А что мешает пользоваться так? Я его ближайшее время буду поддерживать. И даже развивать.
Keva добавил 14.02.2009 в 01:00
Вероятно, ничем. Или чем-то. Просто это побочный выхлоп от моего текущего направления работы. И я надеюсь на отклики и замечания.
Пардон, не ту ноту взял :)
http://keva.ru/docThema.html :-)
Спасибо!
Правда. Трудится. Но живет все так же в Москве.
Остальное - у ребят ездит своя искалка на лицензированном полтора года назад у Меты движке.
Судя по всему, ты общаешься либо с электриком, либо с тетушкой, которая в МЕТУ обеды привозит :)