Keva

Рейтинг
80
Регистрация
27.11.2000
Интересы
Software development, linguistics, BMW, dogs, girls ;-)
userad:
Как с юникодом? Можно прикрутить к другому языку?
Какова производительность?

No cyrillic keyboard here, at Koh Samui... Sorry!

The performance of original, C/C++ library is really limited by bus performance, the tests show the performance >>= (no less than) 10,000 words per second, some tests on good computers provide about 100000 words per second and more in sequental plain text lemmatization mode (without normal forms string generation, lemmas only).

The PHP wrapper (PHP extension based on native dictionary), probably, will be slower regardless to API support and variables decoding.

Unicode - no problem, the C/C++ vesrion received UTF16 API 2 years ago. Perhaps, I'll support unicoide and in PHP edition for first request of fully-qualified technology.

xXх:
Хм. всю жизнь пользовался phpmorfy, надо будет попробовать. Респект огромный!

По идее, должно понравиться. Потому как "нативный" для процессора код, "обёрнутый" в PHP.

По запросу могу выложить и версию для *nix. Но, вероятно, только по возвращении из Таиланда :)

Vyacheslav Tikhonov:
По моим тестам пока попадает много "лишних" слов...

...

Не важны элементы навигации, только уникальный текст
...
У тебя же есть поисковый индекс со взвешенными термами, почему не пробить его по коллекции документов и не взять ранк по каждому ключевому слову? И качать ничего не надо.

Да, полностью согласен, но мы приходим к той же проблеме, что и была озвучена ранее. Надо выкачивать некоторую окрестность страницы, чтобы сличить их "на просвет" (не менее 3-5), и их надо еще найти.

А в индексе у нас и вправду есть данные о разментке, о навигационной разметке в том числе, но - вот беда - только для украинских сайтов.

Vyacheslav Tikhonov:
Андрей, ты бы для понимания работы сервиса выложил какую-то справочную информацию, что ли. Например, сформулировал задачу и написал, что именно в результате ты хочешь получить.
Пока видна попытка извлечения лексических цепочек (устойчивых словосочетаний), но без учета параметров коллекции других документов, взятых с того же сайта. То есть введенная страница как бы "висит" в воздухе, а лексикон ничего не дает при ранжировании слов, поэтому результаты какие-то непонятные.

Слава, "сервис" - это вторично. На самом деле это удобный способ тестировать те алгоритмы, над которыми я сейчас работаю.

Первая секция - это выделенные из документа, наиболее значимые (по моему разумению) слова, описывающие его суть и актуальные, скажем, для показа рекламы или при поиске этого документа. Моя жена, к примеру, дёргает их в <meta name="keywords"...> страниц своего сайта и весьма довольна.

Вторая секция - словосочетания - для меня практического значения не имеет и сделана по вскользь высказанной просьбе Антона Санченко, который spark. Там я даю потенциально значимые словосочетания, вес которых определяю как P(12) = sqrt( P(1) * P(2) * F(12) ), где F(12) - убывающая функция вероятности смысловой связи между словами. Аналогично формула распространяется и на трёхсловный случай - для словосочетаний с вклинившимся предлогом, к примеру.

Третья секция - определение рубрики каталога <META>, к которой стоило бы отнести данный документ. Сейчас печатаются все гипотезы, соответствующим образом взвешенные. Скоро сделаю усечение маловероятных. Ну, а потом пущу это дело "в бой" 😂

Keva добавил 26.02.2009 в 12:20

Vyacheslav Tikhonov:
...но без учета параметров коллекции других документов, взятых с того же сайта...

В принципе, это можно сделать - для сайта, однако мне самому это, вроде как, сейчас не нужно, стимулов делать нету, в то время как трудозатраты достаточно велики - надо в приложение спайдер небольшой вкручивать, дёргать некоторое количество страниц, это ж и кодировать надо, и ответ не будет быстрым.

С другой стороны, мысленно обобщить по десятку обработанных страниц тематику сайта достаточно просто.

Выложил пре-альфу определения тематики документа.

Vyacheslav Tikhonov:
Андрей, а это не та же прога, которая сейчас работает в Мета.Контексте?

Нет. Там работает обратный алгоритм, который, можно сказать, индексирует все тексты объявлений, а страницу считает запросом. То есть "поиск наоборот". Получается набор рекламных объявлений, которые можно показать на странице.

А дальше уже Лёша Кирдин включает свои эвристики.

Keva добавил 14.02.2009 в 00:58

Константинович:
Жалко, что это сервис, а не программулина :(

А что мешает пользоваться так? Я его ближайшее время буду поддерживать. И даже развивать.

Keva добавил 14.02.2009 в 01:00

Цахес:
И чем эта определялка лучше уже существующих сервисов?

Вероятно, ничем. Или чем-то. Просто это побочный выхлоп от моего текущего направления работы. И я надеюсь на отклики и замечания.

Пардон, не ту ноту взял :)

http://keva.ru/docThema.html :-)

pro-maker:
Правда, что Кева в Мете трудится? :)

Спасибо!

Правда. Трудится. Но живет все так же в Москве.

Felex:
http://www.alloy.ru
Идет с него немного трафа...
"Результаты, помеченные символом (Y), получены на основе Яндекс.XML." - откуда всё остальное.?

Остальное - у ребят ездит своя искалка на лицензированном полтора года назад у Меты движке.

Roman Pinkovskiy:
Общаясь с одним из сотрудников меты, узнал что мета впринцыпе не позиционирует себя как конкурент google (наиболее популярный поисковик в украине)... Поэтому мета четко идет к своей цели - украинский mail.ru. И чистота выдачи там будет далеко не первым пунктом.

Судя по всему, ты общаешься либо с электриком, либо с тетушкой, которая в МЕТУ обеды привозит :)

Всего: 238