Добрый день. Подают, сами знаете, в другом месте ;)
А за вопросы спасибо.
Сдеалаем. К сожалению не всегда хватает рук :(
Сейчас сайты индексируются в порядке очередности.
Количество вхождений слова, форма слова, элементы форматирования, местоположение слова на странице, количество страниц с этим словом на всем сайте, "вес" документа с этим словом по отношению ко всему массиву документов и т.п.
Есть рейтинг, который рассчитывается на основании ссылок на сайт с других ресурсов. Мы индексируем только украинские (имеющие отношение к Украине) сайты, соответственно учитываются ссылки только с этих сайтов.
Рейтинг используется сейчас для ранжирования сайтов в каталоге.
Как публичный проект делать его пока не планируем,
поэтому посмотреть негде.
Сейчас не влияет. Сейчас каталог и полнотекст работают параллельно.
Задать запрос url=адрес_сайта*
Если на сайт есть ссылки с других украинских сайтов, то робот рано или поздно найдет его сам найдет. Но чтобы не ждать милостей от природы советую добавлять. Во-первых, он попадет в каталог, а, во-вторых, будет гарантированно включен в список на индексацию.
Нет, не учитывается
Мета определяет язык документа по тексту, Charset при этом не имеет значения. Украинские слова определяются даже если украинские символы заменены сходными по начертанию латинскими.
Вроде бы compress и decompress - один и тот же алгоритм, на который один патент?
Насколько бесплатна лицензия на декомпрессию LZW я, честно говоря, еще не разбирался.
А еще есть copyrighted pdf, защищенный криптоалгоритмом RC4.
Или такие документы не индексируются?
Хорошо, если дело обстоит так. Это и нас немного ободряет :)
А с другой стороны в описании формата они пишут:
Note:The LZW compression method is the subject of U.S.patent number 4,558,302
and corresponding foreign patents owned by the Unisys Corporation.Adobe Systems
has licensed this patent for use in its Acrobat products;however,independent soft-
ware vendors (ISVs)may be required to license this patent directly from Unisys to
develop software that uses the LZW method to compress data in PDF files.
А патент на LZW, если я не ошибаюсь защищает алгоритм и компрессии, и декомпрессии
Илья, спасибо за развернутый ответ.
Вопрос был без подначки и необоснованных подозрений. :)
Для нас он совсем не праздный.
Советовались на эту тему с юристами,
но однозначного ответа так и не удалось получить.
Поэтому интересна Ваша позиция на этот счет.
К примеру, есть патент, защищающий метод идентификации слов в pdf
(5,832,530)
http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PALL&p=1&u=/netahtml/srchnum.htm&r=1&f=G&l=50&s1=5,832,530.WKU.&OS=PN/5,832,530&RS=PN/5,832,530
Регулировались ли вопросы, связанные с авторскими правами Adobe и патентами на алгоритмы сжатия, шифрования и т.п.?
Или на территории Росии они не имеют силы?
Вопрос к Илье Сегаловичу.
Если не секрет, фильтр для pdf - разрабатывали сами,
лицензировали у Adobe или у какой-нибудь другой компании?
Еще очень интересно, какое количество pdf-файлов в Рунете?
Можно приобрести у нас интегрируемую поисковую библиотеку для разработчиков.
Или если устраивает Microsoft Indexing Service - можем предложить для него модули языкового расширения.
А нам вроде как удалось это сделать. Времени правда ушло немало, больше чем хотелось.:( Деньги на разработку были, а стоимость разработки такого проекта в Украине в 3-5 раз "дешевле", чем в Москве.
Смысл – создание простого в администрировании поискового средства, которое обеспечивает качество поиска на уровне "больших" поисковых систем, очень быстро, практически мгновенно, реагирует на изменения контента, постоянно поддерживает актуальный индекс и не требует дополнительного времени на переиндексацию. Новый документ уже через несколько секунд после появления становится доступным для поиска. Областей, где такое свойство крайне необходимо, становится все больше. Пример – сайты новостей, прайс-листы магазинов и т.п. Или системы покрупнее, типа корпоративного хранилища документов, куда "сваливается" переписка, документы, новостные ленты от информагентств и т.п., причем искать по всему этому хочется сразу и сейчас.
При всем при этом нет необходимости заботиться об администрировании - переиндексациях, сменах индекса, "доливках" и т.п.
Конечно же нет. Мы и не пытались соревноваться с разработчиками БД в способности к восстановлению после сбоев. А в качестве поиска, удобстве организации поиска на сайте, простоте администрирования – вполне готовы бороться. И считаем для большинства сайтов эти свойства поиска более важными. Если у заказчика есть какие-то специальные требования и запросы, то мы можем предложить решение в зависимости от этих требований, например, на основе нашего статического индекса. Три месяца, которые прошли после запуска проекта, показали, что система работает нормально не только на тестах, но и на десятках различных сайтов, под управлением различных операционок и серверов. Так что опасения по поводу надежности динамического индекса не стоит преувеличивать.
Мы вовсе не ратуем за использование динамики во всех случаях. SiteMETA – это не универсальное решение для построения поисковых систем любого масштаба. SiteMETA – это поиск для сайта, довольно удобный и недорогой. В коммерческой версии мы гарантируем устойчивую работу siteMETA на объемах текста до 1 ГБ (На тестах программа нормально работала и на 2-х, и на 3-х гигабайтных массивах). Такого объема хватает для 99% процентов сайтов. Для построения более крупных систем мы тоже используем статический индекс или комбинацию динамики и статики.
Это мнение профессионала, который работает в этой области, знает особенности различных систем поиска, плюсы и минусы использования различный морфологических анализаторов и т.п.
А из общения с заказчиками и "интересантами", менее погруженными в предмет, складывается немного другое впечатление. Люди могут не понимать, как работает поисковая система, по каким принципам осуществляется ранжирование документов, по каким критериям нужно выбирать себе поисковик, но 90% с большим удовольствием произносят слово "морфология" и считают ее наличие чуть ли не главным показателем качества поискового продукта. Типичные фразы из общения на выставках и переговорах – "А морфология у вас есть?", "Мы бы сами написали поиск, но у нас морфологии нет" и т.п. :)
Это да, тут трудно возразить.
Я согласен.
"Идея была правильной"
4 года назад отлично работала, и 3, и 2 года назад,
а сейчас надо что-то еще добавлять.
Мне она показалась этапной.
Похоже тот импульс, который давала идея PageRank-а,
и который вывел Google в лидеры,
постепенно выдыхается и работает все хуже и хуже.
Возможностей для его фальсификации придумыввется все больше,
а его роль в определении релевантности становится все меньше.
Видимо для следующего рывка в поисковых технологиях требуется еще что-нибудь новенькое.