lexus

Рейтинг
47
Регистрация
02.07.2001
Как писал Nicon
Да, да подать сюда Чуксина (aka Lexus) ☝.

Добрый день. Подают, сами знаете, в другом месте ;)

А за вопросы спасибо.

Почему бы Вам не создать аналогичную страницу/ы?

Сдеалаем. К сожалению не всегда хватает рук :(

1. От чего зависит частота индексирования сайта/ов Вашим роботом?

Сейчас сайты индексируются в порядке очередности.

2. Что влияет на ранжирование сайтов в результатах поиска? Что учитывается при поиске?

Количество вхождений слова, форма слова, элементы форматирования, местоположение слова на странице, количество страниц с этим словом на всем сайте, "вес" документа с этим словом по отношению ко всему массиву документов и т.п.

3. Есть ли ВИЦ/PR (Рейтинг?) от Меты? Если есть, то где его можно посмотреть?
4. можно ли увидеть количество ссылок, отсортированных так же по рейтингу, ссылающихся на другой ресурс?
Ссылки должны быть только с ресурсов, имеющих региональную и/или тематическую привязку к Украине?

Есть рейтинг, который рассчитывается на основании ссылок на сайт с других ресурсов. Мы индексируем только украинские (имеющие отношение к Украине) сайты, соответственно учитываются ссылки только с этих сайтов.

Рейтинг используется сейчас для ранжирования сайтов в каталоге.

Как публичный проект делать его пока не планируем,

поэтому посмотреть негде.

5. Влияет ли на ранжирование результатов поиска нахождение сайта в каталоге Меты?

Сейчас не влияет. Сейчас каталог и полнотекст работают параллельно.

6. Как узнать, какие страницы сайта проиндексированны?

Задать запрос url=адрес_сайта*

7. Сайт нужно обязательно добавлять в Мету или робот сам его найдет?

Если на сайт есть ссылки с других украинских сайтов, то робот рано или поздно найдет его сам найдет. Но чтобы не ждать милостей от природы советую добавлять. Во-первых, он попадет в каталог, а, во-вторых, будет гарантированно включен в список на индексацию.

8. Учитывается при индексировании тэг meta name="Keywords"?

Нет, не учитывается

9. Как индексируются украиноязычные документы? Charset должен быть обязательно KOI-8U?
10. Распознает ли робот украинский текст, если слово или его часть набраны в Latin 1?

Мета определяет язык документа по тексту, Charset при этом не имеет значения. Украинские слова определяются даже если украинские символы заменены сходными по начертанию латинскими.

Вот именно. compress. Мы этого не делаем нигде.
А вообще у вас какое-то неправильное представление о том, что такое патент.

Вроде бы compress и decompress - один и тот же алгоритм, на который один патент?

Насколько бесплатна лицензия на декомпрессию LZW я, честно говоря, еще не разбирался.

А еще есть copyrighted pdf, защищенный криптоалгоритмом RC4.

Или такие документы не индексируются?

Мы поступаем (я надеюсь) совершенно корректно

Хорошо, если дело обстоит так. Это и нас немного ободряет :)

В этой же лицензии (часть документации к PDF) четко проговорена их позиция по отношению к патентам.

А с другой стороны в описании формата они пишут:

Note:The LZW compression method is the subject of U.S.patent number 4,558,302

and corresponding foreign patents owned by the Unisys Corporation.Adobe Systems

has licensed this patent for use in its Acrobat products;however,independent soft-

ware vendors (ISVs)may be required to license this patent directly from Unisys to

develop software that uses the LZW method to compress data in PDF files.

А патент на LZW, если я не ошибаюсь защищает алгоритм и компрессии, и декомпрессии

Илья, спасибо за развернутый ответ.

Вопрос был без подначки и необоснованных подозрений. :)

Для нас он совсем не праздный.

Советовались на эту тему с юристами,

но однозначного ответа так и не удалось получить.

Поэтому интересна Ваша позиция на этот счет.

К примеру, есть патент, защищающий метод идентификации слов в pdf

(5,832,530)

http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PALL&p=1&u=/netahtml/srchnum.htm&r=1&f=G&l=50&s1=5,832,530.WKU.&OS=PN/5,832,530&RS=PN/5,832,530

Парсеры PDF и RTF - свои.

Регулировались ли вопросы, связанные с авторскими правами Adobe и патентами на алгоритмы сжатия, шифрования и т.п.?

Или на территории Росии они не имеют силы?

Вопрос к Илье Сегаловичу.

Если не секрет, фильтр для pdf - разрабатывали сами,

лицензировали у Adobe или у какой-нибудь другой компании?

Еще очень интересно, какое количество pdf-файлов в Рунете?

Можно приобрести у нас интегрируемую поисковую библиотеку для разработчиков.

Или если устраивает Microsoft Indexing Service - можем предложить для него модули языкового расширения.

Просто я не вижу способа грамотно спроектировать динамический индекс, а занимались мы этим довольно много. А главное, не вижу смысла. То есть при наличии денег на разработку можно, но зачем?

А нам вроде как удалось это сделать. Времени правда ушло немало, больше чем хотелось.:( Деньги на разработку были, а стоимость разработки такого проекта в Украине в 3-5 раз "дешевле", чем в Москве.

Смысл – создание простого в администрировании поискового средства, которое обеспечивает качество поиска на уровне "больших" поисковых систем, очень быстро, практически мгновенно, реагирует на изменения контента, постоянно поддерживает актуальный индекс и не требует дополнительного времени на переиндексацию. Новый документ уже через несколько секунд после появления становится доступным для поиска. Областей, где такое свойство крайне необходимо, становится все больше. Пример – сайты новостей, прайс-листы магазинов и т.п. Или системы покрупнее, типа корпоративного хранилища документов, куда "сваливается" переписка, документы, новостные ленты от информагентств и т.п., причем искать по всему этому хочется сразу и сейчас.

При всем при этом нет необходимости заботиться об администрировании - переиндексациях, сменах индекса, "доливках" и т.п.

Динамический индекс, если приложение критичное, должен поддерживать транзакции и откаты, как в порядочной базе данных. В индустрии БД на это убили десятки лет, поэтому я не верю, что разработчики поисковой машины могли это сделать за небольшие сроки и деньги.

Конечно же нет. Мы и не пытались соревноваться с разработчиками БД в способности к восстановлению после сбоев. А в качестве поиска, удобстве организации поиска на сайте, простоте администрирования – вполне готовы бороться. И считаем для большинства сайтов эти свойства поиска более важными. Если у заказчика есть какие-то специальные требования и запросы, то мы можем предложить решение в зависимости от этих требований, например, на основе нашего статического индекса. Три месяца, которые прошли после запуска проекта, показали, что система работает нормально не только на тестах, но и на десятках различных сайтов, под управлением различных операционок и серверов. Так что опасения по поводу надежности динамического индекса не стоит преувеличивать.

Да и с масштабируемостью будут проблемы. Неспроста Яндекс, Рамблер, Гугл и прочие используют всё же статические индексы и эпизодическое обновление.

Мы вовсе не ратуем за использование динамики во всех случаях. SiteMETA – это не универсальное решение для построения поисковых систем любого масштаба. SiteMETA – это поиск для сайта, довольно удобный и недорогой. В коммерческой версии мы гарантируем устойчивую работу siteMETA на объемах текста до 1 ГБ (На тестах программа нормально работала и на 2-х, и на 3-х гигабайтных массивах). Такого объема хватает для 99% процентов сайтов. Для построения более крупных систем мы тоже используем статический индекс или комбинацию динамики и статики.

Но вообще говоря, морфология - не конкурентное преимущество никоим образом. Она у всех есть уже лет пять как.

Это мнение профессионала, который работает в этой области, знает особенности различных систем поиска, плюсы и минусы использования различный морфологических анализаторов и т.п.

А из общения с заказчиками и "интересантами", менее погруженными в предмет, складывается немного другое впечатление. Люди могут не понимать, как работает поисковая система, по каким принципам осуществляется ранжирование документов, по каким критериям нужно выбирать себе поисковик, но 90% с большим удовольствием произносят слово "морфология" и считают ее наличие чуть ли не главным показателем качества поискового продукта. Типичные фразы из общения на выставках и переговорах – "А морфология у вас есть?", "Мы бы сами написали поиск, но у нас морфологии нет" и т.п. :)

Главное там всё же удобство управления и установки, всякие пользовательские штучки, языки, прочее

Это да, тут трудно возразить.

Поправьте меня, если я ошибаюсь... На мой взгляд, Google чрезмерно увлекся PageRank`ом, как основным критерием релевантности.

Я согласен.

"Идея была правильной"

4 года назад отлично работала, и 3, и 2 года назад,

а сейчас надо что-то еще добавлять.

А статья средненькая...

Мне она показалась этапной.

Похоже тот импульс, который давала идея PageRank-а,

и который вывел Google в лидеры,

постепенно выдыхается и работает все хуже и хуже.

Возможностей для его фальсификации придумыввется все больше,

а его роль в определении релевантности становится все меньше.

Видимо для следующего рывка в поисковых технологиях требуется еще что-нибудь новенькое.

1 234 5
Всего: 48