Zute

Рейтинг
32
Регистрация
03.01.2004
lagif:

Наблюдение: по запросам на первом месте одна порнуха... :(

А среди кого урл поисковика распространялся ? :)

Шепните его здесь, и узнаете "большные" запросы оптимизаторов :d

akor:
Может я не правильно выразился. данные лежат в Mysql. есть поле description и title И по ним бы хотелось бы иметь приемлимый поиск, а не просто LIKE из базы :) насколько я понял поисковики которые есть индексируют html страницы, а с базу на прямую не идексят. Надеюсь сейчас вопрос понятен?

У mnogosearch и dataparksearch есть виртуальная схема htdb для индксирования содержимого базы.

a9 - не совсем гугл, вернее только движок от него (по любому запросу a9 находит гораздо меньше результатов, нежели Гугл), возможно с некоторыми своими модификациями. Плюc они продвигают opensearch - любой поисковик может сделать поддерджку этого интерфейса и зарегистрировать его на a9, тогда пользователи a9 смогут получать результаты и этого поисковика через морду a9 - получается нечто вроде мета-поисковика, только более открытого.

Interitus:

Ага, еще есть mnogosearch - тоже попробуй.

А ещё dataparksearch - он кстати, под Solaris 10 x86 с PostgreSQL собирается при помощи gcc :)

А если времени ещё хватит всё это сравнить межсобой и в общую табличку свесть - будет весь полезно и наверное весьма посещаемо в ближайшее время :d

http://en.wikipedia.org/wiki/List_of_internet_search_engines - как Лист Гинеса потянет ?

Ashmanov:

Чем не нравится, почему сказки?

Пример с медициной явно неудачный, - там отдельный язык для каждого языка :) В TREC даже отдельная дорожка для био-медицинской тематики проводится, т.к. юзаются отдельные антологии, нежели для обычного английского... Не говоря уже, что в медицине главное не сайты, а базы, в первую голову рефератов публикаций, уже аннотированых, и для которых уже существуют специализированные поисковики, над улучшением которых корпеет не один универ. Вам их не перплюнуть :)

Ashmanov:
А дайте ссылку, откуда статистика?

Это выборка из моей базы, никакой другой ссылки нет...

Эти проценты от общего числа сайтов. За прошедшие 4 года появилось гораздо больше CMS на сайтах, которые закрывают свою админку и т.п. "технологические" урлы через robots. Плюс Яндекс добавил директиву Host: и немного её пропиарил - лишний повод поинтересоваться, что это за вещь этот robots.txt...

Кстати, всего 0,02% используют директиву crawl-delay в robots.txt - вот это и есть "чрезвычайно редко" :)

Ashmanov:
Мне просто кажется, что и эти-то проценты - просто оттого, что вебмастера что-то слышали о том, что такой файл должен быть.
А реально его программируют (пишут каталоги, маски) единицы.

У этих же сайтов у примерно 25,5% в robots.txt прописана хотябы одна команда Disallow, из них у 24,99% - хотябы в одной команде Disallow указан непустой путь; у 3.2% - хотябы одна команда Allow...

Ashmanov:
Мы, конечно, слушаемся запретов robots.txt, чтобы не конфликтовать с сайтовладельцем, хотя использование запретов - это чрезвычайно редкая вещь.

На выборке из примерно 16 тыс. сайтов robots.txt оказался у примерно 28% сайтов, - не назвал бы такую долю чрезвычайно редкой.

Всего: 218