Мой поисковик

12
F
На сайте с 12.03.2007
Offline
85
1958

Делал поиск по сайту, а в итоге все так хорошо получилось что неудержался хвастануть:) . Но пимимо этого хочу замечаний, указаний, конструктивной критики....

Собственно вот поиск

Особенности:

1) Релевантность

2) Проверка орфографии (до Гугля дотянулся а вот до яндекса не смог)

пример ошибки

не правильная кодировка

3) Рекомендации по поиску

4) Поиск самого релевантного текста на странице

5) Подсветка

Как начать тренироваться (http://max-body.ru/quick_start.html), Бодибилдинг форум (http://fatal-energy.com/). Обменяюсь/куплю ссылками со статей (или статьями) с сайтами бодибилдинг/фитнес тематики.
Asar
На сайте с 23.08.2004
Offline
334
#1

Окно поиска по умолчанию сделать пустым

Пример поиска сделать ссылкой

Ставить курсор сразу в окно поиска при загрузке этой страницы

F
На сайте с 12.03.2007
Offline
85
#2

1) Это то, что на всех страницах сверху? зачем? ведь текст при вставке курсора пропадает. В общем, подумаю.

2) При нажатии сделал, чтобы текст заносился в форму для поиска

3) Зачем запутывать посетителей, некоторые ведь страницу листают стрелкой на клавиатуре.

M
На сайте с 23.02.2006
Offline
53
Myx
#3

1. Очень интересно а какой алгоритм для оценки релевантности вы использовали...

Ну допустим TF*IDF по каждому слову из запроса.

А как анализируется запрос в целом? По парам слов, точные вхождения что-то еще?

Ссылочное учитывается?

2. Алгоритм по которому тянем снипет тоже не мало интересен...

Если у алгоритмов есть какая либо математическая база, то с радостью бы почитал.

M
На сайте с 23.02.2006
Offline
53
Myx
#4
V2
На сайте с 20.01.2005
Offline
102
#5

Сайт надо предварительно индексировать поисковиком?

Извините, если тупой вопрос.

С уважением Владимир - VF Покупаю (ссылки) главные, внутренние и сквозные сайтов промышленных компаний.
F
На сайте с 12.03.2007
Offline
85
#6

:) да, есть такое. А все из-за ограничений на 4 символа при поске по полнотекстовым индексам. Но "президент США" еще в базе статей такого нету, сайт только запущен.

Поиск базируется на запросе типа "SELECT MATCH AGAINST", ничего нового не изобретал, отсюда все достоинства и недостатки. Хотя отмечу, что присутствует словарь на 1 338 667 словоформ, который очень хорошо сказывается на качестве выдачи. Конечно есть проблема со словами до 4-х символов, но думаю в бедующем будет возможность изменить настройки сервера баз данных. Ссылки не учитываются, да и смысла учитывать нет, ведь поиск предназначен для одного сайта.

Для поиска самой релевантной позиции в каждой странице происходит разбивание всего текста на логические участки, которые сравниваются с поисковым запросом. Конечно, довольно примитивно, но и быстродействие на высоком уровне, да и определяет довольно правильно.

Сайт надо предварительно индексировать поисковиком?
Извините, если тупой вопрос.

Нет, все работает в связке с CMS.

T
На сайте с 08.04.2004
Offline
97
#7

Надо чтоб индексировал сам. Тогда куплю.

Паучка то напиши, чтоб сам бегал по страничкам начиная с морды. Это ж самое простое раз уж ты со словоформами разобрался, то это для тебя пустячек.

Только при написании паучка заложи ограничения на количество коннектов в секунду. И в случае сбоя связи перерыв продолжения попытки на 10 минут (малоли сервер лег, не терять же от этого объем проиндексированных данных). Заранее заложить конструктивно "расписание" запуска, для того, чтоб в "часы пИк" на зепускаться для разных стран. Страны определять для начала на Русские и НЕрусские по преобладанию в тексте латиницы или кириллицы.

куплю СДЛ от 300 поисковых уников. не порно, по законам РФ. (/ru/forum/274655)
F
На сайте с 12.03.2007
Offline
85
#8
Tritel:
Надо чтоб индексировал сам. Тогда куплю.
Паучка то напиши, чтоб сам бегал по страничкам начиная с морды. Это ж самое простое раз уж ты со словоформами разобрался, то это для тебя пустячек.
Только при написании паучка заложи ограничения на количество коннектов в секунду. И в случае сбоя связи перерыв продолжения попытки на 10 минут (малоли сервер лег, не терять же от этого объем проиндексированных данных). Заранее заложить конструктивно "расписание" запуска, для того, чтоб в "часы пИк" на зепускаться для разных стран. Страны определять для начала на Русские и НЕрусские по преобладанию в тексте латиницы или кириллицы.

В предыдущей версии был паук, и есе отлично индексировал (по крону), но его сильно сервер не взлюбил, это тежелый для сервера скрипт.

Tritel:
Тогда куплю.

А я не продаю :)

T
На сайте с 08.04.2004
Offline
97
#9
fatalenergy:
В предыдущей версии был паук, и есе отлично индексировал (по крону), но его сильно сервер не взлюбил, это тежелый для сервера скрипт.

А я не продаю :)

Понятно, тогда удачи Вам в Ваших начинаниях....

DU
На сайте с 20.10.2006
Offline
105
#10
Tritel:
Надо чтоб индексировал сам. Тогда куплю.
Паучка то напиши, чтоб сам бегал по страничкам начиная с морды. Это ж самое простое раз уж ты со словоформами разобрался, то это для тебя пустячек.
Только при написании паучка заложи ограничения на количество коннектов в секунду. И в случае сбоя связи перерыв продолжения попытки на 10 минут (малоли сервер лег, не терять же от этого объем проиндексированных данных). Заранее заложить конструктивно "расписание" запуска, для того, чтоб в "часы пИк" на зепускаться для разных стран. Страны определять для начала на Русские и НЕрусские по преобладанию в тексте латиницы или кириллицы.

Что то я не понял, а зачем паук для бегания по стрницам собственного сайта если все хранится в базе, и поиск идет по одному своему же ресурсу. Не проще ли в индекс записывть ячейки из базы даннх, или если есть сохраненных в кэше хтмл страниц. Актуальнее и менее ресурсоемко. Хотя многие трудности любят

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий