Метапоисковик. Получение результатов запроса.

L
На сайте с 04.10.2005
Offline
12
1046

Здравствуйте. Мне нужно написать метапоисковик. Я пока никак не могу понять. Как выделять результаты поиска? И как это сделано в других метапоисковиках? Например, если я ищу слово "текст" по яндексу, то можно просто скачивать страницу http://www.yandex.ru/yandsearch?rpt=rad&text=%F2%E5%EA%F1%F2 . Но мне не верится, что метапоисковики так получают результаты поиска. Это же сколько не нужных ссылок надо вычистить. И еще проблемы будут с определением какая ссылка является результатом на запрос. Но других способов я пока не вижу. Подскажите, пожалуйста.

SS
На сайте с 03.09.2004
Offline
141
#1

lytkin, поспрошайте Славу Тихонова. Он в этом деле шарит очень хорошо.

«Клянусь своей жизнью и любовью к ней, что никогда не буду жить ради другого человека и никогда не попрошу и не заставлю другого человека жить ради меня» (с) Джон Галт
L
На сайте с 04.10.2005
Offline
12
#2
Seventh Son:
lytkin, поспрошайте Славу Тихонова. Он в этом деле шарит очень хорошо.

Спасибо. Вопрос задал ему.

VT
На сайте с 27.01.2001
Offline
130
#3
Но мне не верится, что метапоисковики так получают результаты поиска. Это же сколько не нужных ссылок надо вычистить.

Так и получают, причем от множества полнотекстовых поисковых систем. Выбор релевантных ссылок по сниппетам - это уже другой разговор, так как алгоритм ранжирования у каждого метапоисковика свой.

И еще проблемы будут с определением какая ссылка является результатом на запрос.

Не совсем понял это утверждение - здесь все однозначно, если выдачу разбирать регулярными выражениями.

L
На сайте с 04.10.2005
Offline
12
#4
Vyacheslav Tikhonov:
Так и получают, причем от множества полнотекстовых поисковых систем. Выбор релевантных ссылок по сниппетам - это уже другой разговор, так как алгоритм ранжирования у каждого метапоисковика свой..

А если поисковик поменяет html-код своей страницы выдачи результатов? Т.е. если там результаты поиска будут заключены в <!-- results -->......<!-- results --> (это к примеру, может div'ом сделано). А потом сделают вот так

<!-- результаты -->......<!-- результаты-->. Т.е. всегда придется менять код? Навсегда как-то зацепиться за результаты поиска не получиться?

Vyacheslav Tikhonov:
Не совсем понял это утверждение - здесь все однозначно, если выдачу разбирать регулярными выражениями

Тут я вроде бы все понял. Здесь можно искать ссылки регулярными выражениями, после которых идет описание, в котором встречаются ключевые слова.

DO
На сайте с 01.09.2005
Offline
120
#5

А труёвые поисковики разрешат этому метапоисковику тягать их выдачу?

VT
На сайте с 27.01.2001
Offline
130
#6
lytkin:
А если поисковик поменяет html-код своей страницы выдачи результатов? Т.е. если там результаты поиска будут заключены в <!-- results -->......<!-- results --> (это к примеру, может div'ом сделано). А потом сделают вот так
<!-- результаты -->......<!-- результаты-->. Т.е. всегда придется менять код? Навсегда как-то зацепиться за результаты поиска не получиться?

Всегда можно ежедневно отслеживать выдачу по какому-либо распространенному слову, чтобы определить момент, когда поисковик сменил выдачу. Это несложно, к тому же, быстро можно подправить regexp.

А труёвые поисковики разрешат этому метапоисковику тягать их выдачу?

По крайней мере, Google и Яндекс сейчас дают относительно бесплатный API(XML). Если не наглеть, то для начала его должно хватить. :)

SS
На сайте с 03.09.2004
Offline
141
#7
Vyacheslav Tikhonov:
По крайней мере, Google и Яндекс сейчас дают относительно бесплатный API(XML). Если не наглеть, то для начала его должно хватить.

Было бы так в сентябре 2001 года, правда? ;)

L
На сайте с 04.10.2005
Offline
12
#8

Спасибо. Теперь понятно куда двигаться. Буду разбираться.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий