LiM

Рейтинг
71
Регистрация
30.11.2001

Originally posted by mushka:
Есть задание написать простую поисковую систему, после поиска информации в сети появилось понимание вопроса в теории, на практике же не знаю из каких конктретных программ должна состоять SE.

Вопрос задан слишком расплывчато, потому и ответ, думаю, будет довольно общий:

Обычная поисковая машина (не путать с поисковой системой, которая, как правило, включает в себя поисковую машину) состоит из базы данных, в которой хранится информация о проиндексированных ресурсах, программы, которая по запросу пользователя вытягивает нужную информацию из этой базы, и программы, которая по определенным правилам загоняет в базу новую информацию...

А вот дальше начинается шаманство: как хранить информацию, как ее ранжировать при выдаче по запросу, как и что загонять... и самое тяжелое - как бороться с накрутчиками...

Есть, правда еще один очень непростой вопрос: кого считать накрутчиком?..

------------------

С уважением,

Андрей Хроленок.

Originally posted by cubanate:
http://www.aftech.ru
Денежная компенсация - ОБЯЗАТЕЛЬНА.
Ждем предложений.

Вам надо посещаемость поднимать по уму или на пару дней?.. Если по уму, то нужна полная готовность и согласие на смену всего, включая дизайн и контент сайте... В противном случае это "по уму" превращается в "на пару дней"...

Еще замечу, что "по уму" дешево и быстро не бывает...

Специально проверил. Последний заход на нас был с агентом "Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; Win 9x 4.90; DT)" На страничке нет ссылок на нас. Мы не показываем баннеры...

---

С уважением, Андрей Хроленок.

А можно для непонятливых объяснить, что такое халвей?..

---

С уважением, Андрей Хроленок.

Originally posted by Dm:
Специально проверил - в случае IE5 (сервер апач, хотя это не влияет ), браузер не посылает информацию о текущей странице...

По долгу работы приходится мониторить логи нашего сайта. Скажу точно: такие глюки встречаются. Встречаются именно с IE, но довольно редко. Причину выяснить не удалось...

------------------

С уважением,

Андрей Хроленок.

Originally posted by Shirinkin:
Благодарю за корректную поправку. Даты в самом деле пропустил, но штучка вроде погашена... как только сделаю ее аналог с сегодняшней базой, так сразу кину

Интересно, каким образом, вернее, откуда будет собираться база фраз?.. По той методике, что собирал Андрей это ведь уже не возможно...

------------------

С уважением,

Андрей Хроленок.

Тогда говори e-mail, или, что проще, объявляйся в аське... Лучше - в моей...

Originally posted by wolf:
Кто ж тебе такое сказал?
Никому роботы ничего не должны, иначе комментарии превратились бы в мощный инструмент спама поисковиков - пользователь ведь комментарии не видит, а значит - пиши в них, что хочешь, без ущерба для внешнего вида и контента сайта.

Не должны, однако, если мне не изменяет память, из западных есть еще такие, которые учитывают комментарии...

Из наших, надо отдать должное, я таких не знаю...

------------------

С уважением,

Андрей Хроленок.

Originally posted by Interitus:
Поделишься?

Да поделиться не проблема (правда, не самой свежей версией, т.к. та только на работе сейчас), но оно тебе надо?.. Оне же под мои задачи затачивалось - не под твои... Под мой формат логов Apache (в смысле - порядок следования полей), под интересные мне поисковики...

------------------

С уважением,

Андрей Хроленок.

Вопрос один: какие тут подводные камни? Если все так просто, то почему таких вещей в готовом виде нету?

Все подводные камни зависят от того, что тебе надо получать в отчете.

К примеру, у меня из логов выцепляются следующая инфармация: дата, ip-посетителя, название поисковика, номер страницы результатов, где была ссылка, текст запроса, адрес, куда пришел посетитель, адрес страницы результатов.

Тут очень большая затырка была с тем, чтобы правильно достать из логов название поисковика, номер страницы результатов и текст запроса. Каждый поисковик как-нить по своему изгаляется с хранением этих данных в адресе. Например, у Рамблера есть три известных мне скрипта, которые могут искать как по интернету, так и по Top100. Приходится сваливать сначала все такие адреса в одну кучу, а потому уже разбирать по другим признакам, откуда нас нашли...

Делается все, действительно, очень примитивно. Писалось на Perl, занимает от силы пару килобайт. Отчет выдает в простой текстовый файл...

А на Аксессе у тебя мало что получится понять из этих логов... Тем более, что там с нужной т.з. очень много мусора будет. Ну на кой тебе нужны отчеты о блужданиях народа внутри сайта?..

---

С уважением, Андрей Хроленок.

Всего: 1000