Как подключить поисковик на своем веб сервере

123
VT
На сайте с 27.01.2001
Offline
130
#11
Нет,нет.Задача скачивания сайтов не стоит. Только поиск страницы нужной тематики(микроэлектроника, если обобщить), потом проверка ее уже самодельным фильтром на предмет конкретного контекста и затем занесение ее или ссылки или отфильтрованного контекста в БД.

По-научному это называется интеллектуальный агент, а не поисковая система :) Информацию можно, конечно, собирать из выдачи поисковиков, но этот метод не очень подходит, если ее свежесть ставится превыше всего. Лучше всего адаптировать какого-нибудь GNU-шного спайдера или, если есть опыт, написать его самому. При этом сбор специализированной информации обычно организовывают с помощью фокусированного сканирования (focused crawler). Поисковая система здесь не нужна - нужен хороший фильтр.

V
На сайте с 19.01.2003
Offline
28
Vet
#12
Как писал Vyacheslav Tikhonov

Лучше всего адаптировать какого-нибудь GNU-шного спайдера или, если есть опыт, написать его самому. При этом сбор специализированной информации обычно организовывают с помощью фокусированного сканирования (focused crawler). Поисковая система здесь не нужна - нужен хороший фильтр.

Во как! Лихо! Задачка, которую мне поставили в размытом виде начинает приобретать более понятные очертания. Я и начал с того, что написал самодельный код. Но.. Самострок он и есть самострок.

Да, джентельмены. Подумать есть о чем. Нельзя ли уточнить термин "фокусированное сканирование".

Что касается фильтра, здесь конешно я себя вроде как нормально ощущаю.

T
На сайте с 24.01.2003
Offline
10
#13

Я тоже озадачен такой же проблемой. Но как я понял автор знает свои 200-300 сайтов, а я нет. "Я не волшебник, я только учусь". Мне нужно найти эти сайты по ключевому слову. При поиске по Яндексу, он дает кучу сайтов я начинаю ходить по ссылкам, читать, анализировать. Но, не будешь ведь сидеть до победного конца в интернете, через какое-то время уходишь. На следующий день снова ищешь. Нет ли каких либо программ которые помогли бы мне отсортировать информацию, "разложить все по корзинам: 1 - это нужные сайты, 2 - это не нужные, 3 - непонятные (потом разберусь), ну допустим все. Эти "корзины" нужны для того, чтобы на следующий день я не получал их при поиске, т.е. Яндекс конечно их будет выдавать, а вот программа допустим скажет мне, что я этот сайт уже видел. Этот сайт лежит в "корзине" номер 2, например. Ну что-то в этом роде.

Сильно не пинайте. Честно прочитал от корки до корки "Любые вопросы от новичков" не хотелось бы получать устные замечания на первом своем вопросе.

VT
На сайте с 27.01.2001
Offline
130
#14
Нельзя ли уточнить термин "фокусированное сканирование".

Цель фокусированного сканирования заключается в том, чтобы среди всего множества известных страниц отобрать лишь те, которые соответствуют заданной тематике. Тематика опрелеляется не с помощью ключевых слов, а в виде эталонных документов, которые к ней относятся. Подробнее смотрите в статье

Focused crawling: A new approach to topic-specific Web resource discovery .

Но вообще для начала неплохо было бы сначала познакомиться с самим понятием спайдера.

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#15

На всякий случай предостерегу - если вы собираетесь в автоматизированном режиме собирать информацию с выдачи Яндекса, то вы рискуете остаться со своим желанием собрать информацию. Примеров масса.

V
На сайте с 19.01.2003
Offline
28
Vet
#16
Как писал Terrano

Эти "корзины" нужны для того, чтобы на следующий день я не получал их при поиске, т.е. Яндекс конечно их будет выдавать, а вот программа допустим скажет мне, что я этот сайт уже видел. Этот сайт лежит в "корзине" номер 2, например. Ну что-то в этом роде.

Да я вот тоже пробую и еще такую штуку замутить у себя. Готовых программ не встречал. (НАверняка есть). Но опыт учит, что под свои задачи все равно чужое прикручивать трудно (хотя вопрос, конечно спорный). Я работаю на PHP и такая задача у меня решается с помощью базы данных(хотя и необязательно именно так). Мой маленький посковичок обшаривает нужные мне сайты, вытаскивает страницы по тематике, потом выводит это в интерфейс в переваренном виде (только текст и ссылка на живую страницу) и устанавливает в базе флаг, что здесь он был и по второму разу туда не лезет. Однако это система доморощенная вот и потребовалось, что-то более серьезное и продвинутое. Вот приходится пытать джентельменов вопросами.

V
На сайте с 19.01.2003
Offline
28
Vet
#17
Как писал Gray
На всякий случай предостерегу - если вы собираетесь в автоматизированном режиме собирать информацию с выдачи Яндекса, то вы рискуете остаться со своим желанием собрать информацию. Примеров масса.

Спасибо за дополнительное подтверждение. Я уже было сунулся и получил в ответ от Яндекса красиво скрученную фигуру из трех пальцев. Читать дает, но вытащить ссылки не получилось, а потом даже если бы и вышло, как все это переварить. Вопрос.

Хорошо. Так какие-же варианты остаются. Про mnogoseach никто вообще не высказался. Значит не так актуально это для автоматического сбора инфы. Или я не прав?

euhenio
На сайте с 21.09.2001
Offline
357
#18
Спасибо за дополнительное подтверждение. Я уже было сунулся и получил в ответ от Яндекса красиво скрученную фигуру из трех пальцев. Читать дает, но вытащить ссылки не получилось, а потом даже если бы и вышло, как все это переварить.

-надо вытаскивание ссылок персонально под Яндекс заточить, там ссылки со скриптом и href, см. source. Gray имел в виду, что если 1000 быстрых http-запросов сделать, Яндекс отключит твой ip. Тоже если зайти в директорию /norobots/, невидимая ссылка на нее есть в тексте страницы.

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )
V
На сайте с 19.01.2003
Offline
28
Vet
#19

Спасибо. Вот какие нюансы!

T
На сайте с 24.01.2003
Offline
10
#20

Если можно немного продолжить тему. Оставим Яндекс в покое. Мне не нравится IE. Если я напишу свой броузер (круто я замахнулся, пусть будет плагин к Explorer'у), у которого вместо имеющегося сейчас ИЗБРАННОЕ будет нечто (с более удобным меню) индексированная база данных названий сайтов, и др. кроме текста, с поиском сайтов (их как много 200-300). Допустим мы не будем пользоваться быстрыми (1000 шт) http запросами. Мне ведь нужно посмотреть на сайт, т.е. открыть его в окне, потыкать мышкой на иконки, чтобы понять нужен мне этот сайт или нет. Что тогда? Можно ли использовать программу без боязни за то, что Яндекс отключит ip?

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий