Лучше всего адаптировать какую-нибудь программу, которая помогла бы мне отсортировать информацию из выдачи поисковиков - Вопросы новичков в SEO

Как подключить поисковик на своем веб сервере

Vet · 2003-01-19T00:41:04.0000000Z

Подскажите пожалуйста. Задача: Со своего веб сервера осуществлять поиск страниц определенной тематики в Сети. Мне порекомендовали mnogosearch, но как его подключить и какие здесь нюансы могут быть я не знаю. Может быть есть еще какие-то варианты. Сайт на PHP. Заранее спасибо.

VT

130

Vyacheslav Tikhonov

22 января 2003, 14:12

#11

Нет,нет.Задача скачивания сайтов не стоит. Только поиск страницы нужной тематики(микроэлектроника, если обобщить), потом проверка ее уже самодельным фильтром на предмет конкретного контекста и затем занесение ее или ссылки или отфильтрованного контекста в БД.

По-научному это называется интеллектуальный агент, а не поисковая система :) Информацию можно, конечно, собирать из выдачи поисковиков, но этот метод не очень подходит, если ее свежесть ставится превыше всего. Лучше всего адаптировать какого-нибудь GNU-шного спайдера или, если есть опыт, написать его самому. При этом сбор специализированной информации обычно организовывают с помощью фокусированного сканирования (focused crawler). Поисковая система здесь не нужна - нужен хороший фильтр.

V

28

Vet

23 января 2003, 01:36

#12

Как писал Vyacheslav Tikhonov

Лучше всего адаптировать какого-нибудь GNU-шного спайдера или, если есть опыт, написать его самому. При этом сбор специализированной информации обычно организовывают с помощью фокусированного сканирования (focused crawler). Поисковая система здесь не нужна - нужен хороший фильтр.

Во как! Лихо! Задачка, которую мне поставили в размытом виде начинает приобретать более понятные очертания. Я и начал с того, что написал самодельный код. Но.. Самострок он и есть самострок.

Да, джентельмены. Подумать есть о чем. Нельзя ли уточнить термин "фокусированное сканирование".

Что касается фильтра, здесь конешно я себя вроде как нормально ощущаю.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

T

10

Terrano

24 января 2003, 02:56

#13

Я тоже озадачен такой же проблемой. Но как я понял автор знает свои 200-300 сайтов, а я нет. "Я не волшебник, я только учусь". Мне нужно найти эти сайты по ключевому слову. При поиске по Яндексу, он дает кучу сайтов я начинаю ходить по ссылкам, читать, анализировать. Но, не будешь ведь сидеть до победного конца в интернете, через какое-то время уходишь. На следующий день снова ищешь. Нет ли каких либо программ которые помогли бы мне отсортировать информацию, "разложить все по корзинам: 1 - это нужные сайты, 2 - это не нужные, 3 - непонятные (потом разберусь), ну допустим все. Эти "корзины" нужны для того, чтобы на следующий день я не получал их при поиске, т.е. Яндекс конечно их будет выдавать, а вот программа допустим скажет мне, что я этот сайт уже видел. Этот сайт лежит в "корзине" номер 2, например. Ну что-то в этом роде.

Сильно не пинайте. Честно прочитал от корки до корки "Любые вопросы от новичков" не хотелось бы получать устные замечания на первом своем вопросе.

Упал доход Наполнить сайт статьями от Яндекс кобласит

VT

130

Vyacheslav Tikhonov

24 января 2003, 10:21

#14

Нельзя ли уточнить термин "фокусированное сканирование".

Цель фокусированного сканирования заключается в том, чтобы среди всего множества известных страниц отобрать лишь те, которые соответствуют заданной тематике. Тематика опрелеляется не с помощью ключевых слов, а в виде эталонных документов, которые к ней относятся. Подробнее смотрите в статье

Focused crawling: A new approach to topic-specific Web resource discovery .

Но вообще для начала неплохо было бы сначала познакомиться с самим понятием спайдера.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

482

Sergey Petrenko

24 января 2003, 10:33

#15

На всякий случай предостерегу - если вы собираетесь в автоматизированном режиме собирать информацию с выдачи Яндекса, то вы рискуете остаться со своим желанием собрать информацию. Примеров масса.

V

28

Vet

24 января 2003, 14:15

#16

Как писал Terrano

Эти "корзины" нужны для того, чтобы на следующий день я не получал их при поиске, т.е. Яндекс конечно их будет выдавать, а вот программа допустим скажет мне, что я этот сайт уже видел. Этот сайт лежит в "корзине" номер 2, например. Ну что-то в этом роде.

Да я вот тоже пробую и еще такую штуку замутить у себя. Готовых программ не встречал. (НАверняка есть). Но опыт учит, что под свои задачи все равно чужое прикручивать трудно (хотя вопрос, конечно спорный). Я работаю на PHP и такая задача у меня решается с помощью базы данных(хотя и необязательно именно так). Мой маленький посковичок обшаривает нужные мне сайты, вытаскивает страницы по тематике, потом выводит это в интерфейс в переваренном виде (только текст и ссылка на живую страницу) и устанавливает в базе флаг, что здесь он был и по второму разу туда не лезет. Однако это система доморощенная вот и потребовалось, что-то более серьезное и продвинутое. Вот приходится пытать джентельменов вопросами.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

V

28

Vet

24 января 2003, 14:46

#17

Как писал Gray
На всякий случай предостерегу - если вы собираетесь в автоматизированном режиме собирать информацию с выдачи Яндекса, то вы рискуете остаться со своим желанием собрать информацию. Примеров масса.

Спасибо за дополнительное подтверждение. Я уже было сунулся и получил в ответ от Яндекса красиво скрученную фигуру из трех пальцев. Читать дает, но вытащить ссылки не получилось, а потом даже если бы и вышло, как все это переварить. Вопрос.

Хорошо. Так какие-же варианты остаются. Про mnogoseach никто вообще не высказался. Значит не так актуально это для автоматического сбора инфы. Или я не прав?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

357

euhenio

24 января 2003, 14:53

#18

Спасибо за дополнительное подтверждение. Я уже было сунулся и получил в ответ от Яндекса красиво скрученную фигуру из трех пальцев. Читать дает, но вытащить ссылки не получилось, а потом даже если бы и вышло, как все это переварить.

-надо вытаскивание ссылок персонально под Яндекс заточить, там ссылки со скриптом и href, см. source. Gray имел в виду, что если 1000 быстрых http-запросов сделать, Яндекс отключит твой ip. Тоже если зайти в директорию /norobots/, невидимая ссылка на нее есть в тексте страницы.

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

V

28

Vet

24 января 2003, 16:53

#19

Спасибо. Вот какие нюансы!

T

10

Terrano

24 января 2003, 18:28

#20

Если можно немного продолжить тему. Оставим Яндекс в покое. Мне не нравится IE. Если я напишу свой броузер (круто я замахнулся, пусть будет плагин к Explorer'у), у которого вместо имеющегося сейчас ИЗБРАННОЕ будет нечто (с более удобным меню) индексированная база данных названий сайтов, и др. кроме текста, с поиском сайтов (их как много 200-300). Допустим мы не будем пользоваться быстрыми (1000 шт) http запросами. Мне ведь нужно посмотреть на сайт, т.е. открыть его в окне, потыкать мышкой на иконки, чтобы понять нужен мне этот сайт или нет. Что тогда? Можно ли использовать программу без боязни за то, что Яндекс отключит ip?

Наполнить сайт статьями от Яндекс.Поиск: станьте партнером Яндекс.Видео! Яндекс кобласит

Google: E-E-A-T не является фактором ранжирования

Что такое Power BI и зачем это нужно бизнесу

Как подключить поисковик на своем веб сервере