Еще раз спасибо :)
Ace, когда будем продавать, я свистну. :)
Да vengo.ru и есть метапоисковик, который использует ресурсы Яндекса, Рамблера и Апорта. :) Просто ссылки по-хитрому пересортированы.
Огромное спасибо всем за поздравления! 🍻
С трудом отхожу от пятидневного праздничного марафона. Но ничего не поделаешь - пора делать новый поисковик 😂
Можно автоматически отлавливать новые анонимные прокси, которые Яндекс еще не знает, и ходить через них. Через каждые пару десятков запросов робот должен прокси менять, иначе их автомат может и засечь. :)
Вряд ли кто-то это делает - для подобных вещей нужно быть самому достаточно серьезным разработчиком. Поэтому работа оптимизатора где-то и похожа на шаманство - может быть, что-то получится, а может и нет.
Evaluation of Document Retrieval Systems
Real life information retrieval: a study of user queries on the Web
Patterns of Search: Analyzing and Modeling Web Query Refinement
Crawler-Friendly Web Servers
По-русски читать вредно.
Книгу для написания веб-клиентов можно посмотреть здесь, там хорошие примеры. С литературой по регулярным выражениям проблем вообще нет никаких, ее очень много.
Странный вопрос - архивация нужна для работы с хранилищем документов, php можно использовать в качестве интерфейсов для доступа к этому хранилищу.
Сформулируйте свой вопрос точнее.
Нужно определить стратегию, согласно которой робот будет сканировать каждый ресурс, и составить расписание обхода сайтов таким образом, чтобы слабо обновляющиеся сайты обходились редко, остальные - регулярно. Стратегия сканирования (crawling) может быть разной, в зависимости от решаемой задачи. Подробнее о возможных стратегиях смотрите в списке литературы здесь.
Каширин, я что-то не совсем понял - Вы же тут громогласно и неоднократно утверждали, что работали и в КМ.Ру, и в Апорте. И это все, что Вы можете сказать по заданному вопросу? "Иногда лучше жевать, чем говорить" (C) Реклама :)
Ничего личного. Просто по тем запросам, по которым раньше люди приходили с Яндекса, люди сейчас намного больше начали ходить с других поисковиков. То есть очевидно, что отчаявшись найти что-то в Яндексе, человек переходит на тот же Рамблер или Google и ищет то же самое там.
Это только подтверждает мои слова. Прирост пользователей незначителен, зато хитов стало на 8 миллионов больше. Конечно, лафа для Яндекса - еще бы, добавилось целых 8 миллионов показов Директа. Чего ж им еще желать, деньги-то капают. :)
Вообще предлагаю еще более ухудшить качество выдачи, чтобы денег еще больше было.
Битва титанов. :) Ну, mail.ru еще можно понять, но Яндекс-то куда?
У них поиск ищет непонятно что и как, юзеры на другие поисковики разбегаются, а они почту в это время пиарят :)