Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science
Как говорится, лучше поздно

Еще раз спасибо :)

Vyacheslav Tikhonov, рекламные палощади уже продаешь? Купим заранее

Ace, когда будем продавать, я свистну. :)

Но на что надеются их создатели не могу понять, зачем кому-то пользоваться им если есть Яндекс, Рамблер, Апорт, Майл, Гугл?

Да vengo.ru и есть метапоисковик, который использует ресурсы Яндекса, Рамблера и Апорта. :) Просто ссылки по-хитрому пересортированы.

Огромное спасибо всем за поздравления! 🍻

С трудом отхожу от пятидневного праздничного марафона. Но ничего не поделаешь - пора делать новый поисковик 😂

Было дело - раз перебрал. Забанили на отметке более 200 запросов в час (точнее не знаю - статистики не вел). Потом из-за собственного баловства менял IP-ик у сервера.

Можно автоматически отлавливать новые анонимные прокси, которые Яндекс еще не знает, и ходить через них. Через каждые пару десятков запросов робот должен прокси менять, иначе их автомат может и засечь. :)

В первом приближении-линеаризованная модель, подсчитать корреляционные функции по положению этих двух слов в разных тегах, абзацах, ссылающихся страницах и т.п., ортогонализовать по признакам, а потом применять к своим разрабатываемым страницам. Неужели на этом уровне никто не работает?

Вряд ли кто-то это делает - для подобных вещей нужно быть самому достаточно серьезным разработчиком. Поэтому работа оптимизатора где-то и похожа на шаманство - может быть, что-то получится, а может и нет.

1. Поисковик, как динамическая система (с неопределенными динамическими свойствами - "черный ящик со входом и выходом"). Методы исследования и идентификации поисковика ("черного ящика").

Evaluation of Document Retrieval Systems

2. Практический анализ поисковых навыков пользователей поисковых систем, их активность и поведение (перехода на, повторы, уточнения, удовлетворенность). Лексика запросов, адекватность целям поиска , частотность и т.п.

Real life information retrieval: a study of user queries on the Web

Patterns of Search: Analyzing and Modeling Web Query Refinement

4. Супербольшие сайты, их особенности с точки зрения поисковиков (например, как выбирать какие страницы разрешать индексировать, какие нет - все равно все не проиндексируют).

Crawler-Friendly Web Servers

Может кто подкинет исходник поискового агента? или ссылку где почитать можно про то как его написать... желательно на русском языке..

По-русски читать вредно.

Книгу для написания веб-клиентов можно посмотреть здесь, там хорошие примеры. С литературой по регулярным выражениям проблем вообще нет никаких, ее очень много.

1.Как происходит архивация большого количества текста, и как связать php с ним ?

Странный вопрос - архивация нужна для работы с хранилищем документов, php можно использовать в качестве интерфейсов для доступа к этому хранилищу.

Сформулируйте свой вопрос точнее.

2.Как организовать автономную работу робота в поисковике ?

Нужно определить стратегию, согласно которой робот будет сканировать каждый ресурс, и составить расписание обхода сайтов таким образом, чтобы слабо обновляющиеся сайты обходились редко, остальные - регулярно. Стратегия сканирования (crawling) может быть разной, в зависимости от решаемой задачи. Подробнее о возможных стратегиях смотрите в списке литературы здесь.

Вы же всех за месяц в нирвану выводите? Вы должны давать советы направо-налево, а не просить у нас, смертных.

Каширин, я что-то не совсем понял - Вы же тут громогласно и неоднократно утверждали, что работали и в КМ.Ру, и в Апорте. И это все, что Вы можете сказать по заданному вопросу? "Иногда лучше жевать, чем говорить" (C) Реклама :)

Слав, ну ладно, когда человек, не найдя себя в любимом запросе, начинает предрекать конец Яндекса, но ты-то с чего этого взял?

Ничего личного. Просто по тем запросам, по которым раньше люди приходили с Яндекса, люди сейчас намного больше начали ходить с других поисковиков. То есть очевидно, что отчаявшись найти что-то в Яндексе, человек переходит на тот же Рамблер или Google и ищет то же самое там.

Это ты сюда насмотрелся?

Это только подтверждает мои слова. Прирост пользователей незначителен, зато хитов стало на 8 миллионов больше. Конечно, лафа для Яндекса - еще бы, добавилось целых 8 миллионов показов Директа. Чего ж им еще желать, деньги-то капают. :)

Вообще предлагаю еще более ухудшить качество выдачи, чтобы денег еще больше было.

Битва титанов. :) Ну, mail.ru еще можно понять, но Яндекс-то куда?

У них поиск ищет непонятно что и как, юзеры на другие поисковики разбегаются, а они почту в это время пиарят :)

Всего: 847