- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Подскажите, где можно найти скрипт для мини поискового робота? Есть ссылка, нужно чтобы робот проанализировал код страницы по ней, нашел в тексте нужную ссылку и продолжил работать уже с новой страницей. Анализ страницы и парсинг нужных ссылок могу в принципе написать сам, а вот механизм взаимодействия с http я не понимаю.
Заранее спасибо )
а вот механизм взаимодействия с http я не понимаю.
Пишите в личку помогу.
Курл в помощь
Пишите в личку помогу.
как только появится доступ в личку напишу )
Курл в помощь
курл это что ?
гугл что ли ? )
если да, то естественно искал сначала там, но не нашел.
Сами хотите сделать?
Если
То всё, что вам ещё нужно, есть здесь: http://ru.php.net/manual/ru/function.fsockopen.php
В
Ставите просто слеш для главной страницы, и путь к странице, для всех остальных. Например:
Имхо, если объем «работ» у робота будет не огромным – можно обойтись и без курла и без sockets.
Реализовать при помощи $content=file_get_contents(“fullpath”).
После прегматчить нужные ссылки, например так:
preg_match_all("/<a (.*)href=(.*)>(.*)<\/a>/iU",$content,$found);
$hrs=$found[2];
А далее… если роботу гулять только внутри сайта – нужно отсеять внешние ссылки, отсеять ссылки mailto.
После попробовать составить полные урлы найденных по ссылкам страниц (не всегда указывается полный путь, иногда нужно добавить к ним и домен, например). Еще нужно отсеять # такие ссылки (как минимум).
Сделать функцию рекурсивной и вызывать себе наздоровьешко, собирая попутно те данные, для которых эта вещь пишется.
Можно пойти и сокетами.
$fp = fsockopen($host,$port,$errno,$errstring,$time_out);
set_socket_blocking($fp,0);
Отправить запрос ну и…
while (!feof($fp) && time()<$timeout)
И собирать данные. И аналогично анализировать дальше.
Удачи в разработке. :)
А может робота лучше на PERL делать?
Можно и на perl, но самый лучший вариант - взять поисковик с открытым кодом и обработать напильником.
Кому нужна хорошая и проверенная в работе PHP-функция для получения объектов из URL (header+content+title+meta tags) + правильная работа с редиректами + любой USER-AGENT (передается как параметр функции) - стучитесь в личку.
Дайте бесплатно ;)
Дайте бесплатно ;)
Так я и не собирался деньги брать :)
Сейчас кину в личку 🚬