Автоматическая проверка ссылок/текста на сайте

AS
На сайте с 01.07.2003
Offline
135
2024

Получил заказ на программирование.

Суть такая.

Человек занимается посредническими услугами по продаже ссылок с сайтов.

Ему нужно для проверки этих ссылок програмка/скрипт.

В форме два поля :

Главная страница где нужно проверить и фраза(HTML код) которую нужно найти/проверить.

Скрипт должен найти все(!) страници данного сайта по ссылкам и проверить их на наличие этой фразы(HTML кода).

Вопрос : кто-нибудь встречал подобный скрипт/сервис в интернет ?

PS.Это, тстати, будет полезно(в усеченном варианте) и для проверки обратных ссылок при обмене.

[Удален]
#1
Как писал allStars
Получил заказ на программирование.
Скрипт должен найти все(!) страници данного сайта по ссылкам и проверить их на наличие этой фразы(HTML кода).

Perl + модуль LWP-User-Agent. Собственно, с помощью этого модуля все и можно сделать, кстати, достаточно просто. Можно еще и кучу полезных наворотов наколбасить.

AS
На сайте с 01.07.2003
Offline
135
#2

Спасибо Scaramush,

Вы забыли про HTML::LinkExtor :)

Я знаю как написать, да и почти закончил работу.

Мне интересно где-нибудь есть подобный онлайн сервис?

А то я что-то сразу за программирование сел, даже не поискал, может уже где-нибудь это есть.

Polite Moose
На сайте с 22.04.2002
Offline
85
#3

allStars, в Вашей программе было бы неплохо еще и парсер robots.txt добавить. Ходить по ссылкам это да, но ведь часть путей может быть закрыта для поисковых роботов. И получится, что нужный фрагмент кода есть, но на недоступных страницах.

Удачи, доброго пива (http://www.fifth-ocean.ru/) и настроения! Релевантность определяется не тИЦ, не ВИЦ, не количеством ссылок, не частотой ключевого слова, а соответствием запросу!
greenwood
На сайте с 08.09.2003
Offline
519
#4

глянь тут http://www.jimworld.com/tools/keyword-analyzer/spider.cgi?lang=

там много чего есть....может что и найдешь

AS
На сайте с 01.07.2003
Offline
135
#5
Как писал Polite Moose
allStars, в Вашей программе было бы неплохо еще и парсер robots.txt добавить. Ходить по ссылкам это да, но ведь часть путей может быть закрыта для поисковых роботов. И получится, что нужный фрагмент кода есть, но на недоступных страницах.

Спасибо за дополнение, я даже об этом не подумал 🍻

N
На сайте с 18.05.2003
Offline
100
#6

Самое правильное решение - посмотреть в нужном поисковике, стоит ли ссылка куда необходимо и после этого проверить текст этой ссылки.

Другие же варианты реализуются с БАЛЬШИМ напрягом. Кроме роботс.тхт надо парсить саму нтмл-ку, т.е. всякие ноиндекс, не запихали ли это дело в скрипт, в комментарии, в тайтл и вообще, как только не поизвращались.

AS
На сайте с 01.07.2003
Offline
135
#7

Newm

Конечно в чем-то вы правы.

Кроме роботс.тхт надо парсить саму нтмл-ку, т.е. всякие ноиндекс, не запихали ли это дело в скрипт, в комментарии, в тайтл и вообще, как только не поизвращались.

Единственное noindex можно закрыть т.к. модуль HTML::LinkExtor берет только ссылки.

Cossack
На сайте с 17.12.2002
Offline
279
#8

Все одно - как не верти - или раздавать всем код или проверять вручную.

Прощание славянки... (http://www.youtube.com/watch?v=0xf9lFMWfKw)
AS
На сайте с 01.07.2003
Offline
135
#9
Как писал Cossack
Все одно - как не верти - или раздавать всем код или проверять вручную.

Вручную?

Среднее кол-во страниц на сайтах заказчика 25000.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий