парсер проверки наличия сайта

12
doctorpc
На сайте с 12.07.2009
Offline
112
#11

Подкину вам еще проблему для размышления, чтобы скучно не было.

Что делать с сайтами, которые припаркованы у регистратора? Причем регистратором может оказаться кто угодно и парковочные страницы разные. С заголовками будет все ок.

Как должен скрипт реагировать на такие сайты? Подозреваю, что ТС хочет их относить к списку доменов без сайтов.

sir_Jack
На сайте с 04.04.2009
Offline
37
#12

Как очень правильно подметил doctorpc, нужно придумать адекватный адгоритм понятия "существования сайта у домена".

Для этого надо посмотреть что размещают на паркованных доменах и выделить какой-либо признак в коде или тексте. Например, отсутствие ссылок на внутренние страницы домена будет достаточным признаком.

Ну и для одностраничников сделать тест отсутствия вообще каких либо ссылок.

Т.е. Проверяем заголовки.

Если они есть - получаем список ссылок. Если ссылок нет вообще - это сайт состоящий из одной страницы

Если есть ссылки на тот же домен - то это домен с сайтом

Если есть ссылки на другие домены - то это паркованный домен

SeVlad
На сайте с 03.11.2008
Offline
1609
#13
sir_Jack:
Если есть ссылки на тот же домен - то это домен с сайтом

Не факт. Это может быть редирект. Достаточно распространённая практика.

sir_Jack:
Если есть ссылки на другие домены - то это паркованный домен

каталоги сайтов, новостные агрегаторы и тд - не сайты ;)

Делаю хорошие сайты хорошим людям. Предпочтение коммерческим направлениям. Связь со мной через http://wp.me/P3YHjQ-3.
Fringer
На сайте с 19.09.2012
Offline
82
#14

как насчет проверки метатегов?

SeVlad
На сайте с 03.11.2008
Offline
1609
#15
Fringer:
как насчет проверки метатегов?

каких? :)

Fringer
На сайте с 19.09.2012
Offline
82
#16

ну например чекать основные метатеги, проверять наличие фавиконки....

хотя даже подобная проверка не будет полностью на 100% давать верный результат.

SeVlad
На сайте с 03.11.2008
Offline
1609
#17
Fringer:
основные метатеги,

Это какие? Конкретно? Тайтл, кей, дескрипшн? Что они дадут?

Или какие?

Fringer:
проверять наличие фавиконки....

А типа на парковках его нет :)

Fringer
На сайте с 19.09.2012
Offline
82
#18

в том то и дело, что вариантов может быть много)

у кого-то иконка будет, а у кого-то нет, точно так же и с метатегами. у кого-то будет кей, а у кого-то нет)

в общем, свое предложение снимаю, так как бестолковое.

---------- Добавлено 27.09.2013 в 11:56 ----------

ну и по быстрому вопросик не по теме.

рабочие ли это скрипты?


<?php
set_time_limit(3600);
if($f = fopen('file1','r')){
if($w = fopen('file2.txt','w')){
while(!feof($f)) {
$line = fgets($f,4096);
if(preg_match('/<links*r:resource="(.+?)"s*>/',$line,$out)){
fwrite($w,$out[1] . "n");
}
}
fclose($w);
}
fclose($f);
}
?>

и


<?php
set_time_limit(3600);
if($f = fopen('file3.txt','r')){
if($w = fopen('sites.txt','w')){
while(!feof($f)) {
$line = fgets($f,4096);
$wiki = strpos($line, 'wikipedia');
$edu = strpos($line, 'edu');
$gov = strpos($line, 'gov');
if(($wiki===false) and ($edu===false) and ($gov===false)){
fwrite($w,$line);
}
}
fclose($w);
}
fclose($f);
}
echo('complete!');
?>
B1
На сайте с 13.12.2012
Offline
28
#19

1. отсутствие редиректа

2. наличие sitemap.xml

3. заполнены тэги title,description,keywords

4. внутренние ссылки

5. объем текста превышает некую цифру кб.

6. в robots.txt разрешена индексация

7. индекс Я|Г

можно перечислять далее, но все это не даст 100% гарантии, что домен не на парковке.

---------- Добавлено 27.09.2013 в 15:03 ----------

Fringer:
рабочие ли это скрипты?

а запустить ни как? с виду рабочий вроде.

Fringer
На сайте с 19.09.2012
Offline
82
#20
bashkir102:
2. наличие sitemap.xml

не все его используют

bashkir102:
заполнены тэги title,description,keywords

тоже не все. в укозе например, только регуляркой можно сделать. но все равно не показатель.

bashkir102:
5. объем текста превышает некую цифру кб.

iframe? image на всю страницу?

bashkir102:
6. в robots.txt разрешена индексация

не все используют robots.txt

bashkir102:
а запустить ни как? с виду рабочий вроде.

нечем запускать) мне чуть выше подсказали как это сделать, но руки еще не дошли.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий