DenisVS

Рейтинг
644
Регистрация
01.05.2010
DocS:
Ну если говноконтент, то конечно, но вот если перевести тем же Dicter'ом и ручками потом подправить несложно-заметные ляпы, то все сидит нормально в индексе.

То совсем не машинный перевод...

Так понятнее...

function check_outlinks($page)

{
$content_page = file_get_contents($page) or die ("Ошибка запроса страницы!");
$content_page = preg_replace("!!i", "", $content_page);
$content_page = preg_replace("!!i", "", $content_page);

if (preg_match_all("!!Ui", $content_page, $noindex_count))
{
preg_match_all("!!Ui", $content_page, $noindexe_count);
$full_count = count($noindex_count[0]) + count($noindexe_count[0]) + 1;
//if (!is_float($full_count/2)) echo "Существуют одиночные тэги , возможна некорректная работа!";

$noindex = 0;
$n_out = 0;
for ($i=0; $i<$full_count; $i++)
{
$pozition_begin = strpos($content_page, "");
$pozition_end = strpos($content_page, "");
if ($pozition_end == true && $pozition_begin == true && $pozition_begin < $pozition_end)
{
$content_parts[] = array(substr($content_page, 0, $pozition_begin), $noindex);
$noindex = 1;
$pozition_default = $pozition_begin+9;
$content_page = substr($content_page, $pozition_default);
$n_out++;
}
elseif (($pozition_end == true && $pozition_begin == true && $pozition_end < $pozition_begin) || ($pozition_end == true && $pozition_begin == false))
{
$content_parts[] = array(substr($content_page, 0, $pozition_end), $noindex);
if (--$n_out == 0) $noindex = 0;
$pozition_default = $pozition_end+10;
$content_page = substr($content_page, $pozition_default);
}
elseif ($pozition_end == false && $pozition_begin == false)
{
$content_parts[] = array($content_page, $noindex);
}
}
}
else
$content_parts[] = array($content_page);

$url_real_edit = preg_replace("!http://|https://|www\.!Ui", "", $page);
if (strpos($url_real_edit, "/") == true) $url_real_edit = substr($url_real_edit, 0, strpos($url_real_edit, "/"));

for ($i=0; $i<count($content_parts); $i++)
{
preg_match_all("!]+href\s*=\s*[\"']?([^\"']+)[\"']?[^>]*>(.+?)!i", $content_parts[$i][0], $links);
for ($r=0; $r<count($links[0]); $r++)
{
if (preg_match("!^(?:http://|https://)(?:www\.|)(.*)$!i", $links[1][$r], $url_parts))
{
if (preg_match('!^' . $url_real_edit . '!i', $url_parts[1])) continue;
// Определеяем ссылку и анкор
$link = trim($url_parts[0]);
$ankor = $links[2][$r];

// Если картинка
if (preg_match ("!]+src=[\"']?([^\"']+)[\"']?[^>]*>!i", $links[2][$r], $image_parts))
$ankor = $image_parts[1];

// Добавляем ссылку в основной массив исходящих ссылок
$result['out'][] = Array($link, $ankor);

// Добавляем ссылку в массив nofollow
if (preg_match("![\"'\s=]nofollow[\"'\s>]!Ui", $links[0][$r]))
$result['nofollow'][] = Array($link, $ankor);

// Добавляем ссылку в массив noindex
if ($content_parts[$i][1] == 1)
$result['noindex'][] = Array($link, $ankor);
}
}
}
return $result;
}

if ($_POST['submit'] && $_POST['url_path'] != "")
print_r (check_outlinks($_POST['url_path']));

Да ну, за 15... Совсем времени что ли некуда девать?

Я напишу за 100 долларов сам граббер на локалхост, Windows приложение с интерфейсом. Как вставлять в Джумлу, не имею понятия.

Как быть с Гуглом и др?

В панели вебмастера подтверждаете право на оба домена, а потом вертите ими как хотите.

Всё, разобрался, спасибо!

Очень уж невнятная кнопочка в таблице, проглядел.

Минутку... А где же всё-таки задать ссылку на нужную страницу? Я создал проект, забил туда Base URL сайта, но ведь мне не только главную надо двигать.

Блин... Я не могу понять, где там URL задаётся.

<img style="margin: 0px;" width="(\d+)" height="(\d+)" border="0" title="

Вообще-то у вас не регулярное выражение...

Посмотрел. В принципе, проект интересный. Поковыряю на досуге...

Всего: 14528