<? /** * Получение внешних ссылок со страницы * * @param html * @param домен (без www.) * @return массив внешних ссылок * */ function getoutlinks($content, $domain) { $content = preg_replace("/[\n\r\t]/", '', $content); // Заменяем символы перевода строки и табуляции на пробел $content = preg_replace("/[ ]{2,}/", ' ', $content); // Заменяем более 2х пробелов одним preg_match_all("/<a[^<>]*href=['|\"](.*)['|\"][^<>]*>(.*)<\/a>/iU", $content, $links); // Собираем ссылки if (sizeof($links[1]) > 0) // Если ссылки найдены { $out = array(); // Массив для внешних ссылок foreach ($links[1] as $v) { if (preg_match("/http:\/\/(www\.){0,1}".$domain."/i", $v)) // Пропускаем внутренние ссылки { continue; } if (preg_match("/http:\/\/(www\.){0,1}(.*)/i", $v)) // Внешняя ссылка { $out[] = $v; } } return $out; } return array(); }
Добрый вечер.
Рискну предположить, что главная страница попала под фильтр "ты спамный", такое может быть в случае если главная страница перенасыщена ключами. Можно взглянуть на сайт?
В таком случае вам надо сделать как сказал koras:
User-agent: *
Disallow:
Clean-param: book_cat&book_theme /
Но повторюсь, считаю для решения поставленной задачи использовать robots.txt не корректно (вдруг у пользователя где-то в закладках сохранен старый адрес страницы...).
Мне кажется в данном случае решение через robots.txt немного не корректным, потому как дословно:
В вашем же случае старые страницы получили новые адреса и об этом нужно сообщить Яндексу, сделать это нужно с помощью 301 редиректа, это позволит сохранить вес страниц.
Допустим у вас интернет магазин радиоуправляемых моделей, есть раздел Радиоуправляемые вертолеты, в разделе 50 товаров. Товары в разделе можно сортировать по цене и по популярности. Для сортировки к url страницы добавляется параметр order (www.site.ru/catalog.php?cat=01&order=price/best). Так как товар на страницах /catalog.php?cat=01, /catalog.php?cat=01&order=price и /catalog.php?cat=01&order=best фактически один и тот же, только расположен в разном порядке, чтобы не смущать поисковые системы можно в robots.txt добавить строки:
Clean-param: order
Это позволит исключить из индекса страницы catalog.php?cat=01&order=price и /catalog.php?cat=01&order=best.
Но данное решение никак не подходит вам, потому как вам нужно сообщить поисковым системам, что тех или иных страниц на сайте не существует, для этого лучше всего воспользоваться .htaccess файлом.
Redirect 301 /?book=23&book_cat=2&book_theme=2&book_id=12 www.site.ru/?book=23&book_id=12
301й редирект скажет поисковым системам, что старой страницы не существует и что её контент находиться по новому адресу, адрес старой страницы будет удален из индекса.
Для большого числа страниц можно составить регулярное выражение.
Проиндексировались все страницы добавленные 2 недели назад, подросли позиции по НЧ. Кол-во беков не изменилось, +-5 по всем проектам.