Комментарии - bigton - Профиль вебмастера - Форум об интернет-маркетинге

Подскажите регулярное выражение (PHP) для получения внешних ссылок со страницы

1 июня 2010, 17:56


<?

/**

 * Получение внешних ссылок со страницы

 * 

 * @param html

 * @param домен (без www.)

 * @return массив внешних ссылок

 * 

 */ 

function getoutlinks($content, $domain)

{

	$content = preg_replace("/[\n\r\t]/", '', $content); // Заменяем символы перевода строки и табуляции на пробел			

	$content = preg_replace("/[ ]{2,}/", ' ', $content); // Заменяем более 2х пробелов одним

	

	preg_match_all("/<a[^<>]*href=['|\"](.*)['|\"][^<>]*>(.*)<\/a>/iU", $content, $links); // Собираем ссылки		        

    

    if (sizeof($links[1]) > 0) // Если ссылки найдены

    {

        $out = array(); // Массив для внешних ссылок

        

        foreach ($links[1] as $v)

        {

            if (preg_match("/http:\/\/(www\.){0,1}".$domain."/i", $v)) // Пропускаем внутренние ссылки

            {

                continue;

            }

            

            if (preg_match("/http:\/\/(www\.){0,1}(.*)/i", $v)) // Внешняя ссылка 

			{					                                                            

                $out[] = $v;                                                                                    	

			}

        }                        

                    

        return $out;

    }                

	

	return array();

}

по основному запросу стал выдаваться не index.html, а price.html

1 июня 2010, 17:41

Добрый вечер.

Рискну предположить, что главная страница попала под фильтр "ты спамный", такое может быть в случае если главная страница перенасыщена ключами. Можно взглянуть на сайт?

Помогите с robots.txt

1 июня 2010, 17:18

SE03:

ПС bigton, последний вопрос к вам - если я сделаю все наиболее просто , т.е. через Clean-param, то дубли перестанут индексироваться Яндексом по маске? Т.е., если отбросить такие факторы как вес и т.д. и оставить один главный - индексация и запрет, то самым простым способом в моем случае будет:
User-agent: *
Disallow:
Clean-param: book_cat
Clean-param: book_theme

В таком случае вам надо сделать как сказал koras:

User-agent: *

Disallow:

Clean-param: book_cat&book_theme /

Но повторюсь, считаю для решения поставленной задачи использовать robots.txt не корректно (вдруг у пользователя где-то в закладках сохранен старый адрес страницы...).

Помогите с robots.txt

1 июня 2010, 15:39

Мне кажется в данном случае решение через robots.txt немного не корректным, потому как дословно:

Если адреса страниц вашего сайта содержат динамические параметры которые не влияют на их содержимое (например: идентификаторы сессий, пользователей, рефереров и т.п.), вы можете описать их при помощи директивы 'Clean-param'. Робот Яндекса, используя эту информацию, не будет многократно перезакачивать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.

В вашем же случае старые страницы получили новые адреса и об этом нужно сообщить Яндексу, сделать это нужно с помощью 301 редиректа, это позволит сохранить вес страниц.

Помогите с robots.txt

1 июня 2010, 15:22

Допустим у вас интернет магазин радиоуправляемых моделей, есть раздел Радиоуправляемые вертолеты, в разделе 50 товаров. Товары в разделе можно сортировать по цене и по популярности. Для сортировки к url страницы добавляется параметр order (www.site.ru/catalog.php?cat=01&order=price/best). Так как товар на страницах /catalog.php?cat=01, /catalog.php?cat=01&order=price и /catalog.php?cat=01&order=best фактически один и тот же, только расположен в разном порядке, чтобы не смущать поисковые системы можно в robots.txt добавить строки:

Disallow:

Clean-param: order

Это позволит исключить из индекса страницы catalog.php?cat=01&order=price и /catalog.php?cat=01&order=best.

Но данное решение никак не подходит вам, потому как вам нужно сообщить поисковым системам, что тех или иных страниц на сайте не существует, для этого лучше всего воспользоваться .htaccess файлом.

Redirect 301 /?book=23&book_cat=2&book_theme=2&book_id=12 www.site.ru/?book=23&book_id=12

301й редирект скажет поисковым системам, что старой страницы не существует и что её контент находиться по новому адресу, адрес старой страницы будет удален из индекса.

Для большого числа страниц можно составить регулярное выражение.

Апдейт поисковой базы 26.05.2010

26 мая 2010, 09:44

Проиндексировались все страницы добавленные 2 недели назад, подросли позиции по НЧ. Кол-во беков не изменилось, +-5 по всем проектам.

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Что делать, чтобы попасть в ответы Google Bard

bigton