semenov

Рейтинг
319
Регистрация
28.10.2005

Вот готовый пациент: /ru/forum/521569

На Вашем сайте были проиндексированы страницы, содержащие списки поисковых
запросов
Spell:

Но с маской "/(?<=(<h1>))[а-яА-Яa-zA-Z0-9\s-]*(?<=(<\/h1>))/" ничего не вынимает, и не пойму где ошибка, ведь разница не велика, всего лишь убедиться что посл текста идет </h1>.

Что не так?

Я тоже не понял вашу регулярку )


preg_match ( '/<h1>(.*)<\/h1>/Ui', $html, $found );

$h1_text = $found [1];

Все время было злом, врядли сейчас что-то поменялось, отдавайте результат через POST или в роботсе заткните

Свершилось, всех поздравляю

vstb:
Не то, чтобы полностью...
Но большей частью одинаковые.
Там где красные пятна цвет одинаковый.

Это из-за артефактов jpeg'a

Вот png:

Результирующий фон все равно #000000 и там и там

AlienZzzz, может снизу убрать надпись или сделать оконтовку таким же цветом по периметру страницы, получится типа градиент

На пхп как-то так:


<?php

$in = file_get_contents ( 'in.html' );

$in = str_replace ( "\t", ' ', str_replace ( "\r", ' ', str_replace ( "\n", ' ', $in ) ) );

$in = preg_replace ( '/<.*>/U', ' ', $in );

$in = trim ( preg_replace ( '/ {2,}/', ' ', $in ) );

preg_match_all ( '/(\. |^)([А-ЯA-Z][^\.]*\. )/', $in, $matc, PREG_SET_ORDER );

file_put_contents ( 'out.txt', $matc [1] );

?>
Всего: 4798