axel11feb

axel11feb
Рейтинг
35
Регистрация
16.06.2012
mortido:
а есть какой-нибудь способ подобную страницу спарсить?

Есть - Document Object Model, на хабре про нее немного описано (в конце статьи) http://habrahabr.ru/sandbox/72702/

Сейчас сижу с телефона, поэтому это только предположение: элемент, который вам требуется - погружается аяксом, а данная библиотека не способна парсить страницы такого рода. Чтобы убедиться в наличии нужного вам элемента на странице - посмотрите её исходный код (Ctrl + u) и попробуйте его там отыскать.

mortido,

просто убрать '->plaintext'

$result = $html->find('#post_message_13651648', 0);

Попробуйте без innerhtml или plaintext в замен


require_once('simple_html_dom.php');

$html = file_get_html('/ru/forum/893190);
$result = $html->find('#post_message_13651648', 0)->plaintext;
echo $result;

ps: возможны проблемы с кодировкой в моем примере

Вот мой вариант)

ТС, посмотрите, этот работает? Получилось еще короче, чем в первом посте. А чтобы не загружать каждый раз данные с гисметио, можно записывать в базу или обычный файлик, но для этого нужны небольшие доработки.


$xml = simplexml_load_file('http://informer.gismeteo.ru/rss/29430.xml');

//print_r($xml); //для отладки

echo($xml->channel->item[0]->title) . '<br />';
echo($xml->channel->item[0]->description) . '<br /><br />';

echo($xml->channel->item[1]->title) . '<br />';
echo($xml->channel->item[1]->description) . '<br /><br />';

echo($xml->channel->item[2]->title) . '<br />';
echo($xml->channel->item[2]->description) . '<br /><br />';

Ещё возможно в новостях генерируется новые блок под контент, у которого не порописан float (или другие свойства, которые не правильно выстраивают колонки) или между новость и сайдбаром стоит блок clear:both

Тоже замечал на своих сайтах подобные тайтлы, пришёл к выводу, что гугл сам таким образом укорачивает длинные заголовки.

Переменную B определи после переменной A

$a=array('domains'=>'ya.ru', 'xf'=>'php');

$b=$a['xf'];

Еще можно сделать страницу, например: 50 новых товаров. И ссылку на эту страницу вывести где-нибудь на главной (можно даже в неприметном месте).

Но с sitemap правильнее будет.

Никто сайт в линкопомойку не превращал это обычный рефспам - http://devaka.ru/articles/refspam-info

PS: в сообщении выше про статистику правильно сказали.

Всего: 184