парсинг таблицы на PHP

V

103

vantala

15 марта 2015, 21:31

7898

Задача: спарсить данные таблиц с http://finance.yahoo.com/q/op?s=GDX

Нужны 2 массива, Calls и Puts

Завис на разборе таблицы, такое ощущение что концы строк в haystack прерывают работу preg_match_all - может быть такое?

попытка удаления концов строк не имеет результата:

$rep = array("\r\n", "\n", "\r");

echo str_replace($rep,'',$haystack);

тут-то что не так? может конфликт кодировок скрипта/данных влиять?

ловить на пробу пытаюсь выражением

preg_match_all('/\<tr .\>([\d\]+[\.]?[\d]?).\<.\<\/tr\>/', $haystack, $matches);

Если кто предложит готовое решение, с меня пиво!

.

427

siv1987

16 марта 2015, 06:19

#1

Может быть. Точка не соответствует переводам строк без модификатора шаблона s. Кроме того, что-то никаких квантификаторов у вас не видно, что, здесь только один символ "\<.\<\/tr\>"? И в квадратные скобки точка это обычные символ точки.

Поиск вхождений больше одной Регулярное выржение отсевающее все Регулярка для емайл. Как

J

120

jkm

16 марта 2015, 06:21

#2

Могу предложить такой вариант разбора таблицы. Собираем содержимое всех ячеек. Полученный одномерный массив делим на части по количеству столбцов в таблице.


$str = file_get_contents('http://finance.yahoo.com/q/op?s=GDX');



preg_match('#<table[^>]+>\s*<caption>\s*Calls.+?</thead>(.+?)</table>#s', $str, $match);



preg_match_all('#<td[^>]*>(.*?)</td>#s', $match[1], $matches);



$cells = array_map('strip_tags', $matches[1]);

$cells = array_map('trim', $cells);



$result = array_chunk($cells, 10);



print_r($result);

S7

79

senks777

16 марта 2015, 09:20

#3

vantala:
готовое решение


$str = file_get_contents('http://finance.yahoo.com/q/op?s=GDX');

$trName = array(); // массив имен столбцов таблиц
$haystack = array(); // массив данных таблиц

if (preg_match_all("~<table[^>]*>\s*<caption>\s*([a-z]+)\s*</caption>(.+?)<tbody>(.+?)</tbody>.*?</table>~is", $str, $matches)) {

  /* найдены таблицы */ 
  foreach ($matches[3] as $k => $table) {

    // имена столбцов таблиц (если нужно)
    if (preg_match_all("~(<div class=['\"]D-ib[^'\"]*['\"]>([^<]*)</div>|<th[^>]*>([a-z\s]+)</th>)~is", $matches[2][$k], $th)) {
      foreach ($th[2] as $k2 => $name) {
        $thName[$matches[1][$k]][$k2] = $name ? $name : $th[3][$k2];
      }
    } // если не нужно, блок IF удалить/закомментировать
    
    /* разбор таблиц */
    if (preg_match_all("~<tr[^>]*>(.+?)</tr>~is", $table, $tr)) {
      foreach ($tr[1] as $k2 => $td) {
        if (preg_match_all("~<td[^>]*>.+?>([a-z0-9\.%]+)</[^>]+>.+?</td>~is", $td, $data)) {
          // добавляем разобранную в массив строку в общий массив данных
          $haystack[$matches[1][$k]][$k2] = $data[1];
        }
      }
    }
  }
}
/* результат; время выполнения без file_get_contents = 0.00600 sec */
print_r($haystack);

скрипт парсит обе таблицы, можно сказать - сколько угодно таких таблиц на странице..

на выходе многомерный массив таблиц-данных вида:

vantala:
Нужны 2 массива, Calls и Puts

Берем данные нужной таблиц как $haystack['Calls'], $haystack['Puts']

или 2 массива

$Calls = $haystack['Calls'];

$Puts= $haystack['Puts'];

vantala, обращайтесь ели нужно.. рыба к пиву есть..

V

103

vantala

16 марта 2015, 10:58

#4

senks777:
vantala, обращайтесь ели нужно.. рыба к пиву есть..

Спасибо, это идеальный вариант, похоже... номер WMR киньте в личку 🍻

---------- Добавлено 16.03.2015 в 15:02 ----------

jkm:
Могу предложить такой вариант разбора таблицы. Собираем содержимое всех ячеек. Полученный одномерный массив делим на части по количеству столбцов в таблице.

Интересное решение, возьму на вооружение, спасибо! Номер WMR киньте в личку 🍻

W

46

webjey

16 марта 2015, 18:48

#5

Предлагаю свое решение:

<?php

require_once "simple_html_dom.php";

$html = file_get_html('http://finance.yahoo.com/q/op?s=GDX');



$Calls=array();

$Puts=array();



foreach($html->find('#optionsCallsTable tr[data-row]') as $el){



    list($Strike,

         $ContractName,

         $Last,

         $Bid,

         $Ask,

         $Change,

         $ChangePercent,

         $Volume,

         $OpenInterest,

         $ImpliedVolatility)=preg_split('/[\s,]+/', trim($el->plaintext));



    array_push($Calls,array("Strike" => $Strike,

                            "ContractName" => $ContractName,

                            "Last" => $Last,

                            "Bid" => $Bid,

                            "Ask" => $Ask,

                            "Change" => $Change,

                            "ChangePercent" => $ChangePercent,

                            "Volume" => $Volume,

                            "OpenInterest" => $OpenInterest,

                            "ImpliedVolatility" => $ImpliedVolatility

    ));



}



foreach($html->find('#optionsPutsTable tr[data-row]') as $el){



    list($Strike,

        $ContractName,

        $Last,

        $Bid,

        $Ask,

        $Change,

        $ChangePercent,

        $Volume,

        $OpenInterest,

        $ImpliedVolatility)=preg_split('/[\s,]+/', trim($el->plaintext));



    array_push($Puts,array("Strike" => $Strike,

                            "ContractName" => $ContractName,

                            "Last" => $Last,

                            "Bid" => $Bid,

                            "Ask" => $Ask,

                            "Change" => $Change,

                            "ChangePercent" => $ChangePercent,

                            "Volume" => $Volume,

                            "OpenInterest" => $OpenInterest,

                            "ImpliedVolatility" => $ImpliedVolatility

    ));



}



print_r($Calls);

print_r($Puts);

Пример вывода:

Готовое решение выложил на гитхаб

427

siv1987

16 марта 2015, 19:58

#6

Раз пошла пьянка с решениями, то выложу и я свой вариант


$html = file_get_contents('http://finance.yahoo.com/q/op?s=GDX');

$doc  = new DOMDocument();

$doc->strictErrorChecking = false;

@$doc->loadHTML($html);



$table  = $doc->getElementsByTagName('table');

$result = array();



foreach(array(1,2) as $n){

	$tab  = $table->item($n);

	$ths  = $tab->getElementsByTagName('thead')->item(0);

	$ths  = $ths->getElementsByTagName('th');

	

	$type = $tab->getElementsByTagName('caption')->item(0)->textContent;

	$type = trim($type);

	$cell = array();

	

	foreach($ths as $th){

		$attr   = $th->getAttribute('class');

		$column = preg_match('/column-(\S+)/', $attr, $m) ? $m[1] : '';

		$cell[] = $column;

	}

	

	$tbody = $tab->getElementsByTagName('tbody')->item(0);

	$trs   = $tbody->getElementsByTagName('tr');

	

	foreach($trs as $tr){

		$tds = $tr->getElementsByTagName('td');

		$row = array();

		

		foreach($tds as $td){

			$row[] = trim($td->textContent);

		}

		

		$result[ $type ][] = array_combine($cell, $row);

	}

}



print_r($result);

Result:

437

totamon

16 марта 2015, 20:12

#7

да тут настоящий конкурс уже образовался, или курсы по парсингу) запишу в блокнотик решения на всякий случай, спасибо!

Домены и хостинг https://8fn.ru/regru | Дедик от 3000р https://8fn.ru/73 | VPS в Москве https://8fn.ru/72 | Лучшие ВПС, ТП огонь, все страны! https://8fn.ru/inferno | ХОСТИНГ №1 РОССИИ https://8fn.ru/beget

V

103

vantala

18 марта 2015, 11:14

#8

Ладно, конкурс так конкурс...

Первые два варианта по праву первенства уже присоединились к пьянке.

По остальным вариантам будет проведен тест на производительность.

Если предложенное решение быстрее ранее предлагавшихся, так и быть, проставляюсь еще и победителю 🍻

Окончание приема 19 марта 2015 23:59 МСК, оглашение итогов 20 марта.

Не ожидал такого отклика, спасибо всем откликнувшимся!

1

Конкурс на разработку названия Конкурс на баннер 240х400 Конкурс на логотип вебстудии.

427

siv1987

18 марта 2015, 14:53

#9

vantala:
По остальным вариантам будет проведен тест на производительность.

Тест на производительность понятие субъективное. Естественно регулярные выражения в скорости выигрывают перед парсингом DOM модели. За то поддерживать такой код легче, более понятен, чем парсинг на регулярках.

W

46

webjey

18 марта 2015, 15:36

#10

siv1987:
Тест на производительность понятие субъективное.

Полностью согласет с siv1987 сам делал упор на читабельность кода.Как насчет пригласить арбитра-программиста? Не только скорость ,но и логика ☝ Может SeVlad? Сам я болею за senks777 ,если он оформит свое решение в более читабельный вид.Думаю многим будет полезно.

Как яндекс определяет качество Копипаст vs Синомайз 3 дорвея на растерзание

Open AI тестирует память для ChatGPT

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ