Вы сами себе противоречите и держитесь за комбайн. :(
Сбор исходных данных - это трудоемкая и долгая рутина, с которой мужественно сражается каждый разработчик win программ. Тратя именно на этот кусок много сил, зачастую в ущерб основному функционалу.
Самое ценное - это математика (анализ, расчет, построение отчетов, подсказки, рекомендации)
Так почему же не сосредоточится именно на функционале, а не на рутине?
Почему не использовать открытый формат входных данных? Алгоритмы парсеров уже давно отработаны и не содержат внутри никаких секретов.
Технически - это просто замена функции from_url на from_odbc или from_mysql
При работе с большими сайтами, напрягает не нужная обезьянья работа:
запустил софт1 – тянется весь сайт, анализ1, отчет1
запустил софт2 – тянется тот же сайт, анализ2, отчет2
запустил софт3 – тянется тот же сайт, анализ3, отчет3
анализы начиная от банальной проверки на 404, редиректы, тайтлы, кейворды и т.д.
в данном случае "автоматически" - это 301 редирект.
адрес пациента и лог сервера сейчас сброшу в личку.
еще пример, первый попавшийся вордпрес, у него чпу со слешем, поэтому он "автоматически" добавляет слеш.
смотрим HTTP запросы к http://mywordpress.ru/about
(лишнее из дебага убрал)
---request begin--- GET /about HTTP/1.0 ---response begin--- HTTP/1.1 301 Moved Permanently Location: http://mywordpress.ru/about/ и затем в идет прозрачная отработка редиректа, который "автоматически" добавляет слеш: 301 Moved Permanently Location: http://mywordpress.ru/about/ [following] ---request begin--- GET /about/ HTTP/1.0 ---response begin--- HTTP/1.1 200 OK
linkoscop 3.15 триал, скачал сегодня утром - ошибка обработки последнего слеша
обычный вордпрес, сквозняк
<a href="http://domain.ru/about" title="About">About</a>
но linkoscop запрашивает с сервера http://domain.ru/about/ (с последним слешем, почему??)
соответсвенно получает законный 301 на http://domain.ru/about - это ему не нравится и он выбрасывает страницу в битые ссылки. таким же образом улетают категории(кроме трех) и часть тегов.
http://domain.ru/about не равно http://domain.ru/about/ , но linkoscop счтает что равны.
открываю отчет "Ссылки с переадресацией", вижу все без слешей:
куда указывает код куда переадресовывает http://domain.ru/about 301 http://domain.ru/about
запретить бингу лазить.
в robots.txt
User-agent: bingbot Disallow: /
Очень заинтересовала эта программа, упоминали на одном семинаре.
Почитал топик, очень удивило:
не понятно зачем городить комбайн из двух совершенно разных задач?..
еще стандартный консольный wget на 32х метрах рама успешно выполнял функции парсера для "ленивых", успешно делая полные копии сайтов. (офтоп: до сих пор чекаю wget-ом свои сайты на 404 или редиректы)
тут две задачи: парсинг и расчет веса.
вопрос: можно ли делать парсинг своими инструментами, а использовать расчет веса в Вашей програме? данные затягивать или импортом или sql дампом. (по сути нужно передавать только два поля: урл и сам текст страницы).
хочется запускать парсинг на том же сервере, где и находится сайт с максимальной скоростью, а не отлавливать глюки инета и не ждать по 7-11 суток, как упоминалось в этом топике.
admak добавил 06.12.2011 в 00:02
немного не понятно, Ваш парсер выполняет яваскрипт?.. иначе чем мешает кривой код сайта? полностью пытаться разгрести DOM - безсмысленно. IMHO, обычного набора регулярок будет достаточно.
яндекс может все... (с) яндекс :)
/ru/forum/675911
еще дребезжащая строка разрывает мозг и хочется просто закрыть сайт.
или уберите бегущую строку совсем или сделайте ее на флеше.
проверьте, 2.5 % = 10$
в авале 2% обнал, плюс с чеков больше 500$ списывается ровно 10$ - как утверждают сотрудники банка, это не их коммисия, а это списывает банк респондент за перевод в украину.
просьба ко всем: гляньте, плз, внимательно по своим цифрам, а не по тому, что говорят в банках..
списываются ли эти 10$ в других банках?
$str="тег1 , тег2,тег3"; echo preg_replace('/( +)?,( +)?/', ', ', $str);
ps: это набор постов? или банальное не желание думать...
еще вариант с регуляркой:
$str = "s, 2, 55, 465,"; $str=preg_replace('/\,$/', '.', $str);