admak

Рейтинг
130
Регистрация
19.07.2010
Sterh:
Потому что три года назад "комбайна" было достаточно для работы с большинством сайтов. Как только поняли, что "уперлись" начали ковырять другие возможные варианты.
Admak:
вопрос: можно ли делать парсинг своими инструментами, а использовать расчет веса в Вашей програме?
Sterh:

Нет

Вы сами себе противоречите и держитесь за комбайн. :(

Сбор исходных данных - это трудоемкая и долгая рутина, с которой мужественно сражается каждый разработчик win программ. Тратя именно на этот кусок много сил, зачастую в ущерб основному функционалу.

Самое ценное - это математика (анализ, расчет, построение отчетов, подсказки, рекомендации)

Так почему же не сосредоточится именно на функционале, а не на рутине?

Почему не использовать открытый формат входных данных? Алгоритмы парсеров уже давно отработаны и не содержат внутри никаких секретов.

Технически - это просто замена функции from_url на from_odbc или from_mysql

При работе с большими сайтами, напрягает не нужная обезьянья работа:

запустил софт1 – тянется весь сайт, анализ1, отчет1

запустил софт2 – тянется тот же сайт, анализ2, отчет2

запустил софт3 – тянется тот же сайт, анализ3, отчет3

анализы начиная от банальной проверки на 404, редиректы, тайтлы, кейворды и т.д.

mark3000:

admak, У меня такие сквозняки со слэшем в конце на WP. Программа "заходит" и представляется браузером и поэтому попробуйте перейти по ссылке без слэша, он автоматически добавляется в браузере.

в данном случае "автоматически" - это 301 редирект.

адрес пациента и лог сервера сейчас сброшу в личку.

еще пример, первый попавшийся вордпрес, у него чпу со слешем, поэтому он "автоматически" добавляет слеш.

смотрим HTTP запросы к http://mywordpress.ru/about

(лишнее из дебага убрал)

---request begin---

GET /about HTTP/1.0

---response begin---
HTTP/1.1 301 Moved Permanently
Location: http://mywordpress.ru/about/

и затем в идет прозрачная отработка редиректа, который "автоматически" добавляет слеш:

301 Moved Permanently
Location: http://mywordpress.ru/about/ [following]

---request begin---
GET /about/ HTTP/1.0

---response begin---
HTTP/1.1 200 OK

страница получена.

linkoscop 3.15 триал, скачал сегодня утром - ошибка обработки последнего слеша

обычный вордпрес, сквозняк


<a href="http://domain.ru/about" title="About">About</a>

но linkoscop запрашивает с сервера http://domain.ru/about/ (с последним слешем, почему??)

соответсвенно получает законный 301 на http://domain.ru/about - это ему не нравится и он выбрасывает страницу в битые ссылки. таким же образом улетают категории(кроме трех) и часть тегов.

http://domain.ru/about не равно http://domain.ru/about/ , но linkoscop счтает что равны.

открываю отчет "Ссылки с переадресацией", вижу все без слешей:

куда указывает                       код

куда переадресовывает
http://domain.ru/about 301
http://domain.ru/about

запретить бингу лазить.

в robots.txt

User-agent: bingbot

Disallow: /

Очень заинтересовала эта программа, упоминали на одном семинаре.

Почитал топик, очень удивило:


Программа Page Weight вышла в свет более трех лет назад.

Функция остановки не реализована как раз потому, что не пишется в БД или файл - все в памяти.

не понятно зачем городить комбайн из двух совершенно разных задач?..

еще стандартный консольный wget на 32х метрах рама успешно выполнял функции парсера для "ленивых", успешно делая полные копии сайтов. (офтоп: до сих пор чекаю wget-ом свои сайты на 404 или редиректы)


Сейчас готов парсер для второй версии, где это все уже реализовано. Т.е. старт, стоп, парсинг отдельного раздела и прочее... И в новом варианте уже все пишется в БД.

тут две задачи: парсинг и расчет веса.

вопрос: можно ли делать парсинг своими инструментами, а использовать расчет веса в Вашей програме? данные затягивать или импортом или sql дампом. (по сути нужно передавать только два поля: урл и сам текст страницы).

хочется запускать парсинг на том же сервере, где и находится сайт с максимальной скоростью, а не отлавливать глюки инета и не ждать по 7-11 суток, как упоминалось в этом топике.

admak добавил 06.12.2011 в 00:02

Sterh:
Вообще действительно, в 95% случаев какие то баги программы - это баги кода сайтов.

немного не понятно, Ваш парсер выполняет яваскрипт?.. иначе чем мешает кривой код сайта? полностью пытаться разгрести DOM - безсмысленно. IMHO, обычного набора регулярок будет достаточно.

Ladycharm:
Яндекс выдает в серпе только одну страницу с домена, так что - только 10 разных доменов (поддомены не проканают).

PS: Прецедентов полного ТОП-10 от одного вебмастера ещё не было. Попадёте в книгу рекордов Гиннеса.

яндекс может все... (с) яндекс :)

/ru/forum/675911

еще дребезжащая строка разрывает мозг и хочется просто закрыть сайт.

или уберите бегущую строку совсем или сделайте ее на флеше.

mill.millioner:

Сотрудники Аваль банка опять ввели в заблуждение, уверяя, что теперь они обналичивают чеки быстро (в теч. 3 недель) и всего 2% - единственных и окончательных за обналичку. В итоге, оказалось что эта процедура действует только для чеков с небольшими суммами. Какой порог суммы объяснить не смогли.
С "большими" чеками - все-также долго и так же дорого. Сразу заплатил 2 %, потом еще с чека списали 2.5 %. 🤪

проверьте, 2.5 % = 10$

в авале 2% обнал, плюс с чеков больше 500$ списывается ровно 10$ - как утверждают сотрудники банка, это не их коммисия, а это списывает банк респондент за перевод в украину.

просьба ко всем: гляньте, плз, внимательно по своим цифрам, а не по тому, что говорят в банках..

списываются ли эти 10$ в других банках?


$str="тег1 , тег2,тег3";
echo preg_replace('/( +)?,( +)?/', ', ', $str);

ps: это набор постов? или банальное не желание думать...

еще вариант с регуляркой:


$str = "s, 2, 55, 465,";
$str=preg_replace('/\,$/', '.', $str);
Всего: 1235