Комментарии - Busgame - Профиль вебмастера - Форум об интернет-маркетинге

30 декабря 2012, 12:49

Принцип, то понятен, спасибо. Но убирать каждую отпарсенную в ручную - бред. Придется подумать над этим вопросом. За одно и над другими языками подумаю.

Как создать такой парсер?

30 декабря 2012, 12:39

отпарсенную ссылку из массива выкидываем.

каждую отпарсенную или только главную?

Как создать такой парсер?

30 декабря 2012, 12:22

вся загвоздка в п.1!

Во-первых, где взять список неотпарсенных ссылок.

Во-вторых, этот список постоянно обновляется. Причем с такой скоростью, что вручную это делать не возможно (хотя я сразу говорил, что вручную должен лишь написать этот скрипт).

---------- Добавлено 30.12.2012 в 16:23 ----------

DenisVS, спасибо за ваш туториал, тоже смотел в сторону Python, пока думаю: PHP, Perl или Python. Но, скорее всего возьму первый вариант.

Как создать такой парсер?

30 декабря 2012, 12:02

Dinozavr:
Busgame, без разницы.
вы знаете, что такое цикл?

Конечно знаю

---------- Добавлено 30.12.2012 в 16:02 ----------

Вы задавайте сразу несколько вопросов, а то серч ругается на короткие ответы.

Как создать такой парсер?

30 декабря 2012, 11:45

Dinozavr:
Busgame, вы можете вытащить со страницы ссылки?

Да, но делаю это в основном phpQuery. Могу и на регулярных, но с библиотеками удобней.

Как создать такой парсер?

30 декабря 2012, 11:30

Dinozavr, знаю. Но работа с ними порой затруднительна. Сейчас читаю книгу Джеффри Фридла по ним.

---------- Добавлено 30.12.2012 в 15:32 ----------

А как вы эту курлу заставляете посетить первую страницу?

curl_setopt($ch, CURLOPT_URL, $url);

Но тут то мы задаем этот урл, а нужно что бы он брался автоматически из тех, что находядтся на главной странице.

---------- Добавлено 30.12.2012 в 15:35 ----------

Dinozavr, могу отлучиться минут на 5 - 10, но плотно слежу за темой.

Как создать такой парсер?

30 декабря 2012, 11:20

Парсер должен работать без выключения и всегда выполнять свою работу, еще раз подчеркну, сайт постоянно обновляется, следовательно и парсер должен работать постоянно. В принципе, если php для такого количества подходит, то буду использовать его. Правда ума не приложу как эти курлы заставить по ссылкам переходить.

Как создать такой парсер?

30 декабря 2012, 11:02

Да, решений много конечно, но вас немного не туда понесло, хотя всех благодарю еще раз, за отзывчивость. Сайт, с которого будет происходить парсинг постоянно обновляется. Поэтому формирования единого сайтмапа не рационально. Парсинг будет бесконечным. Т.е. по сути дела, нужен небольшой бот - индексатор. Но при индексировании он не должен запоминать ключевых слов и урлы к этим ключам, как у поисковых систем. А всего навсего:

Проверка страницы - занесение фрагмента этой страницы в индекс - отображение пользователю.

Недавно вот прочел (тут), что реализовывать такую идею на php не стоит. Все ядро советуют делать на C, а веб-интерфейс на php.

Хотелось бы еще спросить, на чем написаны индексаторы Яндекса и Гугла. Возможно, выберу именно их язык, ведь он уже проверен. Основная задача будущего парсера - гулять по страницам, сравнивать, заносить в бд. Парсер должен быть сравнительно быстрым (заносить примерно 50 - 100 страниц в день). 100 страниц в день - не так уж много, но вы не забывайте что это число для занесения в бд, проверятся всего будет примерно около 2000 - 4000 страниц в день.

С удовольствием выслушаю ваши предположения и мысли. Еще раз спасибо за помощь.

P.S.: числа выше - стартовые, со временем они увеличатся.

Как создать такой парсер?

29 декабря 2012, 16:34

Список ссылок составить - не самое сложное. Как заставить скрипт переходить на внутренние страницы с этих ссылок - основной вопрос. Уже гуглил, cURL позволяют лишь по четко заданной ссылке переходить. Но мне нужно, чтобы ссылку для перехода он брал с той страницы, на которой находится сейчас сам (например, главной). Главная страница, естественно задается, но гулять по внутренним он должен самостоятельно.

Как создать такой парсер?

29 декабря 2012, 05:12

Большое всем спасибо, все кто отписался в теме, очень помогли.

Все что нужно знать о DDоS-атаках грамотному менеджеру

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Busgame