Brand from Amber

Brand from Amber
Рейтинг
308
Регистрация
18.08.2007
zhidronsss:
принцип парсера (бота для выкачивания):
1. есть коллекция форумов
2. есть зареганные аккаунты в них
3. бот аторизуется
4. бот выкачивает новые посты
5. дальше получается массивы текста , с которым лично я ХЗ что делать дальше

То что с 1 по 4 это не парсинг - парсинг это как раз п.5 (с которым лично Вы Х3 что делать дальше).

Сcылка по теме (взята отсюда)

Что касается алгоритма, то он свой в каждом конкретном случае. Если в общих чертах, то:

  • запрашиваем страничку.
  • получаем информацию в HTML.
  • в полученной информации находим признаки постов (допустим на этом форуме каждый пост начинается - "<!-- message -->" и заканчивается "<!-- / message -->")
  • откидываем всю ненужную информацию (так сказать - "Очищаем" код).
  • получаем массив постов.

Это процесс парсинга... но это не самое сложное в поставленной ТС задаче. Самое сложное это индексация (как не отпарсить многократно одну и ту же страницу и т.п.) и организация поиска по индексу (если не говорить о "тупом" ЛАЙКЕ, а делать всё правильно)

ArPg:
Хочу сам разобраться и научиться

А что конкретно ТУТ (на форуме) узнать хотите? Что значит - "помогите с реализацией" - за Вас всё написать? Если нет, то задавайте конкретные вопросы.

P.S. На чём "кодить" планируете? ...ИМХО для парсинга лучше PERL-а ни чего не придумали ))

ArPg:
В принципе и вопрос в том как отпарсить сайты на дижках (в основном) vBulletin, phpBB и ucoz

ДЫК всё же просто! Для этого достаточно написать парсер. ☝ (в этом деле подробнее объяснить тяжело). Если не можете сами - вот Вам хороший специалист в этом деле.

P.S. Не стОит благодарностей ;)

ArPg, так если это Ваша "система обмена", то сделайте поиск по LIKE. Ну а если не Ваша, то парсите и.... "сделайте поиск по LIKE" (опять же) ;)

gtauter, Да какая там кодировка - до этого человек ещё не дошел. ТС пытается при установленном денвере, запрашивать файл не с него (по HTTP), а просто как обычный HTML через FILE.

ИМХО когда говорят о сквозняках, то в первую очередь имеют в виду Внешние Ссылки. В вашем случае (внутренней сквозной навигации) можно не париться вообще.

ArPg, а чем ваш индекс будет лучше (скажем) вот этого? ...неужели областью действия? А, если не секрет, зачем сиЁ нужно?

fedin, вся строчка не так. ...а особенно - "file:///". Инструкцию читать не пробовали? ...про веб-сервер (который будет интерпретировать PHP), и т.п.?

P.S. И вообще, для подобных вопросов есть отдельный раздел форума.

Человек - варезник в другом месте. Что установил, то и получил. Как исправить... ну ДЫК один совет - поставить лицензию (либо включить моСк).

Вы критики хотели ?! Так извольте ж:

  • style="width: 100%;" для элемента input (http://photo505.com/ru/faces/9609/viewFace/5e0b197acb5520b471b69068c287cb58) при вашей блочной вёрстке использовать нельзя.
  • При высоких разрешениях начинает теряться (в виде отступов по краям) "куча" полезного пространства.
  • Раздел "лица" (http://photo505.com/ru/faces) обязательно нужно сделать модерируемым
  • Качество дизайна оценить невозможно в виду отсутствия дизайна ;-)

P.S. ИМХО ещё один бесполезненький проектик аля http://www.magmypic.com/, но с гораздо более слабой (в отличие от последнего) идеей.

Всего: 3101