Парсер постов форумов

12
Sigizmund
На сайте с 05.09.2008
Offline
38
#11
Brand from Amber:
ДЫК всё же просто! Для этого достаточно написать парсер. ☝ (в этом деле подробнее объяснить тяжело). Если не можете сами - вот Вам хороший специалист в этом деле.

P.S. Не стОит благодарностей ;)

Спасибо за рекомендацию!

Все полезное здесь: http://orthomedia.ru/ (http://orthomedia.ru/)
AP
На сайте с 20.05.2008
Offline
4
#12

Конкретно интересует алгоритмы работы парсеров для данных видов движков и информация о принципах написания парсеров.

PG
На сайте с 14.10.2007
Offline
28
#13
ArPg:
Конкретно интересует алгоритмы работы парсеров для данных видов движков и информация о принципах написания парсеров.

http://www.j369.ru/?p=30

http://www.j369.ru/?p=32

zhidronsss
На сайте с 12.10.2007
Offline
36
#14

если 1-2 форума парсить то на php можно делать, если больше на perl-100% иначе будет долго

принцип парсера (бота для выкачивания):

1. есть коллекция форумов

2. есть зареганные аккаунты в них

3. бот аторизуется

4. бот выкачивает новые посты

5. дальше получается массивы текста , с которым лично я ХЗ что делать дальше

пункты 1-4 баков за 200 тебе реализуют думается мне

PilotGarry -спасибо за ссылки

Brand from Amber
На сайте с 18.08.2007
Offline
291
#15
zhidronsss:
принцип парсера (бота для выкачивания):
1. есть коллекция форумов
2. есть зареганные аккаунты в них
3. бот аторизуется
4. бот выкачивает новые посты
5. дальше получается массивы текста , с которым лично я ХЗ что делать дальше

То что с 1 по 4 это не парсинг - парсинг это как раз п.5 (с которым лично Вы Х3 что делать дальше).

Сcылка по теме (взята отсюда)

Что касается алгоритма, то он свой в каждом конкретном случае. Если в общих чертах, то:

  • запрашиваем страничку.
  • получаем информацию в HTML.
  • в полученной информации находим признаки постов (допустим на этом форуме каждый пост начинается - "<!-- message -->" и заканчивается "<!-- / message -->")
  • откидываем всю ненужную информацию (так сказать - "Очищаем" код).
  • получаем массив постов.

Это процесс парсинга... но это не самое сложное в поставленной ТС задаче. Самое сложное это индексация (как не отпарсить многократно одну и ту же страницу и т.п.) и организация поиска по индексу (если не говорить о "тупом" ЛАЙКЕ, а делать всё правильно)

Лучший способ понять что-то самому - объяснить это другому.
N
На сайте с 06.05.2007
Offline
419
#16

масса ньюансов, но не так уж сложно с п. 5:

для зарегистрированных обычно есть ссылка "показать все новые темы с последнего визита".

почти все форумы следуют структуре раздел-тема-пост и сохраняют уникальные ид (кое-кто даже предложил альтернативный интерфейс RSS для форумов, но распространения пока не получил)

для поиска есть полнотекстовый поиск mysql, который на начальном этапе проект будет удовлетворительным.

а дальше вам надоест, вы поймете что на ваши деньги выгодней купить квартиру и сдавать ее :)

Кнопка вызова админа ()
Brand from Amber
На сайте с 18.08.2007
Offline
291
#17
netwind:
для поиска есть полнотекстовый поиск mysql, который на начальном этапе проект будет удовлетворительным

Как вы думаете, долго ли подобный поиск сможет удовлетворять если речь пойдёт о индексации SE? 😂

N
На сайте с 06.05.2007
Offline
419
#18

Brand from Amber, это уже детали. яндекс и гугл друг-друга ведь не задосили до сих пор.

другое дело, что постановка вопроса вида "а может уже кто-то делал" показывает что инвестиций там нет.

Brand from Amber
На сайте с 18.08.2007
Offline
291
#19

netwind, Вы ещё скажите, что Яндекс сам себя не "задосил" - ПС-ы не индексируют выдачу друг-друга. Да и речь в моём случае шла об отношении объёма проиндексированной информации к "полнотекстовому поиску по mysql". ...ну да не суть - отклоняемся от темы.

Daraya
На сайте с 24.11.2008
Offline
5
#20

это черный метод и к нему нежелательно прибегать ИМХО

Пример дизайна сайтов и логотипов (http://klooop.ru/portfolio/index.htm) Нужны площадки для раскрутки статьями сайта Школы имиджа (http://www.rcschool.ru/)
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий