xlex

Рейтинг
16
Регистрация
15.05.2004

Насколько я понимаю, правильнее это называется information retrieval, по двум причинам:

- data mining - это работа с базами данных;

- сама новость - это информация, все остальное - шум, так что это более retrieval, нежели чем mining (одно из основных значений которого, кстати, является "разработка месторождения").

Насчёт Новотеки - насколько я помню (у меня был вариант предоставления им информации, если ничего не путаю) и понимаю (смотря на сайт сейчас), Игорь (Ашманов) решил сделать что-то лучше или что-то отличное от Яндекс.News, в основе которого лежит экспорт данных партнером в формате RSS.

Что меня утверждает в этой мысли - это направленность и подкованность Игоря в обработке уже имеющейся информации (как раз таки data mining) - а это отдельная большая задача, для которой ещё и извлечение информации из интернетовского мусора - просто лишняя большая обуза.

!Иван FXS:
Шаблоны исправлять должен все-таки наверное персонал сервиса ... вряд ли софт.

Наводку - увы: помню только, что было .. а где?

Софт - это инструмент, а не то, что принимает решения, так что я про это ничего и не говорил...

!Иван FXS:
Кроме того, эти шаблоны нужно еще и отслеживать (поддерживать в адекватном состоянии), поскольку структура сайтов время от времени меняется ...

И чтобы это было удобно и вообще возможно было сделать для значительного количества сайтов - нужен "правильный" софт - это и является задачей.

Подобный Российский сервис я не находил, буду благодарен за наводку.

Только одна проблема: уникального шаблона нет и не будет (при существующем раскладе дел) - шаблон должен быть разным для каждого сайта (к сожалению).

С авторскими правами это тоже улаживается.

!Иван FXS:
Нет АБСТРАКТНОЙ задачи "забрать контент со страницы". Такие задачи - всегда КОНКРЕТНЫ.

Именно конкретикой задачи определяется: что брать, откуда брать, как обрабатывать, куда класть ...

Я и не говорил, что есть "абстрактная задача". Есть чёткая задача - забрать новости с сайта и положить их, например, в базу данных. Новость - это тема, тело сообщения и приложения к ней (картинки).

aleseme:
Остался при мнении, что сделать реально, но явно не в 100 строк кода.

У меня тоже начиналось как для своих корыстынх целей.

Сделать - реально, но, к сожалению:

- не автоматически (машина на это, на должном уровне, пока не способна);

- не легко (от человека потребуется определённые знания, которые, впрочем вполне могут быть заложены в течении, максимум, недели).

Объём кода - на самом деле, чем больше, тем лучше - проще в использовании, потому что большинство вещей завязаны на обработку ошибок и нестандартных ситуаций. Кроме того, чем больше заложить в программу "страндартностей" сайтов - тем легче с этим работать (а, стало быть, быстрее создавать инструкции для извлечения информации).

Иван, нечто подобное есть - называется RoboSuite.

Большой и очень дорогой инструмент, но, например, новости им извлекать неудобно.

Я хочу сделать tool, который будет позволять извлекать информацию из неограниченного количества источников, который при этом было бы удобно использовать человеку, с технической базой (без оной, к сожалению, решения не вижу). Кроме того, есть желание сделать её максимально с использованием имеющихся наработок.

!Иван FXS:
А будет ли то, что Вы хотите сделать, лучше, чем, например, www.awasu.com ?

Будет, потому что Awasu и ему подобные, работают только с RSS информацией и, точнее, только с теми данными, которые владелец сайта туда захочет поставить.

Чаще всего, для того, чтобы посмотреть самое нужное и интересное нужно заходить на сам сайт. Именно для того, чтобы с сайта забирать всё, что нужно, а не только то, что даёт сам сайт и нужна эта программа.

Artisan:
Те кто все это может предоставить тоже захотят стандартный комплект из бизнес плана и технического задания.

Понимаю, не проблема.

Artisan:
Обычно это разные программисты то есть их надо два как минимум.

Возможно в начале обойтись и одним - десктопным.

!Иван FXS:
- совершенно непонятно, о чем Вы спрашиваете

Пардон, поясняю: ищу работу с работниками - потому что один это реализовать сейчас не смогу.

Для реализации нужно финансирование, работники и время (стандартный комплект).

СКОРПИОН:
У меня есть такая собственная разработка.
Основная идея заключается в наборах регулярных выражений, которым соответсвуют xml-шаблоны. Xml-шаблонам соответствуют таблицы и поля базы данных.
Работает на лету. Реализовано на PHP. Около сотни строк кода.

Если идея - в том, чтобы вытаскивать содержимое (заголовок, саму новость, картинки и другие приложения связанные с ней) посредством регулярных выражений, то, как мне кажется, это тяжело поддерживать, особенно для количества сайтов >100 (раз) и тяжело писать (два).

Кроме того, в сотне строк кода вряд ли можно уложить регулряности встречающиеся на сайтах и вряд ли это будет "user friendly", хотя, конечно, не могу судить не видя продукта.

Насчёт языка программирования - я сначала тоже делал на PHP (на чем умел), но сейчас учу C#@.Net/Mono - так как с моей точки зрения это более подходящий выбор (при том же автоматическом управлении памятью).

123 4
Всего: 36