Система сбора инфы в инете

P
На сайте с 03.06.2003
Offline
8
#11

Блин, как в анекдоте про воздушный шар, где мы находимся и математика/программиста.:D

Мне не нужно изучать перл, этим будут заниматься программеры, мне нужно знать откуда копать, теории построения, уже существующие системы. Я даже незнаю какая аббревиатура используется для обозначения таких систем, искать инфу сложно очень, для меня. Меня надо тыкнуть в урл, не важно на русском или английском, дальше я сам..

🚬

Станислав
Avatar
На сайте с 18.05.2003
Offline
168
#12

Паранойя, по моему я тебя знаю :) Ты у Нелли не обитаешь ;) ?

!Иван FXS
На сайте с 16.11.2001
Offline
119
#13
Паранойя, по моему я тебя знаю Ты у Нелли не обитаешь ?

Или на fxai? ;-)

Мне нужна инфа, основы работы таких систем, чтоб сформулировать конкретное свое видение и передать на разработку спецам...

Имхо, Вы описали задачу слишком специфическую и узкую, - для того, чтобы можно было говорить об "основах" да еще "таких систем" (в множественном числе!) ...

Вот как Вы описали - так она (они?) и должна работать:

Список сайтов которые надо посещать, формируется вручную.
...
Искать заданные словосочетания, в темах, в тексте. Заданные по списку.
...
а может сама ищет сайты, типа поискового робота.
...
Правила обработки текстов, поиска, включения сайта в один из списков обработки.
...
Сортирует по дате, по сайту, по вычисленной информативности текста. Складывает туда, куда скажут.

- вот именно так она и должна работать, какие еще "основы"?

Так и ставьте задание программистам, чего тут непонятного?

НП, Иван FXS .

[Удален]
#14
Как писал paranoya
1) "определенные сайты"
Цель темы проста, вместо того чтобы по этим сайтам ходил человек и читал на них инфу и выбирал что нужно а что нет, пусть большую часть делает система, а человек уже решает то или не то. Так как возможности сажать кучу людей на поиск и копирование инфы, смысла нету, затраты не будут окупаться....

Perl с LWP + регулярные выражения + какая-то база. Нюансы по тех.заданию можно выяснить с программером в личной переписке. Я, например, взялся бы за такую работу... Может интересная прога получиться.

N
На сайте с 14.11.2001
Offline
53
nis
#15
Как писал !Иван FXS



Имхо, Вы описали задачу слишком специфическую и узкую, - для того, чтобы можно было говорить об "основах" да еще "таких систем" (в множественном числе!) ...

Это вы зря.

Задача генерации запросов вероятно не совсем тривиальна (даже метапоисковые системы мучаются), а здесь надо переформулировать.

Если же речь идет еще и поисковом роботе,

то это еще сложнее поскольку кроме описания

цели поиска нужна еще и стратегия.

Это в англоязычной литературе обычно называют

focused или topical crawling.

Можно например посмотреть статью с www 2003 или предыдущие конференции, чтобы получить представление о том как это делается.

Если правила обработки текстов подразумевают

извлечение информации или трансформацию, то

возможно потребуются нетривиальные методы

information extraction.

Вообщем все очень сильно зависит от того какое качество результатов вы хотите получить и о каком объеме информации идет речь.

VT
На сайте с 27.01.2001
Offline
130
#16

Кстати говоря, подобная проблема на форуме уже

обуждалась.

По решению этой задачи - по моему опыту, техническое задание занимает ни много, ни мало, но около 50 листов. Правда, с учетом того, что полученную информацию нужно еще структурировать, то есть определять тематику, извлекать тексты и атрибуты собранных документов.

За месяц такую программу не напишешь.

NL
На сайте с 29.01.2003
Offline
212
#17
За месяц такую программу не напишешь.

А надо ли такую программу вообще писать? Судя по запредельным пожеланиям paranoya мечтает о неком АРМ для SEO. А у этих людей, как я понял, уже выработался свой профессиональный стиль - и что потребуется одному, то совешенно будет излишним для другого. Невозможно написать "универсальную" программу!

!Иван FXS
На сайте с 16.11.2001
Offline
119
#18
Как писал NULL
мечтает о неком АРМ для SEO.

Глоссарий бы не помешал ... Что такое SEO?

НП, Иван FXS.

P
На сайте с 03.06.2003
Offline
8
#19

У Нелли - да

У форекса - нет

Объясняю что нужно...

Постоянно сидеть в инете и искать сайты посвещенные тематике, например меня сейчас интересует электорнный документооборот, так вот, искать сайты и тратить деньги на подключение в инет или нанимать кучу людей которые ущут эти сайты, читают на них статьи и если это то что надо, то копируют локально - это то же дорого, проще система ищет сайты посвещенные документооборту, копирует оттуда статьи, раз в час это все сбрасывается локально и народ уже оттуда выбирает и что нужно оставляет, а что нет, то убивает и дает системе заданиене ходить больше на этот сайт. Ну и периодически кроме поиска новых сайтов по тематике, заходит на старые и скачивает новое......

vmegap
На сайте с 03.02.2002
Offline
158
#20

Такой вот спам прислали:

---------------------------------------------------

НОВОСТИ ИНФОРМАЦИОННЫХ АГЕНТСТВ ON LINE НА ОДНОМ ЭКРАНЕ

Уважаемые господа!

Открывается новый сервис в сети Интернет.ОЮХГЮЧ МЦГНЧ

Теперь у Вас есть возможность читать новости различных информационных агентств на одном экране с помощью предлагаемой информационной системы.FGZJHZ

Данная система представляет из себя отдельное программное обеспечение, которое устанавливается на ваш компьютер и позволяет получать новости от нескольких, выбранных вами, информационных агентств в едином формате на одном экране в режиме on-line. Новости транслируются за 48 часов и находятся в свободном доступе.COUHXP

Дополнительные возможности системы позволяют производить поиск, фильтрацию и сохранение важных для вас сообщений.UECW HMHMS

Дистрибутив системы Вы можете скачать по адресу: http://www.onlinenews.ru

P.S. Данная рассылка произведена с использованием легальной базы данных электронных адресов, полученных из открытых источников.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий