Интересен ли будет сервис парсинга текста?

12
B
На сайте с 21.12.2009
Offline
28
2306

Для собственных целей был разработан скрипт для парсинга текста.

Парсер на данный момент состоит из 2ух частей.

1. Парсер выдачи ПС Google, Yahoo, Bing. Собирает нужное количество линков с топа и получает содержимое этих страниц.

2. Парсер текста со страниц которые были скачены. Вырезает значимый текст со страницы. Производит нормализацию текста(удаление всех тегов, разбивка на абзацы, удаление недопустимых символов не относящихся к тексту, удаление лишних пробелов и знаков припинания типа множественных знаков вопроса или восклицания), умеет вырезать коммент-спам из текста, на выходе кусок большого чистого текста.

Так же есть возможность добавить вывод статистики по тексту, кол-во предложений, слов, знаков, а так же статистику по ключевым словам.

Интересен ли будет такой веб-сервис дорвейщикам, рерайтерам, ещё кому-то.

И какие могут тут быть способы монетизации, например 0.10$ за мегабайт текста по запросу(цена с потолка), реклама, или что то ещё.

Адский Кодер Разработка и аудит безопасности сайтов/скриптов(PHP+MySQL) (/ru/forum/530575)
[Удален]
#1

т.е. можно ли спарсить текст с англоязычного сегмента по нужным ключам?

B
На сайте с 21.12.2009
Offline
28
#2

Да, то есть вбивается ключ , берется например топ 10 трех ПС и грабятся 30 страниц, из них вырезается значимый текст, нормализуется и вам отдается уже чистый текст.

Конечно существуют моменты когда в конечный текст все таки попадают некоторые вещи не по теме(даты постов, никнеймы) редко, но бывает. Такого мусора менее 5% от общего текста(в большинстве случаев мусор отсутствует), и я ещё продолжаю работу над повышением степени очистки текста , так сказать.

[Удален]
#3

ну тогда скажу что ручками почистить ети 5% будет не сложно, поетому мне бы было интересно чтоб статей себе поболее накалотить по своим ключам

sema_87
На сайте с 28.08.2009
Offline
249
#4

boodda, Дак есть же такой софт уже и стоит недорого.

Uh-Oh We're In Trouble, Something's Come Along And It's Burst Our Bubble!
ZoomY
На сайте с 07.11.2008
Offline
165
#5
Хипыч:
чтоб статей себе поболее накалотить по своим ключам

Это называется воровство.

boodda, если сделать онлайн-сервис и толково пропиарить, то можно и раскрутиться. Чем больше полезностей и меньше цена, тем лучше. :)

Размещу ваши статьи на сайтах с тИЦ до 1400 по 5$ (/ru/forum/846111) Сейчас многие ищут хостинг за пределами России. Ukrnames - один из лучших вариантов: (http://ukrnames.com/?ref_id=114) и лидер рынка, и привычно, и по-русски, и вне юрисдикции РФ.
B
На сайте с 21.12.2009
Offline
28
#6

удобство веб сервиса может быть например в том что системы управления, а так же серверные доргены, могут получать тексты практически в реальном времени с помощью апи сервиса

ZoomY
На сайте с 07.11.2008
Offline
165
#7

boodda, либо использовать сервис для комплексного анализа плотности ключевых слов у сайтов из ТОП-10-30-100 и т.п.

Gorodetskiy
На сайте с 17.07.2008
Offline
84
#8

Если будет спрос, авторы доргенов просто добавят такую фичу к себе и все. Сервис как отдельный проект не выживет, не тратьте свое время в пустую...

B
На сайте с 21.12.2009
Offline
28
#9

Я не претендую на роль гения кодера, но парсинг уже неплохо реализован и есть общее понимание куда двигаться далее для получения чистого текста, это раз.

Второе - сервис думаю будет полезен не только дорвейщикам, но и тем же рерайтерам.

Третье - возможными плюсами сервиса может быть не только получение самого текста, но и статистические данные о самом тексте, как в пределах одной конкретной страницы, либо сайта, либо группы сайтов в том числе топа поисковых систем.

S
На сайте с 02.05.2009
Offline
118
#10
sema_87:
boodda, Дак есть же такой софт уже и стоит недорого.

Как называется?

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий