- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Для собственных целей был разработан скрипт для парсинга текста.
Парсер на данный момент состоит из 2ух частей.
1. Парсер выдачи ПС Google, Yahoo, Bing. Собирает нужное количество линков с топа и получает содержимое этих страниц.
2. Парсер текста со страниц которые были скачены. Вырезает значимый текст со страницы. Производит нормализацию текста(удаление всех тегов, разбивка на абзацы, удаление недопустимых символов не относящихся к тексту, удаление лишних пробелов и знаков припинания типа множественных знаков вопроса или восклицания), умеет вырезать коммент-спам из текста, на выходе кусок большого чистого текста.
Так же есть возможность добавить вывод статистики по тексту, кол-во предложений, слов, знаков, а так же статистику по ключевым словам.
Интересен ли будет такой веб-сервис дорвейщикам, рерайтерам, ещё кому-то.
И какие могут тут быть способы монетизации, например 0.10$ за мегабайт текста по запросу(цена с потолка), реклама, или что то ещё.
т.е. можно ли спарсить текст с англоязычного сегмента по нужным ключам?
Да, то есть вбивается ключ , берется например топ 10 трех ПС и грабятся 30 страниц, из них вырезается значимый текст, нормализуется и вам отдается уже чистый текст.
Конечно существуют моменты когда в конечный текст все таки попадают некоторые вещи не по теме(даты постов, никнеймы) редко, но бывает. Такого мусора менее 5% от общего текста(в большинстве случаев мусор отсутствует), и я ещё продолжаю работу над повышением степени очистки текста , так сказать.
ну тогда скажу что ручками почистить ети 5% будет не сложно, поетому мне бы было интересно чтоб статей себе поболее накалотить по своим ключам
boodda, Дак есть же такой софт уже и стоит недорого.
чтоб статей себе поболее накалотить по своим ключам
Это называется воровство.
boodda, если сделать онлайн-сервис и толково пропиарить, то можно и раскрутиться. Чем больше полезностей и меньше цена, тем лучше. :)
удобство веб сервиса может быть например в том что системы управления, а так же серверные доргены, могут получать тексты практически в реальном времени с помощью апи сервиса
boodda, либо использовать сервис для комплексного анализа плотности ключевых слов у сайтов из ТОП-10-30-100 и т.п.
Если будет спрос, авторы доргенов просто добавят такую фичу к себе и все. Сервис как отдельный проект не выживет, не тратьте свое время в пустую...
Я не претендую на роль гения кодера, но парсинг уже неплохо реализован и есть общее понимание куда двигаться далее для получения чистого текста, это раз.
Второе - сервис думаю будет полезен не только дорвейщикам, но и тем же рерайтерам.
Третье - возможными плюсами сервиса может быть не только получение самого текста, но и статистические данные о самом тексте, как в пределах одной конкретной страницы, либо сайта, либо группы сайтов в том числе топа поисковых систем.
boodda, Дак есть же такой софт уже и стоит недорого.
Как называется?