Parsing.guru - база контента, парсинг сайтов

JakoKruzo
На сайте с 04.06.2008
Offline
158
4923

Сделал сервис для покупки спарсенного контента - Parsing.guru.

Пользователи моих программ часто спрашивают, где взять много копипасты для различных целей, ведь поисковики уже не дают парсить себя так просто, как раньше. Так же мне нужно было большое количество текста для создания генератора статей (ещё не готов) на основе закономерности последовательностей слов (типа N-грамм). Так я решил написать универсальный парсер и спарсить контент напрямую с сайтов рунета. В результате получилось 25 млн. статей с 1,6 млн. сайтов, список которых я собрал ранее при парсинге гугла.

При парсинге автоматически определяются начало и конец статьи, удаляется не относящийся к статье контент. Статьи включают теги strong, i, u, h1-h4, img и перевод строки br. Для каждой статьи есть title и url. Статьёй считается определённый как основной контент текст с изображениями (если имеются) с любой страницы.

Статьи могут сохраняться как каждая в свой файл, так и все в один. Есть возможность задавать шаблон сохранения статей.

Чуть позже добавлю возможность отсева одинаковых статей (уже написал алгоритм и запустил процесс анализа, но из-за большого кол-ва статей он очень медленный).

Можно заказывать парсинг по вашему списку сайтов.

Сейчас цена за одну статью: $0.0005 (~29 руб. за 1000 статей). Если кому нужны все статьи, например для обучения нейронной сети, или сам парсер, пишите, договоримся.

За промо-кодом (указывается при регистрации) на $1 пишите в личку.

JakoKruzo
На сайте с 04.06.2008
Offline
158
#1

По парсеру: Набираю покупателей 20, кто готов $100 заплатить... или 10 по $200. Кто интересуется, пишите. Как наберётся, сразу всем продам.

Скрин:

Указываете список сайтов, и программа в многопоточном режиме парсит с них статьи и сохраняет каждую в свой файл (+ тайтл, заголовок, урл). Бурж тоже парсит.

dehis1213
На сайте с 09.04.2010
Offline
123
#2

Пишет не удалось отправить сообщение на почту, потом пишет что много регистраций с ип.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий