Форум Практика оптимизации Doorways & Cloaking

Тестирование парсера текста - Вырезатор

106

Intdig

31 августа 2009, 11:44

935

Спешу представить вашему вниманию парсер русского текста для дорвейщиков, под прозаическим названием "Вырезатор".

Основная концепция этого скрипта - минималистический интерфейс, быстрая и автономная работа, максимальная очистка текста от "мусора", разделение тематики текста на уровне заданий.

Смысл работы заключается в следующем. Практически на любой странице рунета, есть русский текст. Это могут быть несколько предложений в аннотации какого-нибудь фильма, или десятки тысяч предложений в какой-нибудь электронной книге. В любом случае, это текст. Но на любой страничке, есть ещё и куча абсолютно ненужных нам тегов, в любой книжке есть тысячи диалогов, которые разумно превращать в обычные предложения, в любом тексте может встречаться ненужная нам информация: e-mail’ы, списки литературы, названия и нумерация глав и т.д. Вот из всего этого скрипт выбирает исключительно «текст», в виде предложений не короче N слов, где N – задаётся в настройках скрипта. В принципе у скрипта, всего-то две опции – список урлов для парсинга, и минимальное количество слов в предложениях, которые нам нужны. Всё остальное скрипт сделает сам.

Можете отпарсить хоть всю lib.ru или там wiki.

Вам мало русских источников? Урлы страниц на иностранных языках + Google Translate или аналогичный сервис + Вырезатор = куча нормальной текстовки

Вам нужна тематическая текстовка? Нет проблем.

Используя любой парсер поисковиков, например бесплатный AGGRESS Parser (http://vector-seo.info/?page_id=8) парсим выдачу любого поисковика по нужному вам слову. Например, парсим яндекс по слову «инновации» http://yandex.ru/yandsearch?text =инновации &yasoft=barff

Собираем все урлы, чекаем их на дубли, и скармливаем Вырезатору. Запускаем задание и получаем на выходе, огромный массив тематической текстовки.

Прогоняем через синонимайзер и получается совсем хорошо. :)

Всю латиницу парсер игнорирует по понятным причинам. Где-то 4-5% страниц от общего числа по непонятным пока причинам обрабатывать отказывается. Поддержка технологии "настроил - запустил, и ушёл спать" :) Гигабайты текста будут вас ждать по возвращении.

Пощупать можно тут http://parser.earnway.ru. Интересует ваше мнение по качеству парсинга, скорости и полезности. Уже замечено, что при просмотре в браузере - текст показывается одной строкой, но при просмотре в блокноте, всё ОК.

Стоит ли делать коммерческую версию без каких-либо ограничений и ценой до 10 баксов?

Закрытая партнёрка по Push трафику. (https://pushsender.pro) Инвайт: NR9LSZ89

Курс биткоина превысил $50 тысяч

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

Тестирование парсера текста - Вырезатор