- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Спешу представить вашему вниманию парсер русского текста для дорвейщиков, под прозаическим названием "Вырезатор".
Основная концепция этого скрипта - минималистический интерфейс, быстрая и автономная работа, максимальная очистка текста от "мусора", разделение тематики текста на уровне заданий.
Смысл работы заключается в следующем. Практически на любой странице рунета, есть русский текст. Это могут быть несколько предложений в аннотации какого-нибудь фильма, или десятки тысяч предложений в какой-нибудь электронной книге. В любом случае, это текст. Но на любой страничке, есть ещё и куча абсолютно ненужных нам тегов, в любой книжке есть тысячи диалогов, которые разумно превращать в обычные предложения, в любом тексте может встречаться ненужная нам информация: e-mail’ы, списки литературы, названия и нумерация глав и т.д. Вот из всего этого скрипт выбирает исключительно «текст», в виде предложений не короче N слов, где N – задаётся в настройках скрипта. В принципе у скрипта, всего-то две опции – список урлов для парсинга, и минимальное количество слов в предложениях, которые нам нужны. Всё остальное скрипт сделает сам.
Можете отпарсить хоть всю lib.ru или там wiki.
Вам мало русских источников? Урлы страниц на иностранных языках + Google Translate или аналогичный сервис + Вырезатор = куча нормальной текстовки
Вам нужна тематическая текстовка? Нет проблем.
Используя любой парсер поисковиков, например бесплатный AGGRESS Parser (http://vector-seo.info/?page_id=8) парсим выдачу любого поисковика по нужному вам слову. Например, парсим яндекс по слову «инновации» http://yandex.ru/yandsearch?text =инновации &yasoft=barff
Собираем все урлы, чекаем их на дубли, и скармливаем Вырезатору. Запускаем задание и получаем на выходе, огромный массив тематической текстовки.
Прогоняем через синонимайзер и получается совсем хорошо. :)
Всю латиницу парсер игнорирует по понятным причинам. Где-то 4-5% страниц от общего числа по непонятным пока причинам обрабатывать отказывается. Поддержка технологии "настроил - запустил, и ушёл спать" :) Гигабайты текста будут вас ждать по возвращении.
Пощупать можно тут http://parser.earnway.ru. Интересует ваше мнение по качеству парсинга, скорости и полезности. Уже замечено, что при просмотре в браузере - текст показывается одной строкой, но при просмотре в блокноте, всё ОК.
Стоит ли делать коммерческую версию без каких-либо ограничений и ценой до 10 баксов?