- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Почти всё сделал. Алгоритм полностью новый, основывается на анализе разметки. Очень хорошо парсит, со всеми тегами, таблицами, роликами и т.д. И при этом очень чисто, без всего лишнего.
Думаю, как быть со стилями элементов. Просто удалять их? Например, align картинок часто задаётся в css файле .leftimage{float: left;}, а в теге задаётся: <img class="leftimage">. При удалении class="leftimage" будет теряться расположение картинки.
Буржунет парсит?
InterVlad, да. На днях возобновлю продажу.
Сделал 3 режима: all, text, images.
Например, чтобы сохранять только картинки, нужно в файле настроек указать режим так:
*mode=images
Так теги картинок будут сохраняться целиком, в том виде, в котором они стоят на странице.
Можно указать свой формат:
*mode=images{<img src="[SRC]" alt="[ALT]">}
Кроме [SRC] и [ALT] ещё есть [KEY] и [ALTKEY]. [KEY] - выводит название статьи, а [ALTKEY] выводит alt или название статьи, если alt-а нет.
Чтобы сохранялся только текст, нужно указать режим так:
*mode=text
Сделал такую возможность. Например, чтобы статьи брались только из разделов decor/ и furniture/, надо указать сайт так:
sitename.ru*decor/*furniture/
При обходе страниц программа будет брать только статьи, в урлах которых есть указанные части.
Парсинг можно настраивать. В файле настроек можно указать, какие блоки оставлять, а какие удалять. Можно указать, какие атрибуты тегов оставлять. Пример файла настроек:
Можно включать-выключать парсинг роликов youtube, твитов, инстаграмма и прочих элементов.
Кроме ру тестил также на немецких и испанских сайтах. Получилось прямо то, что я давно хотел!
Новая цена - 2500 руб. ($44). Чтобы приобрести, пишите мне на JakoKruzo@mail.ru. Пишите сайты, спарсю для проверки.
P.S.
Для импорта в WordPress и другие движки есть специальные программы, такие как Цербер, Зеброид.
Сними видосов по настройке, парсингу, чтоб наглядно понимать что и как там нужно делать...
Думка, настраивать ничего не нужно. Скрин настроек я прикрепил просто для того, чтобы показать, что есть определённая гибкость.
Описание файла настроек:
1. *keyfilenames=1 - Статьи сохраняются в файлы с именами равными заголовкам статей. В качестве заголовка используется первый заголовок H, либо тайтл, если заголовка H нет. От тайтла берётся самая длинная часть. Если указать *keyfilenames=0, то имена будут вида: 13.03.2018-site.ru-18.txt.
2. *saveencoding=utf-8 - кодировка, в которой сохранять статьи.
3. *savetofolders=1 - для каждого сайта создаётся своя папка. *savetofolders=0 - все статьи будут сохраняться в папку articles.
4. *mode=all - режим. all - статья сохраняется целиком со всеми тегами, text - только текст, images - только картинки (выше я уже писал об этом).
5. *striplinks=1 - удалять теги ссылок, оставлять только анкор. *striplinks=0 - оставлять ссылки как есть.
6. *basicblocks=SPAN,OL,UL,TABLE,DIV - задаются базовые блоки. Не изменять!
7. *specialblocksdetect=instagram,twitter,youtube - обнаружение специальных блоков. Если внутри блока встречается указанный текст/код (один или более из перечисленных), то блок остаётся в неизменном виде.
8. *embedobjectsdetect=youtube.com/v/,youtube.com/embed,instagram.com/embed,twitter.com/widgets - работает так же, как и в предыдущем пункте, только для script, object, iframe. Нужно для определения кодов различных встраиваемых элементов (ролики, инстаграммы и прочее).
9. *keepattributes=style,src,align,alt,title,height,width,href - какие атрибуты тегов оставлять. Остальные удаляются.
10. *badblocksdetect=share{1000},подели,коммент... - работает как и specialblocksdetect, только не оставляет блоки, а удаляет. В фигурных скобках можно указывать максимальную длину блока, до которой делать проверку. По-умолчанию она равна 100. Например: share{1000} - значит, что если блок содержит слово share, и длина блока меньше 1000 символов, то удалять его.
11. *badlinksdetect= on,nofollow,share,data-pin - определение плохих ссылок. Если в теге ссылки содержится одна из перечисленных строк, то эта ссылка целиком удаляется.
12. *badlinkshrefdetect=#,script:,;,//disqus.com - работает так же, как и в предыдущем пункте, но проверяется вхождение в href. Т.е. если href ссылки содержит одну из стоп-строк, то ссылка удаляется.
13. *badlinksanchordetect=<div - работает так же, как и в предыдущем пункте, но проверяется вхождение в анкор.
14. *removeblocks=STYLE,noindex,map... - элементы (блочные и нет), которые сразу удаляются.
15. *remove=<P></P>,<P><BR></P>,<STRONG></STRONG>,<EM></EM> - то, что удалять. Если в статью попадает мусор, вносите его сюда.
Регистр не имеет значения. Не нужно перечислять <P></P>,<p></p>. Достаточно одного.
Приобрёл вчера данный парсер, всё отлично парсит в каком надо формате. Пробовал разные языки, текст чистый, если что и остается можно настроить через настройки, короче то что надо.
Сделал обновление 2.0.1. Внёс мелкие правки.
В файле настроек теперь можно указывать user-agent и ограничение вложенности страниц:
*useragent=Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36
*pagenestinglimit=99
Когда я массово парсил сотни тысяч сайтов, то попадались такие, на которых парсинг зацикливался из-за неправильных ссылок. Чтобы такого не происходило, я ввёл ограничение на вложенность страниц. Например, если установить 5, то страницы с уровнем вложенности более 5 не будут парситься.
JakoKruzo, а как с не мейнстримными языками работает?