- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Имхо, универсального нет, под каждый шаблон сайта надо писать свой модуль. Ибо простое выдирание тегов приводит к искажению структуры информации. Это если нужна структура. Если только текст, то там проще.
школьнег_29A, у меня самописный (не продаеццо).
у меня тож самописных 2шт правда заточенные под конкретные сайты, у вас универсальный?
у меня тож самописных 2шт правда заточенные под конкретные сайты, у вас универсальный?
Ага, универсальный, под конкретный сайт настраивается за пару минут... сам алгоритм является секретом. скажу только, что
а) авто определение кодировки(используется http meta, http header а также собственная библиотека распознование рус кодировок)
б) сделана мощная файловая структура, проект может хранить несколько миллионов статей
в) многопоточность
г) скорость работы в одном потоке до 1 страницы в секунду(с учётом загрузки, обработки и записи)
д) для парсинга текста используется гибко настраиваемый шаблон, в котором указывается, где находится текст и title.
е) фильтр url, в котором указывается на каких url можно парсить контент
ж) бот маскируется известными поисковиками
д) встроенный синонимайзер
и) построен с учётом практики ООП и TDD (для обеспечения стабильности)
к) модули экспорта в известные скрипты блогов
м) сейчас пишется графическая форма управления этим всем добром...
у меня тоже есть что-то подобное, только без потоков
но встроен синонимайзер
заточенное для генерации кучи сайтов
статьи, тайтлы и рандомные установки забиваются в базу движка который настроен на мультисайтинг
Ласто сплог делает кстати не мало - грабит новость, синонимизирует...
Ага, универсальный, под конкретный сайт настраивается за пару минут... сам алгоритм является секретом. скажу только, что
а) авто определение кодировки(используется http meta, http header а также собственная библиотека распознование рус кодировок)
б) сделана мощная файловая структура, проект может хранить несколько миллионов статей
в) многопоточность
г) скорость работы в одном потоке до 1 страницы в секунду(с учётом загрузки, обработки и записи)
д) для парсинга текста используется гибко настраиваемый шаблон, в котором указывается, где находится текст и title.
е) фильтр url, в котором указывается на каких url можно парсить контент
ж) бот маскируется известными поисковиками
д) встроенный синонимайзер
и) построен с учётом практики ООП и TDD (для обеспечения стабильности)
к) модули экспорта в известные скрипты блогов
м) сейчас пишется графическая форма управления этим всем добром...
крут :) кста, статьи в БД хранишь? я пока спи.. ээ т.е спарсил около 1000 статей - mysql пока вывозит, если речь о миллионах идет придется чтото другое юзать?
синонимайзер свой или с синонимайзер.ру? я свой как то писал но не сподобился туда больше 100 слов набить 😎
речь идет об универсальном 8) а не о таком чтобы подгонять под каждый сайт
речь идет об универсальном 8) а не о таком чтобы подгонять под каждый сайт
Хе) времени на один сайт уходит в среднем 4 минуты, а улов около 1-5k статей, не думайте, что улов хороший? А универсальность нереальна, а существующие универсальные парсеры гребут говна лишнего (пример ластосплог). Лучше тратить 4 минуты на сайт, чем иметь куча напарсенного г****? А если напарсить говноконтента, так проги типа диско качалка, офлайн эксплоэр и т.п...
крут :) кста, статьи в БД хранишь? я пока спи.. ээ т.е спарсил около 1000 статей - mysql пока вывозит, если речь о миллионах идет придется чтото другое юзать?
синонимайзер свой или с синонимайзер.ру? я свой как то писал но не сподобился туда больше 100 слов набить 😎
Mysql не использую, она показывает плохие результаты, особенно при фильтрации названий отпарсенных статей. Использую свою собственную файловую БД, построенную исключительно для этой задачи.
Синонимайзер - сейчас используем базу с синонимайзера
/ru/forum/210018 (лучше не встречал, не очень большая, но относительно качественная.)
Mysql не использую, она показывает плохие результаты, особенно при фильтрации названий отпарсенных статей.
Гм.. С каких пор мускул стал она? И вообще что за бред вы несете насчетплохих результатов работы мускула? Может вы дефолтный конфиг юзаете? Или на дешевом впсе с 256 метрами подняли свой мускул? Уверен что мускул работает на порядок быстрее и надежнее вашей самописаной БД. Так как над мускулом работает не один "гений самоучка" ;)
Еще могу посоветовать Вам почитать мануал мускула на тему ключиков ;) И тогда даже Ваши сверх сложные "фильтрации названий отпарсенных статей" будут фильтроваться очень хорошо ☝
Поищите в гугле
Tune mysql и тогда поймете как должен _нормально_ работать сервер баз данных.
p.s. Просто смешно читать такие посты - всемирно известный продукт который используют в своих проектах множество огромных компаний - уйня! Использую свой написанный на коленке ;)
Чао.
firacet
о всезнающий салобон, расскажите нам пожалуйста, как таки делать деньги?