- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Имхо, универсального нет, под каждый шаблон сайта надо писать свой модуль. Ибо простое выдирание тегов приводит к искажению структуры информации. Это если нужна структура. Если только текст, то там проще.
школьнег_29A, у меня самописный (не продаеццо).
у меня тож самописных 2шт правда заточенные под конкретные сайты, у вас универсальный?
у меня тож самописных 2шт правда заточенные под конкретные сайты, у вас универсальный?
Ага, универсальный, под конкретный сайт настраивается за пару минут... сам алгоритм является секретом. скажу только, что
а) авто определение кодировки(используется http meta, http header а также собственная библиотека распознование рус кодировок)
б) сделана мощная файловая структура, проект может хранить несколько миллионов статей
в) многопоточность
г) скорость работы в одном потоке до 1 страницы в секунду(с учётом загрузки, обработки и записи)
д) для парсинга текста используется гибко настраиваемый шаблон, в котором указывается, где находится текст и title.
е) фильтр url, в котором указывается на каких url можно парсить контент
ж) бот маскируется известными поисковиками
д) встроенный синонимайзер
и) построен с учётом практики ООП и TDD (для обеспечения стабильности)
к) модули экспорта в известные скрипты блогов
м) сейчас пишется графическая форма управления этим всем добром...
у меня тоже есть что-то подобное, только без потоков
но встроен синонимайзер
заточенное для генерации кучи сайтов
статьи, тайтлы и рандомные установки забиваются в базу движка который настроен на мультисайтинг
Ласто сплог делает кстати не мало - грабит новость, синонимизирует...
Ага, универсальный, под конкретный сайт настраивается за пару минут... сам алгоритм является секретом. скажу только, что
а) авто определение кодировки(используется http meta, http header а также собственная библиотека распознование рус кодировок)
б) сделана мощная файловая структура, проект может хранить несколько миллионов статей
в) многопоточность
г) скорость работы в одном потоке до 1 страницы в секунду(с учётом загрузки, обработки и записи)
д) для парсинга текста используется гибко настраиваемый шаблон, в котором указывается, где находится текст и title.
е) фильтр url, в котором указывается на каких url можно парсить контент
ж) бот маскируется известными поисковиками
д) встроенный синонимайзер
и) построен с учётом практики ООП и TDD (для обеспечения стабильности)
к) модули экспорта в известные скрипты блогов
м) сейчас пишется графическая форма управления этим всем добром...
крут :) кста, статьи в БД хранишь? я пока спи.. ээ т.е спарсил около 1000 статей - mysql пока вывозит, если речь о миллионах идет придется чтото другое юзать?
синонимайзер свой или с синонимайзер.ру? я свой как то писал но не сподобился туда больше 100 слов набить 😎
речь идет об универсальном 8) а не о таком чтобы подгонять под каждый сайт
речь идет об универсальном 8) а не о таком чтобы подгонять под каждый сайт
Хе) времени на один сайт уходит в среднем 4 минуты, а улов около 1-5k статей, не думайте, что улов хороший? А универсальность нереальна, а существующие универсальные парсеры гребут говна лишнего (пример ластосплог). Лучше тратить 4 минуты на сайт, чем иметь куча напарсенного г****? А если напарсить говноконтента, так проги типа диско качалка, офлайн эксплоэр и т.п...
крут :) кста, статьи в БД хранишь? я пока спи.. ээ т.е спарсил около 1000 статей - mysql пока вывозит, если речь о миллионах идет придется чтото другое юзать?
синонимайзер свой или с синонимайзер.ру? я свой как то писал но не сподобился туда больше 100 слов набить 😎
Mysql не использую, она показывает плохие результаты, особенно при фильтрации названий отпарсенных статей. Использую свою собственную файловую БД, построенную исключительно для этой задачи.
Синонимайзер - сейчас используем базу с синонимайзера
/ru/forum/210018 (лучше не встречал, не очень большая, но относительно качественная.)
Mysql не использую, она показывает плохие результаты, особенно при фильтрации названий отпарсенных статей.
Гм.. С каких пор мускул стал она? И вообще что за бред вы несете насчетплохих результатов работы мускула? Может вы дефолтный конфиг юзаете? Или на дешевом впсе с 256 метрами подняли свой мускул? Уверен что мускул работает на порядок быстрее и надежнее вашей самописаной БД. Так как над мускулом работает не один "гений самоучка" ;)
Еще могу посоветовать Вам почитать мануал мускула на тему ключиков ;) И тогда даже Ваши сверх сложные "фильтрации названий отпарсенных статей" будут фильтроваться очень хорошо ☝
Поищите в гугле
Tune mysql и тогда поймете как должен _нормально_ работать сервер баз данных.
p.s. Просто смешно читать такие посты - всемирно известный продукт который используют в своих проектах множество огромных компаний - уйня! Использую свой написанный на коленке ;)
Чао.
firacet
о всезнающий салобон, расскажите нам пожалуйста, как таки делать деньги?