Хочу заказать системку... помогите с тз и идейками плиз...

IT_DED · 2012-05-21T21:45:15.0000000Z

В общем задачка на первый взгляд простая... но есть и подводные камни... Исходные данные: Есть кучка сайтов, будем считать что они на голом html... порой без диза... База мускула одна (т.е. таблицы с префиксами нужны если бд потребуется) Основная задача: Сохранить страницы и урлы... Убрать внешние ссылки... Вписать в диз... (если сайт без диза, если с дизом - сохранить старый) Единая админка для управления кучкой сайтов... Подключение к основным ссылочным и статейным биржам... Простейший шаблонизатор для подключения дизов... Все это хочется как то автоматизировать по максимуму... помогите плиз построить алгоритм для тз... Дополнительные хотелки: Нужен раздел статей - новостей... Нужен раздел вопросов-ответов... Нужен раздел фото-видео галерей... Нужен каталог товаров-услуг (без корзины и оформления продаж)... Нужны модули вывода из вышеупомянутого в любом месте сайтов (типа последние статьи, лучшие вопросы, случайная фотка и т.п.) Некоторые разделы с парсерами для автонаполнения... В общем прошу помощи и любых идей по алгоритму для тз... Главное максимально упростить и автоматизирвать все процессы для переноса сайтов с html и подключения, вывода и наполнения доп разделов... Если есть норм прогер... который не побоиться взяться за такое - пишите, обсудим... Если кто-то хочет написать подробное тз для такого - пишите, обсудим... P.S. Тема создана не для поиска исполнителей и не обсуждения бюджетов... не как не могу выстроить алгоритм просто... моск не варит от жары... вот и прошу помощи у вас... P.S.S. За помощь скажу "спасибо" ... за самый дельный пост (по моему мнению) подарю сателлитик из своих запасников ))

sg552

2 июня 2012, 20:28

#21

minSEO:
Не надо меня в теоретики записывать. У нас похожая система есть и вполне успешно работает - и шаблоны на блоки разбивает, и контент выпиливает из кода.

Ну так просветите меня, каким образом она отделяет ненужные элементы страницы в автоматическом режиме?

Парсим сначала что в body
Сверху от body парсим кусками увеличивая размер, пока блок не прекратит повторяться на страницах например всех. - Получаем шапку
Тоже самое делаем снизу - получаем футер

Что есть боди? Вот вам 200 сайтов с абсолютно разной разметкой и размещением блоков, обрисуйте мне архитектуру парсера

За месяц - если видео с ютуба, новости из одного поля в базе, вопросы и ответы слеплены из форума и т.п. Особенно интересно, сколько вы выделили время в этом месяце на пункт "Некоторые разделы с парсерами для автонаполнения.".

улыбнули, спасибо

В Яндекс Директе появилась Google облегчил разработку сайтов VK представила новый адаптивный

aktuba

2 июня 2012, 21:35

#22

sg552:
Ну так просветите меня, каким образом она отделяет ненужные элементы страницы в автоматическом режиме?

А что сложного-то? Я, например, для своего парсера сделал простую систему (правда, на сервер так и не выложил, руки никак не дойдут): берем 2 страницы сайта, сравниваем их и выкидываем одинаковые блоки. 90% контентных страниц сайтов содержат одинаковую структуру.

sg552:
Что есть боди? Вот вам 200 сайтов с абсолютно разной разметкой и размещением блоков, обрисуйте мне архитектуру парсера

Ловите готовый пример ;) Только вставляйте ссылки на контентные страницы, а не на страницы, наподобии yandex.ru. Кстати, у меня этот парсер уже на 3-х сайтах работает, почти без сбоев )))

Яндекс начал закрытое тестирование В Яндекс.Вебмастере появились новые В Яндекс.Вебмастере появился упрощённый

Open AI тестирует память для ChatGPT

Что делать, если ваша email-рассылка попала в спам

Хочу заказать системку... помогите с тз и идейками плиз...