- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
воистину, загрузил текстовый формат, гоша съел.
спасибо albion
воистину, загрузил текстовый формат, гоша съел.
спасибо albion
На будущее: GSiteCrawler - отличная вещь для этого
Только запускать нужно не для парсинга уже выложенного сайта, а:
1. Сделать полный бэкап сайте
2. Развернуть его на локалхосте
3. Пропарсить GSiteCrawler'ом
4. В текстовом редакторе localhost заменить на имя домена.
Скорость составления карты возрастает в разы!
Больше 100 метров на карту с 10K страниц выходило.
Это чтож нужно туда написать, чтобы получилось 100 метров? У меня xml на 300к страниц, сгенерированный гуглевским питоновым скриптом, весит ~25 метров.
Kpd добавил 28.06.2008 в 17:32
На будущее: GSiteCrawler - отличная вещь для этого
Вешается при очень большом количестве страниц.
2 kpd: а зачем делать в XML? простой TXT не устроил бы? размер файла уменьшился бы капитально
lipsko, для txt-файлов у Гугля ограничение в 50 килобайт, получилось порядка 200 файлов, которые лежат в корне сайта.К тому же в в txt невозможно указать приоритеты страниц.
Это чтож нужно туда написать, чтобы получилось 100 метров?
100 метров - это трафик, который нагенерит бот, собирающий урлы.
100 метров - это трафик, который нагенерит бот, собирающий урлы.
Совершенно верно :) Причем там и исходящий и входящий траф получается такой что, до 300 метров суммарного трафика доходило, плюс часа 2-3 занимало. Так что лучше серверные варианты для подобных ситуаций.
Причем там и исходящий и входящий траф получается такой, до 300 метров суммарного трафика доходило
Понял :)
плюс часа 2-3 занимало. Так что лучше серверные варианты для подобных ситуаций.
Имхо, лучше использовать самописный генератор, который будет работать напрямую с базой данных. К примеру, генерация вышеупомянутого sitemap на 300к страниц с помощью wget + php-шная fwrite занимала на домашнем компе 30-36 часов. Потратил несколько часов на создание генератора (cms самописная), теперь всё создается за 5-10 минут.
Имхо, лучше использовать самописный генератор, который будет работать напрямую с базой данных.
+1. В случае использования cms это самый логичное решение. В моем случае при добавлении очередной страницы sitemap пересоздается сам, и не вспоминаю совсем.
Если статика, можно на локалхосте собрать листинг страниц и выложить в txt формате или, заюзав регулярные выражения, перевести в xml.
Натравливать бота для создания карты затратно, долго и не всегда удобно.
Меня генератор на который я в этом топике давал ссылку вполне устраивает :) Не дорогой и прекрасно работает, если не писать свое, имхо, лучший вариант из того что есть на рынке.