Нужно составить sitemaps для сайта 16к страниц

12
L
На сайте с 14.05.2007
Offline
153
#11

воистину, загрузил текстовый формат, гоша съел.

спасибо albion

DirtyWay
На сайте с 21.03.2008
Offline
29
#12
lipsko:
воистину, загрузил текстовый формат, гоша съел.
спасибо albion

На будущее: GSiteCrawler - отличная вещь для этого

Только запускать нужно не для парсинга уже выложенного сайта, а:

1. Сделать полный бэкап сайте

2. Развернуть его на локалхосте

3. Пропарсить GSiteCrawler'ом

4. В текстовом редакторе localhost заменить на имя домена.

Скорость составления карты возрастает в разы!

K
На сайте с 12.07.2006
Offline
295
Kpd
#13
Unlock:
Больше 100 метров на карту с 10K страниц выходило.

Это чтож нужно туда написать, чтобы получилось 100 метров? У меня xml на 300к страниц, сгенерированный гуглевским питоновым скриптом, весит ~25 метров.

Kpd добавил 28.06.2008 в 17:32

DirtyWay:
На будущее: GSiteCrawler - отличная вещь для этого

Вешается при очень большом количестве страниц.

L
На сайте с 14.05.2007
Offline
153
#14

2 kpd: а зачем делать в XML? простой TXT не устроил бы? размер файла уменьшился бы капитально

K
На сайте с 12.07.2006
Offline
295
Kpd
#15

lipsko, для txt-файлов у Гугля ограничение в 50 килобайт, получилось порядка 200 файлов, которые лежат в корне сайта.К тому же в в txt невозможно указать приоритеты страниц.

sabotage
На сайте с 14.02.2007
Offline
192
#16
Kpd:
Это чтож нужно туда написать, чтобы получилось 100 метров?

100 метров - это трафик, который нагенерит бот, собирающий урлы.

Unlock
На сайте с 01.08.2004
Offline
786
#17
sabotage:
100 метров - это трафик, который нагенерит бот, собирающий урлы.

Совершенно верно :) Причем там и исходящий и входящий траф получается такой что, до 300 метров суммарного трафика доходило, плюс часа 2-3 занимало. Так что лучше серверные варианты для подобных ситуаций.

Есть желание, - тысяча способов; нет желания, - тысяча поводов! /Петр-I/.
K
На сайте с 12.07.2006
Offline
295
Kpd
#18
Unlock:
Причем там и исходящий и входящий траф получается такой, до 300 метров суммарного трафика доходило

Понял :)

Unlock:
плюс часа 2-3 занимало. Так что лучше серверные варианты для подобных ситуаций.

Имхо, лучше использовать самописный генератор, который будет работать напрямую с базой данных. К примеру, генерация вышеупомянутого sitemap на 300к страниц с помощью wget + php-шная fwrite занимала на домашнем компе 30-36 часов. Потратил несколько часов на создание генератора (cms самописная), теперь всё создается за 5-10 минут.

sabotage
На сайте с 14.02.2007
Offline
192
#19
Kpd:

Имхо, лучше использовать самописный генератор, который будет работать напрямую с базой данных.

+1. В случае использования cms это самый логичное решение. В моем случае при добавлении очередной страницы sitemap пересоздается сам, и не вспоминаю совсем.

Если статика, можно на локалхосте собрать листинг страниц и выложить в txt формате или, заюзав регулярные выражения, перевести в xml.

Натравливать бота для создания карты затратно, долго и не всегда удобно.

Unlock
На сайте с 01.08.2004
Offline
786
#20

Меня генератор на который я в этом топике давал ссылку вполне устраивает :) Не дорогой и прекрасно работает, если не писать свое, имхо, лучший вариант из того что есть на рынке.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий