nothingbutseo

Рейтинг
62
Регистрация
28.09.2007
charly:
я думаю just for fun

Согласен. Чувак прикололся, что штуку такую сделал.

Думаю что такой де можно за час, два слепить, используя Google Search API, т.е. просто на Web Service наложить морду, к стати Google Search API имеет ограничение по количству запросов.

Vergiliy:
Я и рад бы пошарить, но не могу, мне никто не дает эту карту, сервис http://www.sitemaps-builder.com/ просто-напросто зависает на середине.
Что касается форума, кажись все ссылки реальны. Допустим на форуме реально 1000 страниц, то почему на сайте зависает, раньше (когда было меньше страниц) все прокатывало.
P.S. Форум phpbb, так что тут без альтернатив с глюченым движком.

Он не зависает, а повторно пытается вытянуть страницы, которые не были получены в течение 5 сек, читай отвилилсиь по таймауту. При чем с начала обрабатываются все страницы потом все, которые не смогли быть прочитанными с первого раза, если эти страницы опять отваливаются по таймауту, то складывается впечатление, что прилога зависла, а на самом деле она пашет. Если страница не была прочитатна то сейчас выдается об этом репорт.

Нужно конечно чтобы попытка прочитать страницу на вашем форуме была с таймаутом по больше. Но и вам нужно задуматься почему двигло на сайте не может выкатить страницу за 5 сек - это цифра которая превышает психологический порог ожидания юзером, другими словами достаточно высока вероятность, что юзер просто покинет ресурс, если ответы не приходят в течение 4-5 сек.

nothingbutseo добавил 11.06.2008 в 11:27

laidback:
Тоже интересует данный вопрос, сайт на самописном php, ~250k страниц.

А теперь прикинь, если твой сайт будет краулится из вне (идексироваться внешним sitemap builder), в зависимости от количества ссылок на внутренние ресурсы на каждй из страниц вашго сайта, обработка, самая быстрая будет 3-4 страницы за сек.

Считаем

(250 000страниц/3(скорость обработки))/3600секунд_часе = ~ 23 часа с хвостом

Короче внешний крайлер для создания карты сайта для РЕАЛЬНЫХ сайтов выглядит мягко говоря не совсем подходящим. Нужно генерить карту сайта из базы, при этом модуль вашей CMS или форума должен не скать линки путем анализа всего и вся а напрямую создавать URL для карты сайта беря данные из базы вашего CMS или форума. Этот способ может отличаться на ДВА ПОРЯДКА по скорости по сравнению с тем если ваш сайт будет обрабатываться внешним краулером.

Внешний краулер хорош когда:

- вы создали сайт и не хотите с ним больше возиться, СДЕЛАЛ и ЗАБИЛ

- вы хотите оценить ваше творения на сайте, если сайт содержит грубые ошибки и при формировании страниц генерит неверные переходы, то попасть в инедкс поисковых систем будет практически не возможно Чтобы узнать что вы как Webmaster сделали что-то не так используйте внешний тул для создания карты сайта, он выдаст вам инфу что не так.

- у вас нестандартная система, и для не нет модулей которые строят карту сайта из базы

мож. быть я что-то пропустил, то добавлю когда вспомню :)

Есть боты которые косят под гугл, типа дай мне тоже самое что и гуглу, кто знает чтотакое клоакинг поймет сразу о чем.

Хочешь статистику увеличить пройдись по сайту от имени гугла вот этим

http://www.sitemaps-builder.com/?userAgent=googlebot

надеюсь вы понимаете о чем я... нужно смотреть по IP откуда ноги ростут, если животное вас пугает или причиняет боль. :)

присоединяюсь,

все просто заказал два IP, едут черт нзает куда, сайты были недоступны полдня из-за этого, уже 4-ый день что-то решают, на тикеты молчание. Вернул все как было ДО, жду их ответа.

сервак ждал 1.5 месяца!!! думаю это рекорд!

не отменит, PR - оценка ремурса поисковиком предназначеная для человека, а значит является манипулятором нашего отношения к ресурсу, если хотите элемент управления от Гугла к нам. Кто от него откажется.

IMHO, PR - уже не считается как раньше, Гугловцы мутят на его основе еще что-то. Может переименуют или какой-нить маркетиговый ход сделают - это вероятнее.

suntoucha:
Камрады!
Если кто-то получает back'и через API Yahoo проясните, пожалуйста, следующее

Не знаю как вам, но мне ограничение в 5000 запросов с одного IP, не понравились,

мож. для вашего применения это будет более чем достаточно, но мне пришлось HTML ответ парсить, да из (1) beta они недавно только вылезли, (2) опросник присылали, почему как вы считаете наш сервис не пользуется популярностью? :)

novenikii:
Может и баян

Нет не баян,

я давно ждал когда заработает, как известно MSN быстрее всех, поэтому для анализа приходиться им пользоваться.

Хорошая новость, спасибо

Гадя Хренова:
у меня сегодня ночью почти по всем проектам гугл закинул в индекс рекордное количество страниц, на некоторых сайтах удвоил индекс. У кого как?
п.с. правда я переехал на другой сервер, может с этим связано

Любой поисковик не любит страницы выдающиеся с задержкой, если несколько раз отвалиться с таймаутом (переодически в теч. 3-4 дней), то выкинет из индекса. Ты наверное ушел как раз из-за того 1-ый сервак был перегружен.

Резимируя,

вы знаете что у Гугла куча datacenters! чего вы мозги парите! Датацентры синхронизируются не за один день, проверяете индекс и его изменение по одному IP,и только ПОСЛЕ ЭТОГО пишите о лаже. IP google.com сегодня один завтра другой, все зависит от того как проводит loadbalancing Гугл и из какой зоны IP вы делаете запрос, в этом случае goog.com резолвится по-разному, чтобы весь мир не ломился на один сервак. Гугл - падла распределенный поисковый движок! :)

nonews:
2. использовать XML sitemap, сабмитится в бесплатный сервис от Google - ускоряет появление страниц в индексе в разы.

сразу нет

Что "нет" и есть ли аргументы?

еще два года назад процесс индексирования всего сайта занимал 3-месяца, потом Google этот срок сократил, сейчас народ считает на недели 1-3.

Если у вас сайт около 1000+ страниц, то одначначно Google Sitemaps - это из практики.

У меня из индеска страницы не вываливались, но и линки спамерские не ставил на свой сайт, т.к. они больно бьют по доверию Google сайту, у Сайта должна быть чистая история, тогда все работает.

jek_s:
на 1000 появляется 3, от силы - 10.

Если у тебя нормальный сайт (несгенерированный), тут тусуются любители клоакинга, то нужно

1. проверить что твои страницы доступны в три и меннее клика от home page

2. использовать XML sitemap, сабмитится в бесплатный сервис от Google - ускоряет появление страниц в индексе в разы.

1 234
Всего: 40