john2007

john2007
Рейтинг
173
Регистрация
26.03.2007
upyrj:
Вот что придумалось: а нельзя ли взять счетчик какой-нибудь, и посмотреть в нем список посещенных за полгода/год/всю жизнь страниц? Или логи сервера.
Во многих случаях это будет близко к реальной мощности сайта.

Можно, конечно, Денис, если это твой сайт или статистика общедоступна.

Serboy:
john2007, любопытно, конечно, посмотреть по времени, может быть как-нибудь озадачусь (когда буду дома, сейчас я на работе). Кстати, навзлет подумал, кроме того, что надо будет убрать запросы на PR, как минимум еще придется поработать над фильтрами документов, которые не являются страницами.. Может еще какой нюанс всплывет.. По результату отпишусь.

Это было риторическое предложение :)

Просто хотел сказать что быстро не получится, 30 тыс. будет качаться 2-3 часа. И это будет не онлайн результат.

Да и не в этом дело, понятно, что скачать можно, просто это не сильно будет отличаться от того же Телепорта или Регета.

А, вообще, говорили еще про онлайновый сервис (на который работает паук считающий количество страниц на сайтах), выдающий инфу о количестве страниц в онлайне, что для этого мощности нужны как у Яндекса и кому это нужно организовывать :)

Serboy, Переберите, плиз, быстро www.ixbt.com :)

Или сателлит тысяч на 30 страниц :)

PR не нужен :)

Андрюха:
После Вашего поста у меня возникло все больше вопросов.😕
Для чего же служит анкор-лист ?

1. Это просто список ключевиков, которые проиндексированы на странице донора как текст. Так ли ?

Анкор файл для страницы акцептора, в нем список анкоров всех учитываемых ссылок его доноров. Используется для "найден по ссылке" и для ранжирования по "запросу" (ссылочного)

John_Doe:
Кхм... То есть, я так понимаю, без ограничения уровня невозможно даже технически скачивать только количество страниц? Их нужно все выкачать для этого?
Тьфу, запутался что-то совсем.

Конечно, не выкачивая страницу, Вы не можете определить есть на ней ссылки или нет.

А перебирать страницы сайта можно только по ссылкам на страницах.

neznaika, ну не знаю, см. мой пост выше, посчитайте примерно какой нужен канал и сколько нужно путешествовать и какой период обхода будет для русскоязычного инета. Только в Яндексе 2 750 733 027 страниц.

Умножим 2 750 733 027 хотя бы на 10к (средний размер страницы), поделим на скорость 1Мбайт/с (10Мбит) = 2 750 733 0 с / 60 = 458 455 мин / 60 = 7 641 ч / 24 = 1 год.

Pall:
Наспор размещал адсенс на доре с отключенным редиректом.
Спор был про то, что в адсенс берут всяцкое г...о, лишь бы автофильтры не сработали.
Дор снес, но через недельку пришло письмо с текстом содержания "ай-яй-яй нихарачо" и денежку сняли... Аж целых 3 доллара 😂
И предупредили, что еще пара подобных фортелей, и нафиг выкинут из программы.
Оказывается, потом еще вручную проверяют скорее всего.

Это связано или с дором и это было в прошлом веке, хотя в прошлом веке AdSense еще не было :)

Сейчас размещай хоть во всем инете свой код, если сайты не нарушают правила проблем быть не должно.

Слышал, что некоторые даже продают на своих сайтах места под чужой AdSense :)

Андрюха:
Скажите, что вы подразумеваете под анкор-файлом ? В первый раз слышу такой термин, наверняка он как то проще называется, так сказать в простанародии. :)

Текст всех учитывающихся анкоров внешних ссылок для страницы.

Лучше спросите, как его получить из Яндекса :)

Stripe:
Есть сайт, с которго поперли всю информацию... сейчас морд очень низко, внутрянки (двигавшиеся) еще ниже... вышевсякая фигня с нашим контентом.. дело не в последнем алгоритме, сайт вообще не выползал за полгода работы наверх (я им занимаюсь третий день).

"Ты последний"? :)

John_Doe:
Не знаю, может быть я, конечно, что-то не так делал, но факт остается фактом.

Это возможно, когда Вы вложенность не глубокую задаете или другими параметрами играете. Например, задали вложенность скачки главная и еще 2 уровня внутренних.

Например, на главной 20 ссылок, на 1-м уровне внутренней в среднем 10 (уникальных) ссылок, на 2-м уровне внутренней в среднем 10 (уникальных) ссылок.

Качаем - 1 + 20 + 20*10 = 221 страниц. Но скаченный 2-й уровень дает инфу еще о 200*10 = 2 000 страниц, которые мы не качаем, но в количество страниц включить можем.

А универсально качать, без ограничения уровня, не зная, на какой странице больше нет ссылок - придется все страницы качать.

Carlito:
Большое Аригато!:)

Всем!

Только я так и не понял, что нужно было? :)

Поиск английского контента по японским сайтам или японского (иероглифов) контента по японским сайтам?

Всего: 2535