Solomono

Solomono
Рейтинг
51
Регистрация
22.02.2010
Dweep:
Єто как дополнение к прямой индексации сайта.
Большие сайты в любом случае будут в пролете, так как 100к страниц одного сайта мало кто додумается регулярно переиндексировать.

Dweep добавил 29.11.2011 в 15:24


Ну если у вас нет проблем с пропускной способностью канала и с загруженностью процессора при парсинге контента страницы - то естественно незачем.

б. ) Потому что что можно в свою базу загнать миллиард страниц, и гордится тем что база больше чем у яндекса, только всем будет на этот подвиг наплевать, так как клиентов в основном интересует именно те страниц, которые индексирует яндекс, а не все подряд.

К сожалению, в пункте б) вы не совсем точны в каждом из 6 утверждений. В любом случае, ваше предложение хорошое.

Dweep:
Кстати, я когда писал похожего бота, то реализовал следующий алгоритм.
1. Заметил, что слабое место это количество потоков на одном сервере. и количество контента, которое получается скачать с интерната.
Также у меня был десяток хостингов.
На хостинги я залил специальный файл.

Потом формировал файл задач, например надо найти информацию про 1000 урлов.
Отправлял по 100 урлов на сервер, на каждом сервере запускалось по 10 потоков, то есть каждый поток искал всего 1/100 от общей задачи.
Потом возвращал информацию в виде:
урл и список внешних ссылок со страницы.


Это раз.
И два.
Я искал в яндексе список до 1000 страниц, которые индексирует яндекс.
Если сайт индексируется плохо, то соответсвено я анализировал все что в индексе.
Такой подход позволяет просканировать важные(по мнению яндекса) страницы сайта. А заодно приблизить результаты к тому что хочет увидеть много оптимизаторов. Минусы - неизвестен уровень вложенности страниц.

Имея под рукой 100 активированных аккаунтов с яндекс-хмл можно сделать 100 000 запросов к яндексу, то есть найти список проиндексированных страниц более 1000 сайтов.

1. предложенный вами метод тоже имеет право на жизнь

2. насколько можно понять, вы хотите (или предлагаете) приблизить базу индексируемых URLов к базе яндекса. вопрос: а) для 1000 сайтов - ок. а для 1 млн? б) зачем?

вопросы а и б, как вы понимаете, риторические...

Papa_Misha:
Понятно, а как можно пригласить вашего паука на сайт? А то на некоторых сайтах он не был уже более полугода.

к сожалению, ускорить индексацию отдельных сайтов нельзя. частота индексации зависит от многих факторов, например, кол-во ссылающихся доменов и скорость загрузки сайта.

в ближ. время (1-2 дня) будет обновление, скорее всего, ваши сайты будут посещены пауком.

Papa_Misha:
Здравствуйте!
Есть ли способ, как намекнуть вашему сервису что пора обновить количество входящих и исходящих ссылок по сайту?
Есть несколько сайтов, у которых тиц 20, 40, 30, а РДС бар показывает что у них 0-2 бэка. При переходе на ваш сайт пишет что последнее посещение было в мае!

Добрый день,

Кол-во входящих ссылок на ваши сайты обновляется минимум ежемесячно исходя из данных по обновляемым доменам, автоматически. Исходящие ссылки ваших сайтов обновятся после их прохождения пауком.

PRchief:
А что так тихо в ветке?
Чего там вообще на бирже?
Движуха есть хоть какая нибудь? 🍿

биржа развивается и дорабатывается по плану. площадок на бирже пока немного, отсюда, видимо, и тишина.

SSETEVOY:
Скажите как пользоваться данными iGood при определении кач-ва донора..
Какое отношение хорошее, какое нет?

первая цифра iGood - чем больше тем лучше, вторая - наоборот. Важна скорее первая цифра - получить много доноров бесплатно сложно, а чем она (цифра) больше для домена, тем качественней его доноры.

на 2 цифру оказывают сильное влияние каталоги, которые ссылаются на 10, 20 или 30 тыс. сайтов и тем самым не позволяют нормально оценить всю картину. Из-за этого 2 цифру часто сходу оценить нельзя - нужно смотреть список доноров - т.е. оценивать содержание этой цифры.

поэтому оценивать просто отношение цифр iGood не рекомендую.

Malcolm:
У вас XML, отдающий УВ, не работает. Это он сломался или его ещё не доделали?

сломался - теперь снова работает.

благодарю за сообщение! меняется постоянно алгоритм обновления, отсюда некоторые проблемы по отдельным сервисам.

Kraus:
Спасибо. Да, смотрю через RDS. Вроде бы вчера апдейт был, но показывает нуль доноров, это меня вот как-то настораживает.

последний апдейт на Solomono был 5 октября. возможно вы имеете ввиду что-то другое. в любом случае, беспокоится причины нет, ссылки всегда находятся, если они есть.

Kraus:
Подскажите пожалуйста. Есть новый сайт, на него куплены некоторые ссылки, какие-то уже в индексе. Но сервис показывает, что нет ниодного донора. Ссылки разместились 2-3 недели назад. Проходит ли какое-то время, прежде чем сервис отображает их или нет? Заранее спасибо.

конечно, проходит, поскольку индексация требует времени. постепенно сервис переходит на еженедельное обновление выдачи информации по ссылкам, поэтому часть ссылок вы скорее всего увидите уже через неделю.

если вы используете RDS Bar то вы увидите новые цифры по донорам сразу после апдейта.

workint:
Поскольку Ваш паук все равно собирает полную базу рунета, то считаю показывать ссылки, ведущие на конкретную внутреннюю страницу сайта не должно стать проблемой.
Эта информация просто не хранится в базе данных или хранится,но не показывается?

проблемы как таковой нет, но есть ряд сложностей. и пока они не будут решены, показ включен не будет.

ответ на 2 вопрос вытекает из первого. эта информация есть, но не показывается. более того, поскольку она не предоставляется пользователям, пока нет уверенности в ее 100% достоверности.

но со временем эта функция обязательно будет включена.

Solomono добавил 10.10.2011 в 14:38

workint:

Возможно для меня это будет интересно, зависит от стоимости

все отчеты, которые можно купить и скачать, доступны через онлайн-интерфейс. Отчет "ссылки на конкретную страницу или страницы", к сожалению, мы не выгружаем по причинам, указанным выше.

Всего: 274