- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Таким образом можно отлавливать явные фальсификации. И то, наверняка, во многих случаях достоверную проверку будет осуществить непросто (Добавились новые документы на сайт, сайт изменил структуру, был недоступен и т.п.) Кроме программной части потребуется еще штат "контролеров", которые будут отделять козлищ от агнцев и разбираться с незаслуженно обиженными.
Мне кажется, идея отдать создание индекса на откуп владельцам ресурсов чем-то похожа на ситуцию с ключевыми словами и описаниями в метатегах. Пока веб был "научной" средой и авторы текстов были заинтересованы, чтобы их тексты находились только теми, кто их действительно хочет найти, это работало. А сейчас слова в метатегах на многих сайтах - это шум, на который большинство поисковиков перестало обращать внимание.
Владелец сайта не может объективно представлять свой ресурс в поисковой системе, у него задачи другие :)
ни у кого не осталось копии ?
Какие функции индекса будут отдаваться сайтам?
Если вычисление релевантности - да проблем они себе найдут.
Но если например на сайтах будет происходит подготовка к подсчету релевантности(! только подготовка, очищение от мусора, нормализация слов и т.п.)... Т.е. предобработка сайта, а уже в черепахе будет подсчитываться релевантность. Я думаю, будет все как надо.
Да нет, речь здесь идет о подмене содержимого самих страниц сайта, от чего без модерирования никак не уберечься. Хотя можно заставить робота маскироваться под броузер, по праздникам подключаться к серверу через какой-нибудь анонимный прокси и сравнивать реальные страницы со страницами в индексе.
): Плохие новсти... Седни пришлось запретить доступ к документам роботу Turtle - валил сервер(зависал каждые пол часа)! 5 обращений в секунду от одного робота это сильно! И это при том, что до этого сервер справлялся с нагрузкой стабильно. Нет конечно виноват скорее всего неправильно настроенный сервер(Lotus Domino), несколько сайтов на одном сервере, другие причины... но факт остается фактом - до выяснения этих причин, исправления, установки нового сервера, распаралеливания нагрузки доступ к этому роботу закрыт!)))%
~3000 запросов за 5 мин.!!! DoS атака на лицо! Я конечно понимаю что это дело хорошее так быстро индексировать, но зачем валить сервак-то?
~3000 запросов за 5 мин.!!! DoS атака на лицо! Я конечно понимаю что это дело хорошее так быстро индексировать, но зачем валить сервак-то?
Увы, такой "болезнью" страдает не только Turtle, но и Яндекс, Рамблер и Апорт... :(
Если Рамблер с Апортом по каким-то причинам еще мало грузят сервак (хотя даже их приход я могу точно сказать по сводной суточной статистике, т.к. там просто виден огромный пик хитов и килобайт), то Яндекс откровенно балансирует на гране DoS атаки.
Видно, из крупных поисковиков, кроме Google, никто толком и не читал рекомендации для индексирующих роботов, где четко и ясно сказано, что к одному IP-адресу робот в минуту должен делать не более 10 запросов (говорю по памяти - число может быть и не такое, но все же).
Как это ни странно с рамблером, апортом и яндексом таких проблем не возникало - наоборот могли бы сканировать почаще. Теоретически с Turtle проблема решена - Дмитрий сказал, что внес изменения в алгоритм. Седни вечером снимем фильтр - посмотрим.(;
Гугл на один сервер с полной зоной C и несколькими сотнями сайтов делает до 100 запросов в секунду, в среднем 20-30 в течение нескольких часов. DoS? Нет, даже камни не полностью загружены бывают.
Может, кому интересно будет - ответ на мой вопрос о том, что влияет на вес страницы в черепахе. Отвечал Teodor Sigaev.
[q]Могу описать алгоритм вычисление веса документа в общих чертах.
1. На вес документа влияет вес вхождения поискового слова зависит от его местоположения, учитываются следующие таги (каждый со своим весом):
<title>,<H1-6>,<B>,<STRONG>,<I>,<U>, первые 512 байт документа, <a href>
2. Вес поискового слова документе повышается в зависимости от количества
повтореинй слова документе, но до определенного предела.
3. Вес вхождения поискового слова увеличивается в случае если слово документе и
в запросе в верхнем регистре
4. Близость поисковых слов учитывается только в пределах одной фразы.
5. PageRank
6. Учитывается наличие ссылок с поисковыми слова из других документов, при этом
учитывается PageRank ссылающихся документов.
7. Вес слова несколько понижается, если это слово - сильно частотное.
В общих чертах так, но надо учитывать, что здесть есть море различных
коэффициэнтов и/или алгоритмов замешивания этих параметров. Сейчас мы вельми
активно этим играемся :).[/q]