5hark

Рейтинг
105
Регистрация
08.05.2006
Должность
Web applications developer

гугль начал с вывода денег через рапиду, сейчас вот вроде как купили бегун. Совсем недавно в Бегуне обнаружил новые рекламные блоки очень похожие по дизайну на гугловские. Собственно нахрена гуглу вообще нужен был этот Бегун, они бы и без него могли спокойно обойтись.

Когда банкам нужна лицензия на какой то определенный вид деятельности они как правило покупают какой нибудь маленький банк у которого уже есть такая лицензия, т.к. это дешевле обходится. Возможно и гугль вместо того чтобы заморачиваться разного рода гемороем типа легализации Adsense взял и купил Бегуна и скоро юрикам бабло можно будет выводить через него с полученим всех необходимых для бухгалтерии документов.

$ host 74.86.244.130

130.244.86.74.in-addr.arpa domain name pointer sunosspeed.com

тоже по всему сайту прошелся и все страницы стащил.

Conroe, забанить по юзер-агенту ;)

для бета версии неплохо, для теста использовал текст из википедии http://ru.wikipedia.org/wiki/Россия, первый абзац, постить сюда не стал, но слов он не так много заменяет, смысла замены Москва на столица не вижу ну и так по мелочи.

ps: кстати хостинг смени, через раз падает твой сайт.

1. http://www.google.ru/search?q=google+quality+rater&um=1&complete=1&hl=en&safe=off&rlz=1B3GGGL_enRU259RU259&ndsp=20&ie=UTF-8&sa=N&tab=iw Там на некоторых сайтах есть скрины и топики за 2005-год, там народ спалил по реферерам, сейчас интерфейс переделали и реферер не передается. Дорвеи однотипные, еще один добавочный критерий в 2. и 3. вносит человек, после чего на основании нескольких факторов доры выносятся нах из индекса. Да, и кстати там не один человек оценивает а несколько.

2. http://www.google.ru/search?q=decision+tree&sourceid=navclient-ff&ie=UTF-8&rlz=1B3GGGL_enRU259RU259&aq=t

3. http://www.google.ru/search?q=neural+network&sourceid=navclient-ff&ie=UTF-8&rlz=1B3GGGL_enRU259RU259

курите наздоровье, палю тему как доры пачками из выдачи вылетают ;-)

5hark добавил 14.02.2008 в 15:27

цитата из книги:

The classifiers discussed in this chapter learn how to classify a document by being
trained. Many of the other algorithms in this book, such as the neural network you
saw in Chapter 4, learn by reading examples of correct answers. The more examples
of documents and their correct classifications it sees, the better the classifier will get
at making predictions. The classifier is also specifically designed to start off very
uncertain and increase in certainty as it learns which features are important for mak-
ing a distinction

видимо у яши и других поисковиков нет таких возможностей по наему обучателей нейронных сетей как у гугла или они это внутри делают, не афишируя. в любом случае за всем этим стоит математика и статистика, а не тупо ручной бан по стуку как тут упомянули ранее

имхо ботам пофиг на то какой javascript, шифрованный или не шифрованный, врятле стали с нуля писать движок чтобы рендерить html и жабоскрипт, просто взяли webkit (http://webkit.org/projects/javascript/index.html) или gecko (http://www.mozilla.org/newlayout/) и заточили под свои нужды. Выполняется в браузере, будет выполняться и ботом, основанном на браузерном движке, а то что mouseover пока что не отслеживается так это дело времени.

jill_07:
Так и выдача у них одинаковая идет по одним и тем же запросам. Это уже давно так. Ну незнаю насколько давно, я то вроде как не занимаюсь этим, но последние 5-6 месяцев точно так.

mail.ru - крупнейший пользователь сервиса яндекс.xml, сотрудники яндекса это на конференции highload говорили, так что то что выдача одинаковая это совсем не странно ;-)

у меня таскали из блога контент, таскали ессно не руками а скриптом по расписанию, чтобы поисковики не определили первоисточник все бэклинки на мой блог выбрасывались, то есть я мог разместить любую ссылку ничего ней не происходило. Как только начинал писать часть своего урла в сообщении или в ссылке это автоматически все вырезалось.

Экперементальным путем выявил что контент выдергивается каждый час. Начал на javascriptе подсовывать всякую хрень, типа 100% iframe а в нем мой сайт, фотки с голыми бабами итд. Тот хмырь что воровал данные это заметил и все эти посты потер. В общем мне это надоело родной урл к фиду сменил на feedburner, и поставил редирект, нормальные подписчики не пропали, а туповатый бот того кто таскал посты просто не различал коды ответа http.

LEOnidUKG:
Да просто Яшка уже нахвотался кучу (цензура не пропустит) "фигни" с интернета, а теперь его разгребает 😂
А Рамблер не успел, вот теперь ботов себе делает, чтобы тоже догнаться)))

Вот это кстати очень спорный вопрос не по тем запросам доры в выдаче смотрите ;)

Этот дор я видел в гугле несколько месяцев назад, сейчас он в рамблере болтается. Сорри если чей дор спалил 😎

Кстати довольно примитивный дорген, тупая подстановка слов в перемешку с кейвордами http://www.rambler.ru/srch?words=&btnG=%CD%E0%E9%F2%E8%21&set=www&news=0&and=1&limitcontext=0&exclude=&dlang=0&mimex=0&st_date=&end_date=&filter=vuhoda.h18.ru&sort=3&limit=15

Psycho:
Откуда мысль о том, что Рамблер сдох?

О том и речь, что не сдох, а трафик с него идет, и ботов похоже новых делают, а не лепят всякие фильтры и кривые алгоритмы ранжирования как Яшко.

+1 боян

кстати использую Keyboard shortcuts, достаточно удобно по сниппетам с помощью клавиатуры перескакивать

Всего: 81