Рыс

Рейтинг
13
Регистрация
26.02.2005
Должность
Интернет

funnybunny, ну совсем идею я бы не бросал, подумаю ещё.

Пока минусы перевешивают плюсы.:)

Есть ещё мнения?

Споры будут - это само собой.

Просто возможно это можно как-то завернуть так, чтобы минимизировать их количество, либо скинуть с себя большую часть ответственности.

Например.

Добавлять url-ы могут все. Затем робот просто проверяет какие либо факторы, типа грузит robots.txt и кэширует его, грузит страницу с предложением по обмену, страницу с собственно ссылками всё это кэширует и заносит в лог.

Ну тут спалился так спалился, факты на лицо.

Дать возможность владельцам исправиться, отмазаться и т.д. удалять их из видимого всем списка, если это не повторялось или была техническая ошибка и т.д.

Ну может не совсем так, это я на вскидку. Но предлагаю это тоже обсудить, т.к. споры, мягко говоря будут.

Делать закрытым - будет маленькая и не такая полная база, тоже не есть хорошо.

Предлогаю всё-таки попробовать формализовать задачу и взвесить за и против, а там видно будет стоит или нет.

Как писал Pike
Про их исскусственный интелект я не знаю, но знаю что еще год назад у них был бот который целенаравленно сосал яваскрипты из внешних файлов.Можно конечно и дальше рассуждать на тему смогут они или нет, а можно просто сразу сделать так чтобы не смогли. Тем более что для этого ничего не нужно.

Млин, ну не удержался от рассуждений, всё мне пора спать....:)

Ну мож текст в документ write искал? Мож пробовали как по максимуму можно ещё и из JS инфы вытянуть. Собирал статистику, а что у людей чаще всего в скриптах и т.д. Это беспорно полезно, вдруг реальный текст там, а в html - это точенный под поисковик? А смысл интерпретировать, а если там просто игра или глюченное выпадающее меню, которое даже на 4-м пне тормозит и даже сам автор не знает в каких случаях и почему оно вообще работает? Конечно Гугл сделает, но ИМХО раньше яваскрипт отменят или забудут. :)

А вот умение выдерать из него потенциально полезный текст или ссылки будет рости постоянно. )))

А по поводу последней фразы, да и по сути я просто и безоговорочно согласен. ))

Как писал Pike
Вы хотите сказать, что взять яваскрипт-интерпретатор из Mozilla и пропарсить результат работы любого ява-скрипта - сложная задача для программистов Google? Для програмистов вообще? Вообще для-кого нибудь?

Для эффективного индексирования, анализа, обработки, ранжирования, выборки и т.д. и т.п. в пределах неск. миллиардов документов требуется помимо гигантских вычислительных мощностей ещё и очень эффективная оптимизация (если хотите упрощение) внутренних алгоритмов, многоуровневое промежуточное кэширование результатов их работы и куча многих других вещей.

Поверьете, алгоритм и AI там не тотже, что в DeepBlue, который играл с Каспаровым, не можелируется ядерный взрыв и т.д. Практически тупо вырезаются не нужные тэги из документа, собирается статистика по словам, их количеству, ссылокам, на всё проставляются различные усредненные коэффициенты типа PR и т.д. и т.п. Всё это многократно кэшируется, что-бы из всего этого бардака можно было практически мнгновенно выплюнуть более менее релевантные результаты.

Там ИМХО я думаю их программисты и научные сотрудники думают прежде чем лишних пару десятков регулярных выражений вписать, а не о том что-бы туда интерпретатор прикрутить(а любой интерпретатор - это далеко не самый быстрый алгоритм).

Простые вещи они конечно парсят.

Особого супер-пупер искуственного интеллекта там нет, за исключением простой семантики. Скорее уникальные статистические и подобные алгоритмы.

Мной имелось ввиду, что интерпретировать JS не настолько необходимо, на сколько оно может отвлечь ресурсов от более приоритетных для релевантного поиска задач.

Всё это моё ИМХО как программиста, и по скольку мне всё равно как у них там это происходит, спорить не буду. Могу если хотите, согласиться с Вами.

:p

Ну такие вещи, как a='text'; b='текст'+'текст'+'текст'+a прочитать и склеить не мудрено, но ведь полно скриптов на любом сайте типа hotscripts и т.д., которые постожнее и 99,9% что в ближайшие годы боты их "понимать" не будут, а там глядишь и какое-нибудь другое решение появится. Я думаю по этому поводу не стоит париться.

Можно совсем извратиться и вообше полиморфный код писать. 😂 Ресурс такого скрипта на ближайшие несколько лет обеспечен. Врядли раньше гугл на столько поумнеет, что начнет пытаться интерпретировать скрипты как браузер со всеми циклами и процедурами вызываемыми, например по таймеру. Это не настолько необходимо, насколько ресурсоемко и труднореализуемо. Браузеры то с одними и теми же скриптами справляются по разному. А специально точить ещё и под гугл, точно никто не будет.))

А вообще клоака, конечно самое надежное.

На robots.txt бот может и наплевать, если захочет.

Как вариант ставить куку и все ссылки делать через какой-нить один redirect.php на который передавать ссылку в зашифрованном виде. А в нем отзылать по ссылке если стоит кука. За одно и отдельную статистику вести по переходам. Хотя хрен знает мож боты куки и принимают, неинтересовался. ))

Можно ссылки сделать - внутри Flash мувика, а в него передавать их из файла. Хотя SWF открытый формат и боты может научатся его читать раньше чем JS.

Есть миллион решений как усложнить себе жизнь.

А оно надо?

И ещё, используется таже таблица, более простой вариант приблизительной оценки.

http://www.seocompany.ca/pagerank/page-rank-calculation.html

P.S. Числа усредненные. т.е. 555 ссылок с ПР5 - это имеется ввиду, как я понял, если считать что ПР логарифмический и вес каждой ПР5 ссылки берется как число между 5033 и 27213, т.е. 16123, если я правильно посчитал среднее между ними(эх...спать пора).

Как писал Коля Дубр

мне конечно не впадлу, ща поищу, но можно для надежности ссылочку? ))) Зело интересно поразглядывать, откуда оно берется...

Держите:

http://www.compar.com/infopool/articles/PR-calculation.html

Хотя.....если таким образом досаждать только владельцам оперы.....то думаю всё будет в порядке.

Как писал Pike
Клоака для того чтобы adsence всем посетителям показывала рекламу про сауны для геев. Тогда все кто используют оперу и ходят на мои сайты будут думать: "Почему опера думает, что я - гей?" или откуда Опера знает, что я- гей?"

😂

Ув.Pike, а не забанят? Гуглебот с медиапартнером соберутся и сравнят странички с одним урлом? Или какой-нить гей или не гей обидится, что его ориентацию попутали и напишет в саппорт гуглу, а там ещё вдруг и прочитают.:)

Идея хорошая, тока terms & conditions адсэнса нарушается....

Как писал Pike
попробуйте все-таки дочитать до конца и подождите вторую мысль

Дочитать-то дочитал, не в этом дело.

Клоака - это хорошо, что-бы небыло соц рекламы(если я верно понял).

Просто меня конкретно сейчас интересует момент, возможно ли каким-либо способом стимулировать посещения медиапартнера, что-бы он по-честному всё съел.

Всего: 77