funnybunny, ну совсем идею я бы не бросал, подумаю ещё.
Пока минусы перевешивают плюсы.:)
Есть ещё мнения?
Споры будут - это само собой.
Просто возможно это можно как-то завернуть так, чтобы минимизировать их количество, либо скинуть с себя большую часть ответственности.
Например.
Добавлять url-ы могут все. Затем робот просто проверяет какие либо факторы, типа грузит robots.txt и кэширует его, грузит страницу с предложением по обмену, страницу с собственно ссылками всё это кэширует и заносит в лог.
Ну тут спалился так спалился, факты на лицо.
Дать возможность владельцам исправиться, отмазаться и т.д. удалять их из видимого всем списка, если это не повторялось или была техническая ошибка и т.д.
Ну может не совсем так, это я на вскидку. Но предлагаю это тоже обсудить, т.к. споры, мягко говоря будут.
Делать закрытым - будет маленькая и не такая полная база, тоже не есть хорошо.
Предлогаю всё-таки попробовать формализовать задачу и взвесить за и против, а там видно будет стоит или нет.
Млин, ну не удержался от рассуждений, всё мне пора спать....:)
Ну мож текст в документ write искал? Мож пробовали как по максимуму можно ещё и из JS инфы вытянуть. Собирал статистику, а что у людей чаще всего в скриптах и т.д. Это беспорно полезно, вдруг реальный текст там, а в html - это точенный под поисковик? А смысл интерпретировать, а если там просто игра или глюченное выпадающее меню, которое даже на 4-м пне тормозит и даже сам автор не знает в каких случаях и почему оно вообще работает? Конечно Гугл сделает, но ИМХО раньше яваскрипт отменят или забудут. :)
А вот умение выдерать из него потенциально полезный текст или ссылки будет рости постоянно. )))
А по поводу последней фразы, да и по сути я просто и безоговорочно согласен. ))
Для эффективного индексирования, анализа, обработки, ранжирования, выборки и т.д. и т.п. в пределах неск. миллиардов документов требуется помимо гигантских вычислительных мощностей ещё и очень эффективная оптимизация (если хотите упрощение) внутренних алгоритмов, многоуровневое промежуточное кэширование результатов их работы и куча многих других вещей.
Поверьете, алгоритм и AI там не тотже, что в DeepBlue, который играл с Каспаровым, не можелируется ядерный взрыв и т.д. Практически тупо вырезаются не нужные тэги из документа, собирается статистика по словам, их количеству, ссылокам, на всё проставляются различные усредненные коэффициенты типа PR и т.д. и т.п. Всё это многократно кэшируется, что-бы из всего этого бардака можно было практически мнгновенно выплюнуть более менее релевантные результаты.
Там ИМХО я думаю их программисты и научные сотрудники думают прежде чем лишних пару десятков регулярных выражений вписать, а не о том что-бы туда интерпретатор прикрутить(а любой интерпретатор - это далеко не самый быстрый алгоритм).
Простые вещи они конечно парсят.
Особого супер-пупер искуственного интеллекта там нет, за исключением простой семантики. Скорее уникальные статистические и подобные алгоритмы.
Мной имелось ввиду, что интерпретировать JS не настолько необходимо, на сколько оно может отвлечь ресурсов от более приоритетных для релевантного поиска задач.
Всё это моё ИМХО как программиста, и по скольку мне всё равно как у них там это происходит, спорить не буду. Могу если хотите, согласиться с Вами.
:p
Ну такие вещи, как a='text'; b='текст'+'текст'+'текст'+a прочитать и склеить не мудрено, но ведь полно скриптов на любом сайте типа hotscripts и т.д., которые постожнее и 99,9% что в ближайшие годы боты их "понимать" не будут, а там глядишь и какое-нибудь другое решение появится. Я думаю по этому поводу не стоит париться.
Можно совсем извратиться и вообше полиморфный код писать. 😂 Ресурс такого скрипта на ближайшие несколько лет обеспечен. Врядли раньше гугл на столько поумнеет, что начнет пытаться интерпретировать скрипты как браузер со всеми циклами и процедурами вызываемыми, например по таймеру. Это не настолько необходимо, насколько ресурсоемко и труднореализуемо. Браузеры то с одними и теми же скриптами справляются по разному. А специально точить ещё и под гугл, точно никто не будет.))
А вообще клоака, конечно самое надежное.
На robots.txt бот может и наплевать, если захочет.
Как вариант ставить куку и все ссылки делать через какой-нить один redirect.php на который передавать ссылку в зашифрованном виде. А в нем отзылать по ссылке если стоит кука. За одно и отдельную статистику вести по переходам. Хотя хрен знает мож боты куки и принимают, неинтересовался. ))
Можно ссылки сделать - внутри Flash мувика, а в него передавать их из файла. Хотя SWF открытый формат и боты может научатся его читать раньше чем JS.
Есть миллион решений как усложнить себе жизнь.
А оно надо?
И ещё, используется таже таблица, более простой вариант приблизительной оценки.
http://www.seocompany.ca/pagerank/page-rank-calculation.html
P.S. Числа усредненные. т.е. 555 ссылок с ПР5 - это имеется ввиду, как я понял, если считать что ПР логарифмический и вес каждой ПР5 ссылки берется как число между 5033 и 27213, т.е. 16123, если я правильно посчитал среднее между ними(эх...спать пора).
Держите:
http://www.compar.com/infopool/articles/PR-calculation.html
Хотя.....если таким образом досаждать только владельцам оперы.....то думаю всё будет в порядке.
😂
Ув.Pike, а не забанят? Гуглебот с медиапартнером соберутся и сравнят странички с одним урлом? Или какой-нить гей или не гей обидится, что его ориентацию попутали и напишет в саппорт гуглу, а там ещё вдруг и прочитают.:)
Идея хорошая, тока terms & conditions адсэнса нарушается....
Дочитать-то дочитал, не в этом дело.
Клоака - это хорошо, что-бы небыло соц рекламы(если я верно понял).
Просто меня конкретно сейчас интересует момент, возможно ли каким-либо способом стимулировать посещения медиапартнера, что-бы он по-честному всё съел.