sokol_jack

Рейтинг
78
Регистрация
16.03.2008

Ну вот, дубли атакуют...

Andrey-k:
Этого яша себе позволить не может.

Это еще почему?

А вот обнулять вес ссылок со страниц, в декодированном урле которых присутствует http:// - вполне.

Ну, не мне вам рассказывать, что "http://"="//", да и шифрование никто не отменял...

Короче, в аську :) Поговорить нам точно есть о чем ;)

Может быть мы разное понимаем под xss? При чем тут статистики?

Ну, вобщем-то рефспам никогда к хсс отношения не имел, это точно.

Вот только была одна версия вебалайзера, в которой хсс таки было ;)

BaziliX:
представьте, что вы отвечаете за расчёт алгоритма тиц и вам дают задание "отменить xss". придумайте ~5 различных полностью автоматизированных методов "отмены xss", потом проверьте, какой был применён и заметьте, что он не учитывает. по-моему действительно совсем не сложно :)

Мне только один достойный придумался: не учитывать(не передавать нифига) со страниц сайта, на которые нет ни одной внутренней ссылки (с этого же сайта).

Всякие "а давайте шифровать в UTF-8" и подобное автоматом отсеется.

Спалите в личку остальные 4, до которых я не додумался. 🍻

Павел Зотов:
У кого-то в подписи на этом форуме видел "Тестируем генератор тегов", так вот там я увидел очень интересно реализованную систему. Правда потом так и не смог найти ссылку. :(

Точно! И я где-то такое видел ;)

Вы бы поточнее указали, что у вас на входе есть и что получить надо.

Может вам и WPT подойдет...

Keva:
Слава, "сервис" - это вторично. На самом деле это удобный способ тестировать те алгоритмы, над которыми я сейчас работаю.

🍻

Очень интересно было бы на исходники поглядеть, так как балуюсь подобным ;)

Первая секция - это выделенные из документа, наиболее значимые (по моему разумению) слова, описывающие его суть и актуальные, скажем, для показа рекламы или при поиске этого документа. Моя жена, к примеру, дёргает их в <meta name="keywords"...> страниц своего сайта и весьма довольна.

"По моему разумению" - а немного подробнее можно узнать? Какие части речи отсекаются и т.д.

Вторая секция - словосочетания - для меня практического значения не имеет и сделана по вскользь высказанной просьбе Антона Санченко, который spark. Там я даю потенциально значимые словосочетания, вес которых определяю как P(12) = sqrt( P(1) * P(2) * F(12) ), где F(12) - убывающая функция вероятности смысловой связи между словами. Аналогично формула распространяется и на трёхсловный случай - для словосочетаний с вклинившимся предлогом, к примеру.

Как считается вероятность смысловой связи между словами?

Потому как результаты выдает отличные для словосочетаний.

Третья секция - определение рубрики каталога <META>, к которой стоило бы отнести данный документ. Сейчас печатаются все гипотезы, соответствующим образом взвешенные. Скоро сделаю усечение маловероятных. Ну, а потом пущу это дело "в бой" 😂

И сейчас результаты приятно удивляют :)

В принципе, это можно сделать - для сайта, однако мне самому это, вроде как, сейчас не нужно, стимулов делать нету, в то время как трудозатраты достаточно велики - надо в приложение спайдер небольшой вкручивать, дёргать некоторое количество страниц, это ж и кодировать надо, и ответ не будет быстрым.
С другой стороны, мысленно обобщить по десятку обработанных страниц тематику сайта достаточно просто.

Именно. И баловатся эвристиками для отбрасывания "незначимого" текста на странице намного сложнее, чем сравнить "на просвет" десяток страниц с сайта...

Респект. 🍻

Kashey:
C морфи бывает сложно работать..
Надо перевести одно слово в другой падеж - будь добр сначало спроси что это за слово такое(он выдаст 5 вариантов), потом иди иши лучший вариант склонения( до 60 вариантов бывает)

Хм. У меня с морфи никаких проблем не возникает :)

Повесить на поддомене Яндекса (или кого другого, потрастовее) все эти страницы :)

reFLASHer:
Не понял я Вас видимо. Если Вы имеется в виду ссылку на свою тдс, которая на том же домене, то это тоже самое, что внешняя ссылка.

Думается, он имеет ввиду "внутреннюю" ссылку вида go.php?id=akjdhaksjdhaksjdh, которая 301 редиректом куда-то ;) идет.

Только она ИМХО все-равно внешней посчитается.

Поддержу товарищей - старт завышен. УРЛ в личку, плиз.

Всего: 1527