medaest

Рейтинг
133
Регистрация
12.05.2005
minaton:
Что может быть разделителем слов, на других страницах указано, на этой - нет...

Любой символ кроме русской буквы.

Добавлена визуализация распределения ключевых слов по 20 словным блокам документа (сплайн-диаграмма).

Rusl:
Из этой ситуации можно выкрутиться используя ранжирование текстов и сохраняя для текстов одного ранга шинглы кратные одному числу.

Это конечно Выход, но я при решении похожей задачи лишь частично использовал шинглы, т.к. у меня было ограничение - минимум хранимой информации о документе.

Алгоритм определения степени схожести документа и выделения изменившихся блоков был следующий:

1. Входной текст разбивался на нумерованные блоки (под блоком подразумевается предложение, абзац, ячейка таблицы...);

2. Определялся доминирующий язык блока, из блока удалялись ВСЕ слова, кроме слов из букв определенного языка;

3. Над полученным в п.2. блоком проводится BWT (преобразование Буэрроса-Вильямса), преобразование производится по словам, причём сортировка происходит по измененному алфавиту, больший вес имеют слова из "редких" букв. (это наиболее ресурсоёмкий процесс).

4. Количество шинглов определялось по формуле аналогичной определению веса кворума в п.4. статьи "Яндекс на РОМИП 2004", только помню что были проблемы с этой формулой, она по моему приведена не правильно, там нужно вычислять как 1 - коэффициент мягкости в степени ... а не (1-коэффициент мягкости) в степени. За количество слов бралось количество слов в блоке.

5. Составлялось количество обрезанных (кратность подбиралась от длины блока не помню как) шинглов согласно п.4., по правилу 1 слово - последнее, 2 - предпоследнее и т.п.

6. Полученное после преобразования (п.3.) число и совпадение всех шинглов являло собой не изменившийся блок.

uslugi:
Здравствуйте. Не подскажите, как рамблер может определить, что счетчик накручивают?

1. IP слиента;

2. Подозрительное отсутствие/наличие некоторых заголовков в запросе;

3. Синхронность запросов к http://counter.rambler.ru/top100.cnt и http://top100-images.rambler.ru/top100/banner-... и данных п.2

4. Резкие колебания посещаемости.

5....

D . G .:
ну код вроде отгадал... но все что получил это
" *Страница оптимизирована для печати " :) ...

1. Неверный адрес (можно его в личку?)

2. Не русскоязычный ресурс (нет текста на русском языке).

minaton:
Просто нечитабельная картинка с кодом для проверки от робота... Неужели так трудно сделать простой однотонный фон?

Увеличил разбежку по цветам между фоном и буквами. Теперь, всё читабельно.

Cherny:
Beginning, я, правда, не совсем программист, но что мешает написать так:
<img src="script.php?var1=<?=$var1 ?>&var2=<?=$var2 ?>">

Ничего не мешает, если объём передаваемых данных меньше 1К если больше, так можно апач р-ком поставить.

Оптимальней сделать класс рисующий диаграмму, создавать диаграмму из скрипта страницы в которую вставляет картинку, сохраняем картинку в отдельной директории, определяем имя файла как MD5(IP адреса клиента) и просим броузер загрузить файло <img src="AFAFAFAFAFAFAFA...png">. Каждые 5 минут задачей cron`а удаляем все файлы картинок из директории у которых время создания младше -5минут....

Lucky™:
Medaest спасибо, это для китайского - <body lang='ZH-CN'> ?

Ага, это упрощенна модель иероглифов, но частично южане её не понимают, Тайвань, точно.

Asher:
А на php кто-нибудь реализовывал подобное? Хотелось бы взглянуть. :)

Тебя что интересует CURL или сокеты? В прочем какая разница, для CURL есть описание в FM а для сокетов как с любыми другими заголовками.

Asher:
Использование mod_rewrite возможно только вместе с кроном, что повлечет за собой очень высокую дополнительную загрузку Апача.

mod_rewrite и крон вещи разный и несовместимые :)

Interitus:
При нагрузке меньше 100 заходов в секунду - даже ничего не почувствуется в плане производительности.

Речь об удобстве. mod_rewrite + карты.

Всего: 319