Любой символ кроме русской буквы.
Добавлена визуализация распределения ключевых слов по 20 словным блокам документа (сплайн-диаграмма).
Это конечно Выход, но я при решении похожей задачи лишь частично использовал шинглы, т.к. у меня было ограничение - минимум хранимой информации о документе.
Алгоритм определения степени схожести документа и выделения изменившихся блоков был следующий:
1. Входной текст разбивался на нумерованные блоки (под блоком подразумевается предложение, абзац, ячейка таблицы...);
2. Определялся доминирующий язык блока, из блока удалялись ВСЕ слова, кроме слов из букв определенного языка;
3. Над полученным в п.2. блоком проводится BWT (преобразование Буэрроса-Вильямса), преобразование производится по словам, причём сортировка происходит по измененному алфавиту, больший вес имеют слова из "редких" букв. (это наиболее ресурсоёмкий процесс).
4. Количество шинглов определялось по формуле аналогичной определению веса кворума в п.4. статьи "Яндекс на РОМИП 2004", только помню что были проблемы с этой формулой, она по моему приведена не правильно, там нужно вычислять как 1 - коэффициент мягкости в степени ... а не (1-коэффициент мягкости) в степени. За количество слов бралось количество слов в блоке.
5. Составлялось количество обрезанных (кратность подбиралась от длины блока не помню как) шинглов согласно п.4., по правилу 1 слово - последнее, 2 - предпоследнее и т.п.
6. Полученное после преобразования (п.3.) число и совпадение всех шинглов являло собой не изменившийся блок.
1. IP слиента;
2. Подозрительное отсутствие/наличие некоторых заголовков в запросе;
3. Синхронность запросов к http://counter.rambler.ru/top100.cnt и http://top100-images.rambler.ru/top100/banner-... и данных п.2
4. Резкие колебания посещаемости.
5....
1. Неверный адрес (можно его в личку?)
2. Не русскоязычный ресурс (нет текста на русском языке).
Увеличил разбежку по цветам между фоном и буквами. Теперь, всё читабельно.
Ничего не мешает, если объём передаваемых данных меньше 1К если больше, так можно апач р-ком поставить.
Оптимальней сделать класс рисующий диаграмму, создавать диаграмму из скрипта страницы в которую вставляет картинку, сохраняем картинку в отдельной директории, определяем имя файла как MD5(IP адреса клиента) и просим броузер загрузить файло <img src="AFAFAFAFAFAFAFA...png">. Каждые 5 минут задачей cron`а удаляем все файлы картинок из директории у которых время создания младше -5минут....
Ага, это упрощенна модель иероглифов, но частично южане её не понимают, Тайвань, точно.
Тебя что интересует CURL или сокеты? В прочем какая разница, для CURL есть описание в FM а для сокетов как с любыми другими заголовками.
mod_rewrite и крон вещи разный и несовместимые :)
Речь об удобстве. mod_rewrite + карты.