да, ответ на вопрос по скорости (задавал выше) не получен.
ЗЫ: дык это ж маркетинг :) , можно быть программером и написать супер-пупер программу, но не уметь ее продавать, это уже другая работа других людей.
ЗЫЫ: 2ТС: пригласите программера в форум, пообщаемся
хорошо, семантики нет, а синтаксис?
как вы обрабатываете синонимы и толкования слова (фраз), замену сложных предлогов и вводных слов (что-то вроде: не смотря на, в виду и т.д.)?
вы лучше на мой вопрос ответьте
т.е. по сути получается, что у вас производится морфологический и синтаксический (а возможно и семантический) разбор текста?
а как быть с техническими текстами, которые изобилуют терминами и сокращениями, и иногда в них встречаются формулы?
все уже готово,
вопрос был в том, понимают ли боты сжатый контент. Не хотел тратить время на написание скрипта для отлавливания бота и поэтому спросил здесь.
встречный вопрос: а в DirectAdmin статистика трафика по пользователям корректная?
мне самому интересно, откуда такие цифры:)
имхо, очень конкурентная тематика, сложно будет
и бюджеты у них больше
а как вы определяете что два куска текста одинаковые (простое сравнение, шинглы или что-то еще)?
и как быть с большими объемами информации?
http://ipgeo-base.ru/cgi-bin/Archive.cgi
другой вариант, правда только для России
ну раз такой замечательный скрипт, зачем его продавать и плодить конкурентов?:)
или у вас есть более денежные кнопки бабло?
это уже называется криво настроенный сервер:)
как я понял нужно действовать так:
1. если в заголовке запроса есть Accept-Encoding: gzip (или deflate, или все вместе через запятую), то отдаем сжатое тело http-ответа в соответствующем алгоритме сжатия
2. если в заголовке запроса нет Accept-Encoding или там неизвестный алгоритм, то выдаем несжатое тело http-ответа