OZE

OZE
Рейтинг
152
Регистрация
21.05.2006
Newm:
Хотя... Конечно встает вопрос о скорости обработки и на каких массивах данных. Но пока из того, что написано, либо ТС не представляет имеющихся алгоритмов, либо пытается развести лохов, либо не умеет грамотно представить хороший продукт.

да, ответ на вопрос по скорости (задавал выше) не получен.

ЗЫ: дык это ж маркетинг :) , можно быть программером и написать супер-пупер программу, но не уметь ее продавать, это уже другая работа других людей.

ЗЫЫ: 2ТС: пригласите программера в форум, пообщаемся

Leom:
Морфология да есть. Семантики нет -- мы языконезависимая технология где все что связано с языком монтируемо. В том что касается технических терминов с сокращениями и т.д. проблем нет -- все будет работать замечательно. Ну а формулы и например графики (синусоиды там всякие и т.д.) мы естественно игнорируем.

хорошо, семантики нет, а синтаксис?

как вы обрабатываете синонимы и толкования слова (фраз), замену сложных предлогов и вводных слов (что-то вроде: не смотря на, в виду и т.д.)?

Leom:
Спорим?

вы лучше на мой вопрос ответьте

т.е. по сути получается, что у вас производится морфологический и синтаксический (а возможно и семантический) разбор текста?

а как быть с техническими текстами, которые изобилуют терминами и сокращениями, и иногда в них встречаются формулы?

Gray:
А в чем вопрос, собственно, и что вы собрались настраивать?

все уже готово,

вопрос был в том, понимают ли боты сжатый контент. Не хотел тратить время на написание скрипта для отлавливания бота и поэтому спросил здесь.

Gray:
И мне действительно интересно, что это сайт, индексация которого в течение месяца может сожрать хотя бы 100 гигабайт.

встречный вопрос: а в DirectAdmin статистика трафика по пользователям корректная?

мне самому интересно, откуда такие цифры:)

имхо, очень конкурентная тематика, сложно будет

и бюджеты у них больше

а как вы определяете что два куска текста одинаковые (простое сравнение, шинглы или что-то еще)?

и как быть с большими объемами информации?

http://ipgeo-base.ru/cgi-bin/Archive.cgi

другой вариант, правда только для России

ну раз такой замечательный скрипт, зачем его продавать и плодить конкурентов?:)

или у вас есть более денежные кнопки бабло?

Rimlyanin:
Вот в том-то и прикол, что бот яндекса не просит пожатый контент, он не понимает его, он просит обычный не пожатый контент, а если сервер не обращает внимания на заголовки и все рвано отдает пожатый, то могут быть проблемы...

это уже называется криво настроенный сервер:)

как я понял нужно действовать так:

1. если в заголовке запроса есть Accept-Encoding: gzip (или deflate, или все вместе через запятую), то отдаем сжатое тело http-ответа в соответствующем алгоритме сжатия

2. если в заголовке запроса нет Accept-Encoding или там неизвестный алгоритм, то выдаем несжатое тело http-ответа

Всего: 441