Боюсь правда, что после публикации на этом форуме данная фича будет прикрыта :(
Вообще-то relevancy=уместность.
Но тут уже от особенностей русского языка никуда не деться :)
Во-первых, не каждый без запинки произнесёт это слово, а во-вторых
фраза "подвысить уместность документа" заключает в себе некоторое противоречие, в отличие от фразы "повысить релевантность документа".
Не правда ваша!
game 349,100 impressions в день.
Ну уж если быть совсем точным, то и IIS в этом формате логи записывать умеет. Не уверен на 100%, но ИМХО именно этот стандарт называется Common Log file format или даже W3C recommended.
Блин, как я люблю страницы шириной в полтора экрана, кто бы знал :)
Несколько замечаний: HTTP_USER_AGENT передаётся в добровольном, а не принудительном порядке, кроме того может обрезаться файерволами (к приличным роботам не относится :)). И уж если система передаёт HTTP_USER_AGENT, то уж в не зависимости от типа запроса POST или GET.
Лог содержит 9 полей, а не большее количесвто как могло показаться на первый взгляд :)
Вот их расшифровка
1. IP address У Серёги этот адрес is resolved в имя (звиняйте, русского эквивалента не помню :)), обычно это на сервере не делается, т.к. это лишняя нагрузка при каждом обращении.
2,3 это логин и пароль. Некоторых ботов можно настроить для доступа к закрытым каталогам. Обычно пусты.
4. дата по Гринвичу (GMT) с указанием сдвига. + восточнее Гринвича, - западнее.
(В Москве сейчас +4, зимой +3, -4 это где-то в Америке)
5. Запрос переданный серверу, с указанием метода и протокола. Новых роботов можно определять, анализируя это поле. Кроме ботов только маньяки и некоторые offline browser'ы обращаются к robots.txt :)
Но тут главное не упустить бота, т.к. у некоторых поисковиков один из ботов обращается к robots.txt, а другие уже по сайту ползают.
6. Статус ответа сервера. 200=OK, 403=Forbidden, 404=Not Found и так далее.
7. Размер запрошенного документа (файла)
8. Рефферер. По ссылкам боты не ходят (они их выдерают из html rjlf и обращаются напрямую), так что это поле как правило ботом не заполняется.
9. Самое главное поле. Тот самый HTTP_USER_AGENT. Как правило именно по этому полю и определяют ботов. Однако тут есть засада - некоторые боты прикидываются венниками, то бишь обычными браузерами. Поэтому не худо резолвить IP адрес и по доменному имени смотреть уж не бот ли это был.
Удачи.
Да, незаполненные поля заменяются прочерками. Всегда заполнены только 1, 4, 5,6, и 7 поля. Без 1-го и 5-го сервер не будет знать что и куда отдавать, а про 4,6, 7 сервер заполняет на основании своих данных.
округленное до 100
Я бы сказал, что правила округления несколько другие.
Или мне просто не везёт, либо число показов в день меньшее 400 округляется до 0. Кроме того, в диапозоне от 400 до 1000 я вообще нечётных цифр не встречал.
Ты прав. Если работать в индивидуальном порядке то ни НДС ни других налогов можно и не платить :) Кроме того, и с противоположной стороны особого желания проводить оплату через бухгалтерию что-то не заметно.
Т.е. весь договор -джентельменское соглашение. А продаётся/покупается не место в поисковике, а приобретение навыков и повышение траффика.
3. Возможно ещё и не могут, но в РФ закон о цифровой подписи принят. Возможно просто ешё не вступил в силу. В любом случае это событие не за горами. Тем не менее, договоры могут заключатся, а могут и нет - зависит от пункта 4.
4. Оказание возмездных услуг является налогооблагаемой деятельностью. НДС - 20%. Если фирма честная, то она а) заключает договоры и б) платит налоги
Не пойду я на их форум, т.к. считаю, что платить за переиндексацию просто абсурдно. Я бы скорее платил за то, чтобы некоторые страницы повторно не индексировались :)
А вот ускоренная индексация новых страниц возможно была бы интересна.
Но в случае с Яндексом это опять не имеет никакого смысла, т.к. в "рыбные" дни страница появляется в индексе уже через три часа после её добавления. Разве что только если добавлять страницы пачками?
Возможно спрашивающий хотел чтобы робот заходил почаще на страницу, на которой появляются новые ссылки, брал эти ссылки и индексировал их?
Не знаю точно частоты захода робота Яндекса (небольшой оффтопик: какой из анализаторов логов позволяет отследить подобную активность?), но меня она вполне удовлетворяет - мой сайт не является новостным ресурсом и мне не критично днём раньше или днём позже новый материал станет доступным в поиске.
Вообще тяжело придумать контент ценный сам по себе, но тем неменее регулярно изменяющийся. Ассортимент товаров в магазине? Меняется не так уж и часто. Да и цены на товары нынче не скачут.
Предположим ситуацию, что страница с конкретным товаром находится на первой странице соответствующего запроса и хочется "проапдейтить" цену в результатах выдачи... Глупо, потому как если посетители и обращают внимание на дату документа, то их немного, т.к. она весьма незаметна, да и верить цене в поисковике народ как-то не привык - онв во-первых могла "устареть" на момент поиска, а во-вторых всё-равно придётся на сайте выяснять сколько платить за доставку, какие налоги включены в цену, да и нет ли скидок при покупке на большую сумму придётся всё равно на сайте.
А если страница меняется кординально и при этому уже находится на "призовом" месте... Лучше от греха подальше её не менять, взамен её добавить новую и спрятать ссылки на неё.
Так что для меня было бы интересно оплатить только индексацию всего сайта целиком, а не его переиндексацию. И опять-таки имеет смысл оплачивать только очень большое количество страниц, т.к. с малым числом Яндекс весьма не плохо справляется и забесплатно...
А вот желающих оплатить ускоренную индексацию в Рамблере нашлрось бы больше :D
виртуальный хост тоже подразумевает постоянство IP.