stealthy

stealthy
Рейтинг
69
Регистрация
15.06.2006

Вы бы сначала почитали о чем речь, а потом постили такие скрипты. В чем смысл скрипта, который генерирует список всех выдранных со сайта ссылок (не далее 5 уровней почему-то, как зашито в интерфейсе)? Это и сам Гугл прекрасно сделает.

А вот корректно его настроить еще нужно потрудиться, иначе он или ничего не находит, или вообще все ссылки подряд вынимает. Не так уж мало сайтов, где не используются расширения страниц типа .php и .html.

Причем тут Orfus? Это не система проверки орфографии, а система отсылки сообщений владельцу сайта если пользователю кажется что найдена ошибка.

2ТС: а проверка работала прямо по дереву каталогов разом или по одному файлу?

blaize:
это зависит не от количества страниц, а от количества типов страниц. Если страницы с товаром, урлы для которых генерятся по одному принципу, то всё быстро напишется.
А вот если какой-то заумный принцип расстановки приоритетов, тогда сложно сказать, в зависимости от заумности.

Не понял что именно зависит от типов страниц и про какие типы Вы пишете. Если у вас интернет магазин и вы хотите все динамические страницы в сайтмап запихнуть - это одно. Лично я сильно сомневаюсь что это будет намного эффективнее, чем если краулер пойдет по магазину сам. Если вы хотите расставить разные приоритеты для разных товаров, то это нужна почти ручная работа. Причем до этого должен быть проведен анализ, который покажет, например, разницу в доходности от продаж того или иного товара. И уже на основе этой информации нужно ставить приоритеты. И никакой автомат это не сделает, поскольку доходность может со временем меняться.

С другой стороны, даже в магазине с большим ассортиментом товары будут появляться и исчезать достаточно редко, основной ассортимент будет оставаться неизменным на протяжении какого-то времени. Это значит, что приоритет индексации должен быть выше у новых товаров, чтобы их нашел краулер. Еще возникает вопрос а нужно ли оставлять старые товары в карте сайта, если они уже проиндексировались?

А все самопальные скрипты что сейчас делают по сути - они берут из страниц все ссылки выдирают и в список складывают. Вопрос - а чем это отличается от того, что делает сам поисковый бот?

В общем, все эти автоматические способы что-то сгенерировать пока, как мне кажется, поставленной задачи не решают.

Проблема не в этом. Проблема в том, что совершенно нет никакого смысла делать карту сайта из ссылок, которые гугл и так неплохо найдет из обычного же главного меню сайта. Основная идея sitemaps в том, чтобы указать приоритет индексирования информации на сайте.

А это в полностью автоматическом режиме невозможно, равно как в ручном для больших сайтов (с количеством страниц >200).

Serega1:
А если кто-то вдруг создаст такого Паука, исполняющего java script - это будет новое слово в спам-технологиях, новый виток борьбы с ними, и необходимость переделать миллионы сайтов.
Так что надо надеяться, что этого никогда не произойдет.

Написать интерпретатор javascript в урезанном объеме достаточном для парсинга email в 99% случаев - задача на 3-4 часа.

Слава богу, что пока до этого спамеры не дошли. Хотя в любом случае есть минимум 30 альтернативных яваскрипту способов спрятать email.

Совет практический, бытовой: если хостер не пытается разобраться в проблеме, а проблема есть - уходите с хостинга. Уход пользователей - самый верный способ показать хостеру наличие серьезной проблемы.

Совет технический: поставьте локально сниффер типа HTTP Analyzer, CommView или воспользуйтесь элементарным WGet и выясняйте причину кривой отдачи страниц путем анализа. Пошагового алгоритма тут никто не даст, т.к. причин может быть миллион, поэтому предполагается что Вы опытный сисадмин. Если нет - найдите опытного сисадмина, который поможет. Вероятно, может понадобиться написать какой-то скрипт, для эмуляции нагрузки на сервер, например можно воспользоваться Microsoft Web Stress Tool.

Как только Вы поймете что не так у хостера (спасение утопющих - дело рук), то сообщите о своих выводах хостеру. Если он Вас поймет и захочет помочь и сможет разобраться и устранит проблему - это хороший конец. Если любой из этих if не выполнится - рекомендуется сменить хостера.

Вы изобретаете велосипед. Все три картинки в верхнем ряду вообще не могут использоваться как защита от спам-ботов, причем это понятно было уже 3-4 года назад. В сети навалом (точно тестировал 5 или 6) сервисов, который предлагают онлайн тестирование картинок и прогнозируют процент распознавания различных защит (например вот: http://www.ocr-research.org.ua/demo.html). В крайнем случае разработчику можно брать демо-версию файнридера и прогонять картинки через нее.

На текущий момент есть даже рекомендованная исслодовательскими лабораториями Microsoft примерная форма CAPTCHA изображения, которая на практике устойчива к распознаванию ботами. Можете почитать тут: http://msdn.microsoft.com/library/default.asp?url=/library/en-us/dnaspp/html/hip_aspnet.asp. Ничего сложного с точки зрения разработчика там нет, мы в нашу CMS встроили подобный алгоритм для генерации защитных кодов согласно этой спецификации примерно за 2.5 часа. Пример, о котором я говорю, можно увидеть на www.stratek.ru/feedback.

Не заявляю что это единственно возможный путь, видел на порядки более сложные реализации CAPTCHA, не всегда удобные, правда, в использовании на сайте по ряду параметров.

А что CAPTCHA можно обойти и без распознавания кода в лобовую в статьях (западных) расписано было еще 5 лет назад. Есть даже методы подбора кодовых строк, которые идентифицируют картинку и, как правило, передаются в хидден поле. Но это уже высший пилотаж. А в большинстве случаев это вообще тривиально из-за неграмотной архитектуры решения. Например в Битриксе модуль CAPTCHA содержит элементарную недоработку программистов, никакого распознавания вообще не требуется, спамь - не хочу.

HoSStiA:
Робот Я не понимает сжатие gzip.
/ru/forum/100245
ББ сам отвечал.
Отдавайте ему контент без сжатия, и все вернется.

Понимает он все. Просто нужно отдавать gzip тогда, когда он этого просит. То есть запрос должен быть по протоколу не ниже 1.1 и иметь заголовок соответствующий (Accept-encoding).

А насколько уже указанная функция PHP распознает это все - это вопрос к PHP.

Так рис же запретили к ввозу, а 60-70% риса было привозным (китай, вьетнам, пр.). Так что вряд ли он будет дешеветь из за хорошего урожая. Опять же мне интересно чей это урожай - если наш, то мне вот непонятно где его у нас выращивают. Нужны же заливные поля... с макроподами.

Пока не вижу, что рис с полок исчез или исчезает. Приглядывался месяц - навалом риса. Хотя, черт его знает что в будущем случится.

А насчет цен... Инфляция неумолима, но в Ашане как всегда все можно брать на 50-70% дешевле чем внутри МКАДа. Я тут недавно был в Калинке Стокманн (на смоленке), в продуктовом отделе. Долго ржал когда богато одетый человек (по ходу иностранец, они там в основном закупаются) на 6000р. накупил еды, а унес все в одном пакетике. У меня на 2 человек в неделю уходит 3000-4000 р., по объему это примерно 1-1.2 объема тележки набитой всякой едой и водой. Год назад было чуть больше, но только за счет постоянной миграции с продукта на продукт, так что сложно четко измерить что выросло а что нет. Благо нет цели экономить на всем, потому подсчет никогда не ведется.

Знаете на каком NS запись для вашего домена? Если да то набираете команду в консоли (cmd):

nslookup<ENTER>

>server ns.server.name.or.ip<ENTER>

>domain.name<ENTER>

Таким образом запрос производится к NS серверу на предмет получения записи для domain.name напрямую, минуя промежуточные DNS вас и вашего провайдера. Также это все можно написать в одной командной строке, смотрите хелп. Я по каким-то причинам (забыл уже почему) пользуюсь именно так.

Всего: 937