- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
В программе должен быть массив в котором хранятся текущие не загруженные страницы - нужно всего-то сосчитать количество этих страниц и вывести. Если они в одном массиве то это что-то типа count(array_url) и всего-то, если массив более сложный то добавится пара-тройка строк кода. В общем, то что я прощу абсолютно реально, просто и быстро реализуемо - если вы считаете что это не так - попытайтесь понять о чем я говорю.
На самом деле в программе нет подобного массива. Обход ссылок осуществляется рекурсивно, и поэтому программа "не знает" длины очереди. Нашла ссылку - прошла по ней если ее еще нет в базе и так пока не обойдет всю глубину вложенности.
Возможно именно из-за этого возникают "глюки" при большом объеме страниц на сайте или большой вложенности (/page1/page2/page3/page4/page5/page6/.../pageN). Во второй версии мы полностью изменили алгоритм обхода сайта, поэтому там такая функция реальна и в конечном итоге будет реализована.
exp131 конец месяца ноября - что там с обещаниями выпустить к этому моменту новую версию?
exp131 конец месяца ноября - что там с обещаниями выпустить к этому моменту новую версию?
Парсер готов. Сейчас решаем некоторые технические нюансы. Если и дальше все пойдет по плану, то к 20-м числам декабря выпустим парсер и маленький модуль тех. анализа в закрытое бета-тестирование (будет доступен только покупателям текущей версии).
Модуль перелинковки обрастает все новыми и новыми наворотами, поэтому его выпустим уже ближе к концу января следующего года, как раз, когда будут выловлены и исправлены баги парсера (если таковые найдутся).
Sterh то есть новые обещания и перенос еще на несколько месяцев... :)
1. А это кому как. Кто считает, что не нужно подобные ссылки и страницы обрабатывать - закрывает их в настройках
я спросил именно нафига КАЧАТЬ?
я не против, что нужно ОБРАБАТЫВАТЬ такие страницы-картинки. ведь если вес сайта на неё утекает, то надо об этом знать и что-то по этому поводу думать
но зачем же ЗАКАЧИВАТЬ картинку из интернета (тратится время и трафик), если заведомо известно что со страницы-картинки ТОЧНО никаких ссылок уже не будет???
Почему как бы? Ссылка на страницу есть, урл страницы есть - значит это и есть страничка.
1. А это кому как. Кто считает, что не нужно подобные ссылки и страницы обрабатывать - закрывает их в настройках. Кому нужно - не закрывает.
2. Поставить другой скрипт, что бы не было конструкции <a href>
А подскажите, как правильно закрыть такие конструкции <a href> с картинкой, чтоб вес зря не уходил неизвестно куда? Если в роботсе запретить индексацию картинки, это решит проблему утечки веса?
Подскажите, программа определяет "ссылки относительно текущего документа"?
Прогнал сайт через программу и похоже, что все относительные ссылки вида "../bb.html" попали в "битые" с описанием ошибки "Исключение во время запроса WebClient." Т.е считаются ссылки только вида "/aa/bb.html", а ссылки вида "../bb.html" в ошибках.
Получается, что для сайтов, где урлы ссылок имеют неполный адрес программа бесполезна? Или, что-то можно настроить?
А подскажите, как правильно закрыть такие конструкции <a href> с картинкой, чтоб вес зря не уходил неизвестно куда? Если в роботсе запретить индексацию картинки, это решит проблему утечки веса?
Через ява-скрипт или XML Закрытие в роботс не поможет.
Подскажите, программа определяет "ссылки относительно текущего документа"?
Прогнал сайт через программу и похоже, что все относительные ссылки вида "../bb.html" попали в "битые" с описанием ошибки "Исключение во время запроса WebClient." Т.е считаются ссылки только вида "/aa/bb.html", а ссылки вида "../bb.html" в ошибках.
Получается, что для сайтов, где урлы ссылок имеют неполный адрес программа бесполезна? Или, что-то можно настроить?
Исключение во время запроса WebClient. - это сервер отбивает. Установите паузу между запросами при парсинге.
>1000, закрываю
ТС может начать новую "серию".