Sterh

Sterh
Рейтинг
226
Регистрация
15.06.2006
Mabutanin:
жесть, это я так до утра (буквально) буду сканить !!! "поигрался" с кол-вом потоков и прочим, ни чего не помогает, все равно потом встплывает ошибка "истекло время ожидания операции" , не на 20й так на 55 й....

---------- Добавлено 22.01.2013 в 17:06 ----------



т.е. проблема не в настройках сервака, а у меня на компе !?

С.м. личку.

seoprotektor:
Попробуйте максимальные настройки сканера - 1 поток, таймаут 100, пауза между запросами 2 сек, увеличивать паузу между запросами, авт. пересканировать битые ссылки. Если так будет все ок. Эксперементальным путем понижайте/увеличивайте настройки.

Неее.. я этот сайт отсканил в 30 потоков и без паузы. Т.е. тут опять что-то где-то не законнектилось в машине (наверное).

Mabutanin:
сделал все точно как Вы перечислили выше, не помогает, проблема все та же. на 20й страницы "истекло время ожидания операции", причем не зависимо от сканируемого урла, просто тупо на 20 й появляется. Очень жаль прога обещала быть интересной и полезной.😒... не теряю надежды что саппорт решит проблему !

УРЛ в личку плиз

Micher:
Хотелось бы узнать, учитываются ли склонения, перемена мест слов из запроса при поиске совпадений?
При проверке запроса в кавычках заметил, что программа ищет в тайтлах и в сниппетах запрос вместе с кавычками, т.к. показывает 0 в графе "Вхождение всех слов в тайтл". Посмотрел в ручную, полные соответствия есть.

Склонения да - используется стемминг

Перестановка слов - пока нет

В планах - опечатко детектед и перестановка слов.

По поводу кавычек - в выдаче же без кавычек ключи, вот прога их и не видит. Для проверки точного вхождения нужен другой запрос к поисковику. Подумаем, как это сделать

Так, сообщение для всех, у кого по прежнему куча 503 ошибок (время ожидания истекло).

Ситуация следующая: есть два программиста, у которых все проблемные сайты сканятся на ура. Есть я, полный лох в программировании (как и большинство пользователей). У меня такая же беда (т.е. я на своей машине все баг репорты подтверждаю).

После долгих плясок с бубном пришли к следующему:

На машинах, где возникает подобная проблема отсутствует .NET Framework 3.5

Порядок действий:

1) Скачать и установить фрэймворк http://www.microsoft.com/en-us/download/details.aspx?id=5007 (если у вас стоит 4.0., то все равно скачать и установить!)

2) перезагрузить комп

3) повторить скан проблемного проекта

4) отписаться помогло или нет (последний пункт не обязателен, это просто убедительная просьба).

После выполнения этих действий у меня на машине скан идет без проблем и ошибок. Очень надеемся, что дело именно в отсутствии фрэймворка на некоторых машинах.

burunduk:
есть сайт 50000 страниц на нём около 150 ссылок на странице
часть ссылок удаляется, часть добавляется по определённым правилам

возможно, нужен дополнительный модуль моделирования по правилам
удаление: удалять ссылку на странице, если выполняется какие-то условия
добавление: добавлять ссылку на страницу если выполняются какие-то условия

ссылки для добавления можно загрузить отдельной таблицей
условия могут быть как простыми: если нет на странице, то добавить из списка (по очереди)
так и более сложными: с привязкой к полям счётчика/счётчиков анкоров

да речь идёт об простановке кдалении ни одной ссылки, а сразу нескольких

Есть здоровый список по доработкам модуля моделирования. Лежит у меня в столе :) Не пускается в работу по двум причинам:

1) Надо довести парсинг до идеала. Пока не доведем, дальше не двинемся

2) этот пункт я уже упоминал: расширенное моделирование интересно узкому кругу специалистов. Сделать его интересно, но не могу поставить в приоритет. Полуавтомат был бы более интересен в коммерческом плане.

---------- Добавлено 21.01.2013 в 22:43 ----------

dimatel:
До сих пор не получил ответа по своей проблеме - все ссылки после 22-й попадают в список битых ссылок!
Выслал файл projects.list, как просили - ответа нет!

Вам обновление 2.0.9 тоже не помогло?

burunduk:
Sterh, как изменить большое число ссылок (более миллиона) на проекте - в ручную не вариант :)

В смысле? боюсь никак

dimatel:
У меня в результатах - у каждой страницы начальный вес - "1"
Это нормально?

это стартовый вес. Что бы увидеть распределение веса по сайту, вес нужно рассчитать.

dimatel:

Число входящих ссылок везде одинаковое, исходящих - разное!

и?

Str256:
burunduk, а что ты скажешь по моделированию с изменением весов страниц. Насколько это оправдано менять, чем-то отличается от гадания на кофейной гуще?

Есть мыслЯ как это сделать не гадая на кофейной гуще (все относительно ессно). Потихоньку начинаем реализовывать.

---------- Добавлено 21.01.2013 в 14:39 ----------

tenebrum:
При попытке спарсить сайт, почти все страницы кидает в битые, хотя это не так. На сайте с 12000+ страниц, парсит максимум 100 и то в битые кидает. Писал несколько раз в техподдержку, отправлял скрины с настройками, сказали, что не могут понять на чем стопорится программа. Вот до сих пор жду ответа по моей проблеме и не могу работать с программой за которую заплатил деньги.

Вот после 2.0.8. всплыл какой то непонятный глюк, который приводит к увеличению количества 503 ошибок. Беда в том, что всплывает спонтанно (есть несколько проблемных сайтов, на которых тестируем), и далеко не всегда. В большинстве случаев ошибки - это результат работы сервера. Т.е. отбиваются запросы и лечится это сокращением количества потоков.

Сейчас продолжаем ковырять и пробовать разные варианты.

Nina:
А почему программа после последнего обновления роботс видит через раз? В смысле вроде как видит, но процентов 90 закрытых в роботсе ссылок почему-то считает незакрытыми от индексации. Причем параметры закрытых и якобы незакрытых абсолютно одинаковы - и там и там pechat.html. Раньше такого глюка не было

Если сканируете сайты, которые сканировали до обновления, то рекомендуется удалить проект и сделать новый.

dimatel:
Подскажите еще как правильно выставить начальный вес страниц для расчета веса?
Пример :
входящие ссылки - 20
исходящие ссылки - 34
начальный вес - 1
уровень -1

Какой в этом случае выставить начальный вес страницы?

Изменять начальный вес имеет смысл на тех страницах, куда ведут ссылки с других сайтов. Какое именно значение ставит - тут скорее на глаз. Если ссылаются жирные страницы, то ставьте больше, если нулевки, то меньше

Doroshev:
У меня постоянная "загрузка страниц выдачи", никак не закончится... Запросов то всего 7 штук, а прога висит.

Баг, приводивший к зависанию, нашли и исправили. Сейчас еще кое-что прикрутим и выложим обновление.

Miha Kuzmin (KMY):
Это не конкурентность. Нет предмета обсуждения.

Мих.. а давай с терминами определимся. Что в твоем понимании конкурентность?

TBAG:
Да, а что он тогда отвечает так будто бы это его прога?

Ок, скажу ему ай-яй-яй :)

---------- Добавлено 17.01.2013 в 22:28 ----------

Content-pro:
Sterh, ... Но программа предназначена для быстрого первоначального отсева и справляется со своей задачей на ура.

Вот и я про то, "а мужики не понимают" :)

ЗЫ: отловили баг, приводивший к зависанию, скоро обновимся.

Всего: 2038