exp131

Рейтинг
69
Регистрация
26.05.2010
Muff:

Насколько реально реализовать?

Реализовать это не проблема. Прошу высказываться по целесообразности.

Str256:
Попробовал, в итоге, отфильтровалось 98% страниц. Т.е. удалились все строчки содержащие ?ID и ?page. А это плохо. Объясняю ещё раз. На сайте куча страниц:
site.ru/?ID=eigageabt... # такие не нужны
site.ru/?ID=grsgafvvr... # такие не нужны
site.ru/aghjgbjfdkgf?ID=ganranrgj... # такие нужны
site.ru/awigjrndgjnd?ID=grsgafvvr... # такие нужны

А исключились оба варианта. Как сделать, чтобы не сканировался только 1-й вариант?

Если вам нужны страницы где до ?ID идет текст, но не слэш (/) попробуйте такое выражение:

"\/\?ID=" (без кавычек).

В ближайшей версии я немного изменю механизм исключений чтобы можно было вводить полностью регулярные выражения.

Str256:
Есть куча страниц типа: site.ru/?ID site.ru/?page=

Пробую добавить в исключения:
?ID
?page
?

Программа пишет об ошибке и закрывается. Почему?

Исключения обрабатываются по принципу регулярных выражениий. А знак вопроса не вписан в таблицу преобразования (в следующей версии исправлю). Сейчас просто экранируйте этот символ (напр: \?ID, \?page, \?) либо писать без него вовсе (например: ID, page) результат будет один и тот же.

Muff:
Приобрел программу. Крайне логично и полезно было бы внести следующие изменения.

— при расчете весов на каждой итерации вес страницы должен не суммироваться, а заменяться, как это пишет А. Садовский.

Именно так она и работает. Вес растет с каждой итерацией только потому что передаваемый вес уже больше 1. Чем больше итераций тем точнее данные.

Muff:
— должна быть возможность игнорировать сквозное меню (чтобы вес по ссылкам из сквозного меню не шел) без тега <noindex> (такое уже просили выше).

А как программа должна определять какая ссылка есть меню, а какая нет?

Proffoto:
Запустите плиз, для начала новую версию, а потом уж можно и FAQ делать. Очень не хватает возможности проверять большие проекты

Само собой.

VHS:
Спасибо за ответ. Читать 65 страниц было откровенно влом. Прога отличная.

Что-то становится много тех, кому влом.

Пора делать FAQ?!

exp131 добавил 16.11.2010 в 11:00

BAV81:
Я интернет магазин создаю с нуля мне надо определится с внутренней перелинковкой, чтобы правильно вес распределить для СЧ и НЧ! это я смогу сделать с помощью нее ?

Да. Это как раз ее основная задача. Однако, если ваш магазин содержит более 5000 страниц, возможны проблемы при обработке.

VHS:
Странно программа работает с robots.txt

по строчке
Disallow: *html?*

Программа исключает все страницы с расширением html

Господа. Ей богу, неужели сложно почитать ветку прежде чем задавать вопросы? Это уже обсуждалось.

Повторю еще раз: программа будет поддерживать robots.txt полностью только со второй версии. Сейчас работают только базовые конструкции без *,?,User-Agent и др.

Пока рекомендую вместо robots.txt пользоваться внутренними исключениями.

exp131 добавил 16.11.2010 в 08:07

BAV81:
так я и не понял стоит брать данное программное обеспечение для подсчета веса или нет ? Актуально или ждать следующую версию ?

Решать в любом случае вам. Перед покупкой очень рекомендую почитать форум за последние 2-3 месяца.

Но основной аргумент: если ваш сайт содержит более 5000 страниц то лучше подождать 2-ю версию.

Str256:
Это понятно. Так и приходится делать, но неудобно. Можно запутаться если вариантов много.

Насчёт этого, в личку вам написать можно?

Конечно пишите.

Str256:
Много таких вариантов на одном сайте.

Нужно разбираться с конкретным сайтом. Но практика показывает что "частые" ошибки бывают из-за несоответствиия кода страниц сайта стандартам.

Str256:
А что тут сложного?

Вот смотрите. Во первых программа, должна предлагать сохранять проект, после окончания парсинга. Во вторых она должна предлагать сохранить проект после каждой операции по расчёту весов. Или можно эти операции по сохранению делать автоматически. Тогда при клике на столбик соотвествующий сохранению - программа должна спросить - загрузить ли предыдущие данные - если да - она просто загружает сохранённый проект. Мне кажется это реализовать несложно.
Ещё желательно, чтобы данные по домену: проекты, карты, csv программа сохраняла в папке по названию этого домена.

Поверьте все не так просто. Но вам ничего не мешает сохранять проекты вручную.

Str256:

Ну смотрите. Скажем сайт, отсканировал - посчитал вес. Появились данные в столбике Условный вес. Затем я скажем удалил несколько внутренних ссылок - посчитал вес. Появились данные в столбике Условный вес 2. Скажем результат стал хуже чем раньше. Чтобы вернуться к базовым значениям - мне надо или вручную добавить удалённые ссылки обратно, или если проект был сохранён после парсинга - открыть его, а если не сохранён - повторить парсинг заново. Было бы намного проще - просто кликнуть на 1-й столбец, где данные до удаления ссылок и начать изменения заново. Ну, а ненужный вариант - столбец 2 просто удалить. Короче, я предлагаю ввести откат внесённых изменений.

Вот теперь понятно. :) Быстро такое изменение не вести, поэтому я запланирую это для реализации в одной из версий второй ветки.

Всего: 467