Комментарии - admak - Профиль вебмастера - Форум об интернет-маркетинге

Page Weight. Программа для настройки перелинковки сайта . Часть 2

6 декабря 2011, 12:51

Sterh:
Потому что три года назад "комбайна" было достаточно для работы с большинством сайтов. Как только поняли, что "уперлись" начали ковырять другие возможные варианты.

Admak:
вопрос: можно ли делать парсинг своими инструментами, а использовать расчет веса в Вашей програме?

Sterh:

Нет

Вы сами себе противоречите и держитесь за комбайн. :(

Сбор исходных данных - это трудоемкая и долгая рутина, с которой мужественно сражается каждый разработчик win программ. Тратя именно на этот кусок много сил, зачастую в ущерб основному функционалу.

Самое ценное - это математика (анализ, расчет, построение отчетов, подсказки, рекомендации)

Так почему же не сосредоточится именно на функционале, а не на рутине?

Почему не использовать открытый формат входных данных? Алгоритмы парсеров уже давно отработаны и не содержат внутри никаких секретов.

Технически - это просто замена функции from_url на from_odbc или from_mysql

При работе с большими сайтами, напрягает не нужная обезьянья работа:

запустил софт1 – тянется весь сайт, анализ1, отчет1

запустил софт2 – тянется тот же сайт, анализ2, отчет2

запустил софт3 – тянется тот же сайт, анализ3, отчет3

анализы начиная от банальной проверки на 404, редиректы, тайтлы, кейворды и т.д.

linkoscop 3 это 30 инструментов для работы с внутренней перелинковкой

6 декабря 2011, 11:48

mark3000:

admak, У меня такие сквозняки со слэшем в конце на WP. Программа "заходит" и представляется браузером и поэтому попробуйте перейти по ссылке без слэша, он автоматически добавляется в браузере.

в данном случае "автоматически" - это 301 редирект.

адрес пациента и лог сервера сейчас сброшу в личку.

еще пример, первый попавшийся вордпрес, у него чпу со слешем, поэтому он "автоматически" добавляет слеш.

смотрим HTTP запросы к http://mywordpress.ru/about

(лишнее из дебага убрал)

---request begin---

GET /about HTTP/1.0



---response begin---

HTTP/1.1 301 Moved Permanently

Location: http://mywordpress.ru/about/



и затем в идет прозрачная отработка редиректа, который "автоматически" добавляет слеш:



301 Moved Permanently

Location: http://mywordpress.ru/about/ [following]



---request begin---

GET /about/ HTTP/1.0



---response begin---

HTTP/1.1 200 OK

страница получена.

linkoscop 3 это 30 инструментов для работы с внутренней перелинковкой

6 декабря 2011, 09:29

linkoscop 3.15 триал, скачал сегодня утром - ошибка обработки последнего слеша

обычный вордпрес, сквозняк


<a href="http://domain.ru/about" title="About">About</a>

но linkoscop запрашивает с сервера http://domain.ru/about/ (с последним слешем, почему??)

соответсвенно получает законный 301 на http://domain.ru/about - это ему не нравится и он выбрасывает страницу в битые ссылки. таким же образом улетают категории(кроме трех) и часть тегов.

http://domain.ru/about не равно http://domain.ru/about/ , но linkoscop счтает что равны.

открываю отчет "Ссылки с переадресацией", вижу все без слешей:

куда указывает                       код

куда переадресовывает

http://domain.ru/about               301

http://domain.ru/about

Как можно тормознуть бинг бота?

5 декабря 2011, 21:55

запретить бингу лазить.

в robots.txt

User-agent: bingbot

Disallow: /

Page Weight. Программа для настройки перелинковки сайта . Часть 2

5 декабря 2011, 20:48

Очень заинтересовала эта программа, упоминали на одном семинаре.

Почитал топик, очень удивило:

Программа Page Weight вышла в свет более трех лет назад.

Функция остановки не реализована как раз потому, что не пишется в БД или файл - все в памяти.

не понятно зачем городить комбайн из двух совершенно разных задач?..

еще стандартный консольный wget на 32х метрах рама успешно выполнял функции парсера для "ленивых", успешно делая полные копии сайтов. (офтоп: до сих пор чекаю wget-ом свои сайты на 404 или редиректы)

Сейчас готов парсер для второй версии, где это все уже реализовано. Т.е. старт, стоп, парсинг отдельного раздела и прочее... И в новом варианте уже все пишется в БД.

тут две задачи: парсинг и расчет веса.

вопрос: можно ли делать парсинг своими инструментами, а использовать расчет веса в Вашей програме? данные затягивать или импортом или sql дампом. (по сути нужно передавать только два поля: урл и сам текст страницы).

хочется запускать парсинг на том же сервере, где и находится сайт с максимальной скоростью, а не отлавливать глюки инета и не ждать по 7-11 суток, как упоминалось в этом топике.

admak добавил 06.12.2011 в 00:02

Sterh:
Вообще действительно, в 95% случаев какие то баги программы - это баги кода сайтов.

немного не понятно, Ваш парсер выполняет яваскрипт?.. иначе чем мешает кривой код сайта? полностью пытаться разгрести DOM - безсмысленно. IMHO, обычного набора регулярок будет достаточно.

Несколько статей с одними ключами - что скажут на верху?

1 декабря 2011, 16:56

Ladycharm:
Яндекс выдает в серпе только одну страницу с домена, так что - только 10 разных доменов (поддомены не проканают).

PS: Прецедентов полного ТОП-10 от одного вебмастера ещё не было. Попадёте в книгу рекордов Гиннеса.

яндекс может все... (с) яндекс :)

/ru/forum/675911

Оценка сайта

1 декабря 2011, 15:18

еще дребезжащая строка разрывает мозг и хочется просто закрыть сайт.

или уберите бегущую строку совсем или сделайте ее на флеше.

Украина - получение чеков за все месяца (общий топик)

13 сентября 2011, 10:33

mill.millioner:

Сотрудники Аваль банка опять ввели в заблуждение, уверяя, что теперь они обналичивают чеки быстро (в теч. 3 недель) и всего 2% - единственных и окончательных за обналичку. В итоге, оказалось что эта процедура действует только для чеков с небольшими суммами. Какой порог суммы объяснить не смогли.
С "большими" чеками - все-также долго и так же дорого. Сразу заплатил 2 %, потом еще с чека списали 2.5 %. 🤪

проверьте, 2.5 % = 10$

в авале 2% обнал, плюс с чеков больше 500$ списывается ровно 10$ - как утверждают сотрудники банка, это не их коммисия, а это списывает банк респондент за перевод в украину.

просьба ко всем: гляньте, плз, внимательно по своим цифрам, а не по тому, что говорят в банках..

списываются ли эти 10$ в других банках?

Обработка тегов статьи

12 сентября 2011, 15:56


$str="тег1 , тег2,тег3";

echo preg_replace('/( +)?,( +)?/', ', ', $str);

ps: это набор постов? или банальное не желание думать...

Заменить/Удалить последний символ в строке. PHP

12 сентября 2011, 15:39

еще вариант с регуляркой:


$str = "s, 2, 55, 465,";

$str=preg_replace('/\,$/', '.', $str);

Все что нужно знать о DDоS-атаках грамотному менеджеру

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

admak