blaize

Рейтинг
24
Регистрация
06.04.2006
Должность
Linux Programmer
Дэн Шорин:
Вообще, интересно, каким образом тулбары PR считают. У google спрашивают? А если google.com недоступен - откуда циферка берется? Если кто-нибудь знает, поделитесь инфой (или ссылочкой)!

toolbarqueries.google.com/search?client=navclient-auto&ch=<тут чексум>&ie=UTF-8&oe=UTF-8&features=Rank:FVN&q=info:<тут url> :)

stealthy:
Не понял что именно зависит от типов страниц и про какие типы Вы пишете. Если у вас интернет магазин и вы хотите все динамические страницы в сайтмап запихнуть - это одно. Лично я сильно сомневаюсь что это будет намного эффективнее, чем если краулер пойдет по магазину сам.

Вы правильно поняли. У меня не магазин, но суть та же. Дело в том, что краулеры не сразу находят страницы, если они должны пройти до n-й страницы при многостраничном просмотре товаров. Это лечится хорошей навигацией или картой сайта.

Если вы хотите расставить разные приоритеты для разных товаров, то это нужна почти ручная работа. Причем до этого должен быть проведен анализ, который покажет, например, разницу в доходности от продаж того или иного товара. И уже на основе этой информации нужно ставить приоритеты. И никакой автомат это не сделает, поскольку доходность может со временем меняться.
А Вы уверены, что приоритеты помогут? Я не почувствовал разницы при простановке приоритетов. Такое чувство, что гугл прошёлся, посмотрел на страницы и сам решил какие у кого приоритеты. Несколько месяцев наблюдал.

Моё мнение, что надо делать сайпмапы с новыми страницами (ещё один тип карт сайта), в которых будут только новые, которые хотите проиндексировать.

С другой стороны, даже в магазине с большим ассортиментом товары будут появляться и исчезать достаточно редко, основной ассортимент будет оставаться неизменным на протяжении какого-то времени. Это значит, что приоритет индексации должен быть выше у новых товаров, чтобы их нашел краулер. Еще возникает вопрос а нужно ли оставлять старые товары в карте сайта, если они уже проиндексировались?

Сам гугл советует их убирать из карты после индексации и использовать другой тип (см.выше), которым сообщать только о новых или изменённых страницах.

А все самопальные скрипты что сейчас делают по сути - они берут из страниц все ссылки выдирают и в список складывают. Вопрос - а чем это отличается от того, что делает сам поисковый бот?
В общем, все эти автоматические способы что-то сгенерировать пока, как мне кажется, поставленной задачи не решают.

Не вижу смысла писать своего поискового бота. Всё, что он найдёт, гугл найдёт тоже.

Человек ведь сам знает свой сайт и его структуру, поэтому может написать скрипт, который просто расскажет какие адреса есть на сайте. Если это статьи, то все адреса у них будут вроде "article/about-beach-girls.html", причём "about-beach-girls" - это ключ в базе, который вытащить оч. просто. В данном случае статьи - это один тип страниц, новости ("news-01.html") - это второй тип и тд (отвечая на Ваш первый вопрос).

Я говорю именно о таком скрипте, зачем городить огороды?

При этом, если ведёте статистику просмотров каждой страницы, то и её достаточно просто вытащить из базы, отсортировать и проставить приоритеты в зависимости от посещаемости, от типа статьи, ключевых слов или фантазии автора.

Статистика может быть разной, хоть по продажам (или переходам из поисковиков, кому как нравится).

Но я не заметил влияния приоритетов на индексацию. Гугл просто брал всё.

warezx:
есть скрипт для распознования капчи, распознает почти всё.

Даже волка. :) И зайца. :)

Если серьёзно, то можно написать скрипт, который будет распознавать простенькие цифры и буквы, но без наворотов. Если капча будет разными цветами, размером, наклоном, то всё, пиши пропало.

А распознавание образов (волки и зайцы) - это нейронные сети. Такой задачей занимается одна знакомая кафедра, долго уже занимается (для видео).

Могу дать контакты. Может, напишут. Не от 500.

UAWEB, я имел в виду тот, что написал для себя. Поправка, там нет заброса на FTP (перепутал с froogle).

Могу кинуть Вам свой как отправную точку, если хотите. Для начала нормально будет, потом допишете что надо.

stealthy, это зависит не от количества страниц, а от количества типов страниц. Если страницы с товаром, урлы для которых генерятся по одному принципу, то всё быстро напишется.

А вот если какой-то заумный принцип расстановки приоритетов, тогда сложно сказать, в зависимости от заумности.

UAWEB:
Люди, неужели никого не интересует тема генерации sitemap?

Этот скрипт пишется за полчаса, столько же уйдёт времени на разбор приведённого Вами.

Всё равно под каждый сайт надо своё писать, только сам алгоритм закидывания на FTP общий будет (3-4 строки).

fima32:
Может кто-нить подскажет, хотя я уже все важные страницы пробежал ручками, просто уже спортивный интерес какой-то

Вы поакуратнее со спортивным интересом :) Я как-то начал с простого соединения к pop3, а закончилось почтовым клиентом из-за простого вопроса "а сможешь получить мне почту?".

Короче, времени на это можно убить много.

В спам-технологии правильно копаете. Где-то видел обсуждения, как распознать цифры на картинке. Может, и скрипты уже выполняют.

Под linux есть текстовый браузер links, он умеет выполнять javascript - http://links.twibright.com/features.php

Javascript support with full user control over script run

Если покопать исходники, то может, и выцепите модуль для этого.

Spartaco:
у меня та же ерунда - часть счетчиков в опере есть, а часть пропала... Хм...

Показало последний адрес. Что это значит, уважаемый m@ksim ?

Это значит, что у него несколько IP-адресов - http://getip.ru/ru/counter.yadro.ru/ и DNS вернул один из них. :)

Artad, если надо отдельно под почту - то регьтесь в гугле, 2 гига на домен вроде.

Но там пользователей вручную надо добавлять (через панель) и логины в виде user@site.ru.

Всё бесплатно, от Вас нужно внести MX-записи в ДНС.

Доступ к почте через интерфейс гуглмайла или pop3s/smtp.

Вот я создавал тему не так давно - /ru/forum/102954

Зингельшухер:
Аналогично и у ТС можно так забубенить (хотя не вижу причин не сделать просто 2 запроса, один селект и один апдейт)

Вот именно. :) Если одним запросом не сделать - тогда уж проще достать данные и закинуть их.

Если запросов много получится - то одной транзакцией (Если innodb). И все дела. :)

Зингельшухер:
Можно, у меня есть например в одном из скриптов запрос типа

просто надо более точно понимать что и куда запрашивать... (а то что делается в этом топике это гадание на кофейной гуще)

Насколько помню, для этого SELECT должен возвращать одно поле, это как раз Ваш случай.

У ТС полей несколько, в этом случае не выйдет.

Правда, может в 5.1 по-другому всё.

Всего: 186