В каком формате вы ведете базу ссылок ?

sniffer
На сайте с 15.12.2005
Offline
80
#31

Почему я больше придерживаюсь мысли о многопользовательской системе.

Во-первых, известное дело, что без багов не обойдется, каждому высылать обновления - некатит. А так поменял двигло и все зажужжало.

Во-вторых, каждый веб-мастер может юзать несколько подшевных ему сайтов. Не нужно на каждый сайт ходить проверять информацию о ссылках. А так нажал закладочку "работать с проектом [bla-bla]" и уже работаешь дальше с другим проектом.

По поводу корысти, вопроса не встает, системы еще нет :).

Если что-нибудь дельного выйдет, можно сделать типа платный аккаунт, 5$ к примеру, вам все равно, а мне приятно :). Ну а на trial повесить ограничение на количество проектов, ссылок.

Ну и в этой теме так же приветствуются ваши предложения и пожелания и в особенности компетентная консультация по сеошным вопросам.

BeeR or not to BeeR? (вот в чем вопрос)
Z
На сайте с 08.12.2005
Offline
236
#32

ИМХО, нужно делать многопользовательскую бесплатную систему, но кто хочет получить скрипты отдельно, то пожалуйста! Вдруг кому-то нужно будет что-то переделать, или мне вот желательно прикрутить её к общему движку сайта

sniffer
На сайте с 15.12.2005
Offline
80
#33

И так хочу вас обрадовать. Разработка проекта началась ☝

Работаем вдвоем. Спроектировали примерно общую функциональность системы, базу данных, основные аспекты, появились дополнительные очень интересные идеи, но о них потом.

Напарник занимается общей функциональностью движка, я занимаюсь непосредственно проверкой линков.

Скрипт умеет пока немного:

- проверяет доступен ли сайт-партнер;

- проверяет есть ли с морды линк на пагу где стоит бэклинк;

- не закрыта ли она rel="nofollow";

- не закрыта ли она "noindex"

- присутствия тегов "html, body"

- не закоменчена ли она;

- не закрыта ли через мета-тэги

- все тоже самое с пагой где стоит бэклинк;

Есть вопросик один:

Есть ли какие-нибудь веб-сервисы которые отдают тИЦ и PageRank паги. Но не те, которые рисуют картинки, а простое число. Иначе придется тянуть пагу с этим значением и парсить, что очень геморройно и ресурсоемко(траффик).

Egor109
На сайте с 13.12.2005
Offline
155
#34
sniffer:
И так хочу вас обрадовать. Разработка проекта началась ☝
Работаем вдвоем. Спроектировали примерно общую функциональность системы, базу данных, основные аспекты, появились дополнительные очень интересные идеи, но о них потом.
Напарник занимается общей функциональностью движка, я занимаюсь непосредственно проверкой линков.
Скрипт умеет пока немного:
- проверяет доступен ли сайт-партнер;
- проверяет есть ли с морды линк на пагу где стоит бэклинк;
- не закрыта ли она rel="nofollow";
- не закрыта ли она "noindex"
- присутствия тегов "html, body"
- не закоменчена ли она;
- не закрыта ли через мета-тэги
- все тоже самое с пагой где стоит бэклинк;
Есть вопросик один:
Есть ли какие-нибудь веб-сервисы которые отдают тИЦ и PageRank паги. Но не те, которые рисуют картинки, а простое число. Иначе придется тянуть пагу с этим значением и парсить, что очень геморройно и ресурсоемко(траффик).

Супер

для тиц мы имеем http://www.yandex.ru/cycounter?http://www.site.ru

Может сделать это типа ручной настройки .

тоисть ТИЦ проверять с помощью яндекс сервиса (http://www.yandex.ru/cycounter?http://www.site.ru)

Но если он изменит адрес (http://www.yandex.ru/ТУДАСЮДАОБРАТНО?http://www.site.ru)

то просто заходим в настройки проги и меняем строчку откуда брать ТИЦ

такая же и PR

Если не поняли ногами не бить

sniffer
На сайте с 15.12.2005
Offline
80
#35

Egor109, так это все понятно. Эти все картинки нафиг не нужны, надо просто число.

юни
На сайте с 01.11.2005
Offline
933
#36

sniffer, помнится, ещё Коля Дубр спрашивал о числах тИЦ и PR, но вопрос повис, по-моему...

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
Verbatem
На сайте с 10.03.2005
Offline
135
#37

Что касается ТИЦ - его можно отпарсить со страницы http://search.yaca.yandex.ru/yca/cy/ch/www.ya.ru/ как для каталожного сайта так и для некаталожного.

Кстати о том как лучше отпарсить PR и ТИЦ можно поинтересоваться у создателей semonitora, например 🙄

Bodgo
На сайте с 30.11.2005
Offline
153
#38

Доброе время суток всем.

что то подобное уже видел в реализации и помоему очень удачной

http://wcat.biz/

Чем дальше тем сложнее получается изобрести колесо, другое дело что грузовик и гоночная машина ездят на круглых колесах и все же они отличаются

ВЕБШТЕЙН
Коля Дубр
На сайте с 02.03.2005
Offline
153
#39

Делать многопользовательскую систему - это должна быть не "затея", а проект. Тем более, если планируется бесплатный/недорогой доступ. Прикиньте, сколько народу будет пользоваться, сколько запросов нужно на какую задачу, сколько это траффа, какие нагрузки. Рассчитайте стоимость хостинга. Проверьте, сколько запросов позволяет сделать яндекс. Просто напишите скриптик из 20 строк, который будет 2 раза в секунду рефрешиться, что нибудь спрашивать у яндекса и анализировать ответ. Есть подозрения, что минут через 5 ответом будет "ничего не найдено". Точно говорить не буду, спросите разработчика Семастера (WebByte). Окажется, что все слишком сложно, чтоб делать бесплатно, а тем более - чтоб просить денег (ибо техподдержка).

Или представьте ситуацию. Яндексу надоели "automated querying" и он поменял дизайн (точнее, верстку). А вы парсите выдачу. А у вас 300 пользователей на платных аккаунтах. Ну, вы за ночь переписали все регулярные выражения, все круто. А яндекс бац - и опять. А потом еще раз. А оказывается, что у него просто 50 шаблонов заготовлено, для борьбы с семониторами и семастерами. А почему нет?

Потом, не забывайте о конфиденциальности. На мой вкус, речь идет о данных, которые я не стал бы размещать на чужом сервере. И, вполне возможно, попытался бы оттуда стянуть чужие =)

Еще засада. Сервис стал офигенно популярным. Все офигенно пользуются, и даже все работает, настолько, что вроде ему можно доверять. Когда люди начинают доверять роботам, другие люди этим пользуются. Вычисляется айпишник вашего бота, и под него делается клоака. И все. Если пользуется 2-3 человека, это не актуально. А если 200-300, как думаете?

Каких страстей я напридумывал =) Конечно, в реале все совсем иначе =)

Гораздо проще сделать скрипт, распространяемый за какую-то денюжку "как есть", с возможностью вести несколько проектов из одного скрипта. Концепт софтули вполне позволяет сделать толковую демку, чтоб можно было оценить, стоит ли оно денюжки. ИМХО денюжка нужна обязательно, т.к. значительно повышает желание дорабатывать продукт, заодно и предполагает некую ответственность, плюс дает возможность реально оценить, надо ли это кому, или нет.

По поводу определения цифр тиц/пр. В общем случае: вспоминаем, что расширения для FireFox не закомпилены, значит можно залезть в исходник и все изучить. Как препарировать расширения, можно разобраться, почитав мою подпись.

Конкретнее. Для определения pagerank нужно сгенерировать код-ключик на основе url, делается это по хитроумному алго. Реализацию на javascript можно посмотреть, изучив Quirk Search status. Я, в свое время, почти переписал это дело под PHP, в последний момент нашел готовое и куда более красивое решение.

С тицем все намного проще. Изучите внимательно, как он показывается на http://www.be1.ru/stat/ - или поковыряйтесь в яндекс тиц расширении. Показатели бара и "денюжки" иногда отличаются. Если надо "оцифровать" денюжку, в теории можно анализировать размер картинки в байтах. Я так и не попробовал за ненадобностью, примеров не видел.

По поводу "присутствует ли на морде ссылка на пагу, где стоит бэклинк". Ее отсутствие ни о чем не говорит (ну, если иное не оговорено при обмене). Как правило, требуют расположение страницы с бэклинком в двух-трех кликах от главной. Морда (клик) ссылки (клик) категория (клик) страница 3. А это уже слишком далеко, чтоб осилить каким-либо роботом.

Пардон за объемы. Остапа понесло =)

Разрабатываю общую шину (http://habrahabr.ru/company/floxim/blog/268467/) помаленьку. ...а еще у меня есть бложек (http://www.blogovo.ru/).
sniffer
На сайте с 15.12.2005
Offline
80
#40

Коля Дубр, большое спасибо, что не поленился и описал кучу граблей которые ждут нас.

Любой проект начинается с затеи, если все затеи душить в зародыше не давая воли амбициям, можно так ничего и не начать.

По предварительному эстимейшену, видно невооруженным глазом, что траффик это основная проблема, увеличение траффик пропорционально зависит от увеличение количества пользователей. Было решено ввести минимальный промежуток времени, который должен пройти между двумя проверками. Конечно, это не решит проблему полностью, но хоть как-то улучшит перфоманс. Да и не думаю, что кому-либо понадобится делать это, например, чаще, чем раз в день.

По поводу замены шаблонов верстки у Яндекса. Пока такой проблемы нет, так что заморачиваться на этом не стоит. Если Яндекс и начнет так гнобить сеощников, то пострадают многие, не только мы.

О конфиденциальности. Это уже напрямую зависит от кривизны рук разработчиков, т.е. нас. Согласись, ни разу не видя исходников, трудно будет толково организовать слив базы. Но какой защищенной не была бы система, от взлома сервера никто не застрахованы, тут мы уже бессильны.

О нечестности. Как известно черные методы не приветствует никто, но к ним прибегают многие. Спасибо, что пнул на проблему, есть, о чем подумать. Даже родилась идея как от этого избавиться. Благодарствую.

По всем техническим вопросам, огромное спасибо. В поиске по форуму нашел много инфы. Принято в разработку.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий