Дарю. Пишем тузлу по бекам :)

SE_LM
На сайте с 25.04.2006
Offline
56
#61

По-моему проще будет реализовать эту тузлу: Вебальте, Апорту, Рамблеру.

Если из них кто-то сделает, то новая жизнь начнется для него.

Анализируем сайты (http://www.se-lm.ru/page/seo-analiz-saita)
М
На сайте с 01.12.2005
Offline
73
#62
Ceres:
как миниум то что общедоступно было - ссылки по анкору. Но вообще-то имея анкор листы каждый сам волен с ним делать се что захочет ;)

Нужно индексировать порядка 1 миллиарда страниц каждая размером 20-30 килобайт (в среднем). Срок жизни базы максимум месяц. То есть каждый месяц нужно выкачивать 30 терабайт (если судить по вебальте то около 17 терабайт). Можно рассмотреть 2 решения проблемы:

1) Кластер. Ему нужен будет канал не менее (20 000 000 000 000 *8 бит) / (30*24*3600 секунда) = 61 мегабит. Стоимость входящего трафика 20000*3 = 60000 долларов в месяц. Сервер должен уметь парсить не менее 1 000 000 000/(30*24*3600) не менее 400 страниц в секунду. С этой задачей справится пара нормальных серваков на 100мегабитном канале (желательно каждый).

Существенным минусом является цена трафика.

Плюсы что вся информация в одном месте включая собственно проиндексированную страницу

2) Распределенная система. Практически все параметры как у кластера. Для снижения издержек на трафик потребуется распределить нагрузку на 6 000 участников (т.к машины будут включены не все время). Существенным минусом является хранение на серваке только анкор листа без собственно проиндексированной страницы.

В принципе второй вариант реализовать можно, осталось найти 6000 человек, готовых разместить на своей домашней машине программу, имеющих анлим и готовых жертвовать не менее 3-4 гигабайт в месяц на работу системы.

Cервис для оптимизаторов Optimizer Desktop (http://jdev.ru/od/?utm_source=forum.se.ru&utm_medium=signature): мониторинг позиций, учет ссылок. Программа для оптимизаторов и вебмастеров OptiSuit (http://optisuit.ru/?utm_source=forum.se.ru&utm_medium=signature): Optimizer Desktop на Вашем компьютере
A
На сайте с 29.12.2005
Offline
118
#63
Мишган:
В принципе второй вариант реализовать можно, осталось найти 6000 человек, готовых разместить на своей домашней машине программу, имеющих анлим и готовых жертвовать не менее 3-4 гигабайт в месяц на работу системы.

3-4 гига и 6 тысяч человек, сами по себе, для Москвы ит СПБ - не проблема. Но вот проблема в том, чтобы все эти 6 тысяч бойцов были сеошниками, чтобы работать за доступ к системе. Иначе бойцам придется платить, что может получиться дороже трафика, либо как то по другому мотивировать.

Margo
На сайте с 29.10.2005
Offline
188
#64
Anton:
3-4 гига и 6 тысяч человек, сами по себе, для Москвы ит СПБ - не проблема. Но вот проблема в том, чтобы все эти 6 тысяч бойцов были сеошниками

и чтобы нашелся Наполеон, который все это организует)

A
На сайте с 29.12.2005
Offline
118
#65

Поинтересовался у хостеров (в хостинге), для раздумия есть следующие цифры: 1мегабит(mbps) в европе стоит 15-40 долларов в месяц, если я правильно все понял. Стало быть трафик значения не имеет, 2х100 мегабитных канала обходятся в максимум в $8k. Уже легче, все же не $60k. :)

А Наполеонов где взять? Вот это реальная проблема. Хотя за чемодан денег наверное решаемая....

[Удален]
#66
Margo:
и чтобы нашелся Наполеон, который все это организует)

Уж не для того ли была организована встреча: "которая прошла в неформальной обстановке в одном из московских ресторанов". :)

Sculptor
На сайте с 11.06.2005
Offline
179
#67
Anton:
Абсолютно здравая идея!
Нафига нам вообще для аналитики какие то ПС? Лучше, по аналогии с системами распределенных вычислений, сделать "распределенного" паука на базе тысяч оптимизаторских серверов и самим построить карту ру и прочего нета. Можно сделать клиентский софт, который будет что-то сканить и считать (вспомните SETIathome) и зарабатывать какие то "купилки", на которые потом можно будет купить доступ к сервису. Сервиса же всем захочется, он будет однозначно платным, можно будет платить либо живыми деньгами, либо участием.

Вот об этом и думаю тоже последние пару часов.

Значит так:

а)Для начала нужно понять следующее - на данном этапе развития идеи вот так слету отсканировать весь рунет будет слишком тяжело. Нужно, для получения первых рабочих результатов сузить поле сканирования следующим методом:

Берем просто лист-список всех RU доменов - у меня где-то есть апрельский этого года, у регистраторов точно есть самый новый. Это 700тыс где-то. Простукиваем на отклик - процентов 20% отбросится.

Отбрасываем 80% с тицем более 0 и/или Pr1 - по моему см у Тутубалина есть цифры по плотности распределения по тиц уже. - Там 43 тысячи всего сайтов в конце прошлого года было. Отбрасываем урлы-сайты не в индексе Яндекса. Получаем списочек актуальных урлов в 50 тысяч доменов. Вот - вот эти 50 000 сайтов и оказывают в 80% случаев влияние на все ссылочное в рунете.

Запускаем распределенных пауков и через небольшое время получаем список всех более менее актуальных мордоссылок. Это - уже хоть что-то. Это уже показатели и не столь технически сложные добываемые.

С этим списком потом можно разную аналитику делать в дальнейшем кстати.

Зачем ВСЕ ссылочное? Хотя бы самое актуальное ссылочное выявить - уже дело будет.

б)При развитии системы - увеличение сканирования на глубину +n от главной. Опять же в первую очередь по критериям в первую очередь высокоавторитетных данных.

Обновление раз в месяц индекса морд уже будет легче делать по дате отклика изменения страницы - реально ж не так много морд каждый месяц обновляются.

в)Можно отсканировать основные каталоги рунета - тоже даст неплохую базу.

P.S. Что касается стоимости трафа - гигов 30-40 у меня точно есть. У нескольких десятков найдется также не меньше 10-20. Полтерабайта точно хватит с избытком для первых результатов.

Все это только нужно как-то соорганизовать...

Дорого куплю ссылки со строительных сайтов, не находящихся в биржах и не продающие ссылки.
nesvobodnye
На сайте с 03.04.2007
Offline
101
#68
Ceres:
Костя, спасибо, но мне лень, а так тузла будет пользоваться колоссальным спросом. Думаю порядка нескольких тысяч абонентов в месяц ей обеспечено. По 250 руксов в месяц сделать не наглея.

тоже в голове всплыла цифра в 10 баксов...

мысли сходятся.

Всё ранее написанное - сугубо личное мнение.
S
На сайте с 19.05.2006
Offline
125
#69

Все это замечательно, представим, что бэки собраны.

Но на главный вопрос - какие из них принимает во внимание Яндекс - ответ-то можно узнать только у Яндекса. Поэтому простого сканирования тут недостаточно.

Скрипт для быстрого добавления в Яндекс множества страниц! (http://yadd.ru/pro.php) | Поиск для вебмастеров (http://codavr.ru/)
М
На сайте с 01.12.2005
Offline
73
#70
shikari:
Все это замечательно, представим, что бэки собраны.
Но на главный вопрос - какие из них принимает во внимание Яндекс - ответ-то можно узнать только у Яндекса. Поэтому простого сканирования тут недостаточно.

Ну яндекс ответит на этот вопрос-)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий