- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
По-моему проще будет реализовать эту тузлу: Вебальте, Апорту, Рамблеру.
Если из них кто-то сделает, то новая жизнь начнется для него.
как миниум то что общедоступно было - ссылки по анкору. Но вообще-то имея анкор листы каждый сам волен с ним делать се что захочет ;)
Нужно индексировать порядка 1 миллиарда страниц каждая размером 20-30 килобайт (в среднем). Срок жизни базы максимум месяц. То есть каждый месяц нужно выкачивать 30 терабайт (если судить по вебальте то около 17 терабайт). Можно рассмотреть 2 решения проблемы:
1) Кластер. Ему нужен будет канал не менее (20 000 000 000 000 *8 бит) / (30*24*3600 секунда) = 61 мегабит. Стоимость входящего трафика 20000*3 = 60000 долларов в месяц. Сервер должен уметь парсить не менее 1 000 000 000/(30*24*3600) не менее 400 страниц в секунду. С этой задачей справится пара нормальных серваков на 100мегабитном канале (желательно каждый).
Существенным минусом является цена трафика.
Плюсы что вся информация в одном месте включая собственно проиндексированную страницу
2) Распределенная система. Практически все параметры как у кластера. Для снижения издержек на трафик потребуется распределить нагрузку на 6 000 участников (т.к машины будут включены не все время). Существенным минусом является хранение на серваке только анкор листа без собственно проиндексированной страницы.
В принципе второй вариант реализовать можно, осталось найти 6000 человек, готовых разместить на своей домашней машине программу, имеющих анлим и готовых жертвовать не менее 3-4 гигабайт в месяц на работу системы.
В принципе второй вариант реализовать можно, осталось найти 6000 человек, готовых разместить на своей домашней машине программу, имеющих анлим и готовых жертвовать не менее 3-4 гигабайт в месяц на работу системы.
3-4 гига и 6 тысяч человек, сами по себе, для Москвы ит СПБ - не проблема. Но вот проблема в том, чтобы все эти 6 тысяч бойцов были сеошниками, чтобы работать за доступ к системе. Иначе бойцам придется платить, что может получиться дороже трафика, либо как то по другому мотивировать.
3-4 гига и 6 тысяч человек, сами по себе, для Москвы ит СПБ - не проблема. Но вот проблема в том, чтобы все эти 6 тысяч бойцов были сеошниками
и чтобы нашелся Наполеон, который все это организует)
Поинтересовался у хостеров (в хостинге), для раздумия есть следующие цифры: 1мегабит(mbps) в европе стоит 15-40 долларов в месяц, если я правильно все понял. Стало быть трафик значения не имеет, 2х100 мегабитных канала обходятся в максимум в $8k. Уже легче, все же не $60k. :)
А Наполеонов где взять? Вот это реальная проблема. Хотя за чемодан денег наверное решаемая....
и чтобы нашелся Наполеон, который все это организует)
Уж не для того ли была организована встреча: "которая прошла в неформальной обстановке в одном из московских ресторанов". :)
Абсолютно здравая идея!
Нафига нам вообще для аналитики какие то ПС? Лучше, по аналогии с системами распределенных вычислений, сделать "распределенного" паука на базе тысяч оптимизаторских серверов и самим построить карту ру и прочего нета. Можно сделать клиентский софт, который будет что-то сканить и считать (вспомните SETIathome) и зарабатывать какие то "купилки", на которые потом можно будет купить доступ к сервису. Сервиса же всем захочется, он будет однозначно платным, можно будет платить либо живыми деньгами, либо участием.
Вот об этом и думаю тоже последние пару часов.
Значит так:
а)Для начала нужно понять следующее - на данном этапе развития идеи вот так слету отсканировать весь рунет будет слишком тяжело. Нужно, для получения первых рабочих результатов сузить поле сканирования следующим методом:
Берем просто лист-список всех RU доменов - у меня где-то есть апрельский этого года, у регистраторов точно есть самый новый. Это 700тыс где-то. Простукиваем на отклик - процентов 20% отбросится.
Отбрасываем 80% с тицем более 0 и/или Pr1 - по моему см у Тутубалина есть цифры по плотности распределения по тиц уже. - Там 43 тысячи всего сайтов в конце прошлого года было. Отбрасываем урлы-сайты не в индексе Яндекса. Получаем списочек актуальных урлов в 50 тысяч доменов. Вот - вот эти 50 000 сайтов и оказывают в 80% случаев влияние на все ссылочное в рунете.
Запускаем распределенных пауков и через небольшое время получаем список всех более менее актуальных мордоссылок. Это - уже хоть что-то. Это уже показатели и не столь технически сложные добываемые.
С этим списком потом можно разную аналитику делать в дальнейшем кстати.
Зачем ВСЕ ссылочное? Хотя бы самое актуальное ссылочное выявить - уже дело будет.
б)При развитии системы - увеличение сканирования на глубину +n от главной. Опять же в первую очередь по критериям в первую очередь высокоавторитетных данных.
Обновление раз в месяц индекса морд уже будет легче делать по дате отклика изменения страницы - реально ж не так много морд каждый месяц обновляются.
в)Можно отсканировать основные каталоги рунета - тоже даст неплохую базу.
P.S. Что касается стоимости трафа - гигов 30-40 у меня точно есть. У нескольких десятков найдется также не меньше 10-20. Полтерабайта точно хватит с избытком для первых результатов.
Все это только нужно как-то соорганизовать...
Костя, спасибо, но мне лень, а так тузла будет пользоваться колоссальным спросом. Думаю порядка нескольких тысяч абонентов в месяц ей обеспечено. По 250 руксов в месяц сделать не наглея.
тоже в голове всплыла цифра в 10 баксов...
мысли сходятся.
Все это замечательно, представим, что бэки собраны.
Но на главный вопрос - какие из них принимает во внимание Яндекс - ответ-то можно узнать только у Яндекса. Поэтому простого сканирования тут недостаточно.
Все это замечательно, представим, что бэки собраны.
Но на главный вопрос - какие из них принимает во внимание Яндекс - ответ-то можно узнать только у Яндекса. Поэтому простого сканирования тут недостаточно.
Ну яндекс ответит на этот вопрос-)