Есть главные страницы всех .ru-сайтов с ненулевым тицем (380 000). Как использовать?

12
SK
На сайте с 13.06.2005
Offline
111
1197

Сейчас скачал около 380 000 главных страниц ru-сайтов, у которых ненулевой тиц - это практически все тицнутые руморды (интересно - каждый пятый рудомен получается с тицем).

Вот думаю как эту информацию можно использовать.

1. Можно конечно сеоспамерам все тицнутые вордпресы, дле и т.д. здавать, но это как-то неинтересно совсем.

2. Можно по признакам вытягивать сетки однотипных сайтов.

Какую полезную информацию можно еще вытянуть, кто что думает?

Есть возможность создания сервисов под интересные идеи (если что-то вдохновит :) ).

(Если у вас появится заказ по теме - обращайтесь в асю 474279549 )

BulkAddurl.com - добавляйте страницы в гугль на автомате (http://bulkaddurl.com) + 10% партнерка
Ufaweb
На сайте с 03.03.2008
Offline
182
#1
SergijKo:
Вот думаю как эту информацию можно использовать.

Сделать web.archive-lite :D

moldu
На сайте с 27.04.2006
Offline
432
#2
SergijKo:
Есть возможность создания сервисов под интересные идеи

Эта информация есть в открытом доступе.

Глаза боятся, а руки-крюки.
SK
На сайте с 13.06.2005
Offline
111
#3
Ufaweb:
Сделать web.archive-lite :D

Хочется чего-то более практического/денежного :)

SergijKo добавил 27.02.2009 в 11:50

moldu:
Эта информация есть в открытом доступе.

Какая именно информация?

Домены с тицами есть.

А возможности сделать например выборку среди всех таких сайтов всех вордпресов (у которых встречается в коде <meta name="generator" content="WordPress) я не встречал. А я это например могу сделать.

moldu
На сайте с 27.04.2006
Offline
432
#4
SergijKo:
Домены с тицами есть.

Тогда странное количество, ru-доменов с тицем 364 тысячи, а Вы напарсили 380 тысяч, и это без учета неделегированных доменов.

SergijKo:
А возможности сделать например выборку среди всех таких сайтов всех вордпресов (у которых встречается в коде <meta name="generator" content="WordPress) я не встречал. А я это например могу сделать.

Информация для спамеров и любителей статистики. Еще может пригодиться авторам скриптов, для поиска нулл-версий или составления "списка сайтов на CMS".

SK
На сайте с 13.06.2005
Offline
111
#5
moldu:
Тогда странное количество, ru-доменов с тицем 364 тысячи, а Вы напарсили 380 тысяч, и это без учета неделегированных доменов.

Из разных источников у меня насобиралось чуть больше 1 800 000 ру-сайтов (возможно некоторые из них уже неактуальны, некоторых не хватает), проверка показала что из них с тицем 381 008. Все доступные из них и были скачаны.

moldu
На сайте с 27.04.2006
Offline
432
#6
SergijKo:
Все доступные из них и были скачаны.

На зеркальность значения тИЦ проверку делали?

SK
На сайте с 13.06.2005
Offline
111
#7
moldu:
На зеркальность значения тИЦ проверку делали?

Скорее нет чем да (не для всех доменов после парсинга остался ответ яндекса по зеркалу).

Технически все это сделать корректно проблем не вызывает. Интересует именно как бы поинтересней применить такую информацию...

SJ
На сайте с 16.03.2008
Offline
78
#8

Повесить на поддомене Яндекса (или кого другого, потрастовее) все эти страницы :)

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
Ufaweb
На сайте с 03.03.2008
Offline
182
#9
moldu:
ru-доменов с тицем 364 тысячи

Откуда такая точная информация?

zhidronsss
На сайте с 12.10.2007
Offline
36
#10

сделать раскладку по использованным движкам и продавать

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий