В Ли.Ру можно кликнуть на запрос, он покажет все ссылки, в которых фигурировал запрос, а также айпишник пользователя и его регион.
Как вариант более-менее быстрого получения словаря с привязкой к тематике -
1. Парсинг ЯК (либо какого-то другого качественного каталога), создание базы вида УРЛ - тематика.
2. Заход робота на морду каждого из этих сайтов. Парсинг. В базу сохраняем все слова, кроме анкоров внешних ссылок. Словам из титлов, стронгов, мета-дескрипшнов придаём несколько больший вес. После прохождения этого шага имеем базу вида: Слово - Сайт - Число вхождений (Вес) - Тематика.
3. Анализ полученной базы. Делим все слова из базы на три категории:
3.1. Стоп-слова - они часто появляются во всех без исключения тематиках.
3.2. Средние слова - они часто встречаются в одной категории, но иногда попадаются и в других.
3.3. Хорошие слова - часто встречаются в какой-то конкретной рубрике, и практически не встречаются - в других.
4. Заходим на неизвестную страницу, опять же парсим её, анализируем найденные слова. В первую очередь обращаем внимание на хорошие слова из пункта 3.3. Думаю, этого будет достаточно в подавляющем большинстве случаев для правильного определения тематики.
В общем-то, реализуется такое за недельку без особого напряга одним челом.
Плюсы - не надо заморачиваться с морфологией и составлением базы вручную.
Алгоритм ТС будет скорей всего точнее этого, но он имеет большие шансы загнуться на стадии составления словаря с весами :)
Да практически нет там несуществующих сайтов. Яндекс-дятел проверяет все сайты из каталога на доступность, и если какой-то сайт не доступен 4-5 дней, то он вылетает. После возобновления доступности - опять появляется. За отсутствие обновлений автоматом не выкидывает, за смену контента - может.
В начале июня, т.е. получается сейчас уже все должно быть ОК.
Новый метод введен, но не написано ж, что старый метод (через вебмани) отменён.
Может после нескольких арбитражей задумаются, как надо вести себя по отношению к клиентам? Ну понимаю, бывают ситуации, когда нет денег или какие-то технические проблемы, но можно ж ведь на письма отвечать или хотя бы объявление про это на сайте повесить?
А то такие ситуации, когда на запрос выплаты долгое время нет никакой реакции заставляют подозревать кидалово! Нет людей/времени/интернета для ответа на письма - пусть посадят бота, ведь про покупку ссылок боты исправно сообщают.
А арбитраж всё-таки действует...
В службу поддержки писал - 0 эффекта, а в арбитраж вебманей стукнул - в течении часа получил деньги на кипере.
Примеры есть, но большинство из них - это просто какие-то скрипты, но не сайты. Если интересно - в личку.
Цены - 3-5 $ за час работы.
1. Добавьте еще один input - "куда ссылаться", чтобы ссылки шли не на главную, а на то, что было введено.
2. Для создания полноценного инструмента - сделать следующее:
- задаётся список кейвордов, для каждого указывается страница, на которую он должен вести (напр., лыжи - page1.htm, коньки - page2.htm, санки - page3.htm и т. д.)
- через скрипт прогоняются все странички из какой-либо папки, все найденные кейворды превращаются в ссылки в нужные места. Или не все, а только ограниченное количество, дабы не было слишком много ссылок со страницы.
Полезная вещь была бы!
Нету :)
И как я понял, там надо сразу список страниц вводить? Плюс - какой же это трафф надо, чтобы у 300к страничек пр померить? :)
http://www.tm-research.com/products/tmwsa/google-site-analyzer.html - это та программа, или я ошибаюсь?
Эта в любом случае с задачей не справится - работает медленно, а страниц ведь 300 тыс! Плюс - на первой же жаваскриптовской менюшке виснет намертво.