- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Ставите или mnogosearch или dataparksearch, определяете одно правило для просматриваемых серверов:
Realm HrefOnly *
В section.conf прописываете только дну секцию: url.file
Можно еще командами Disallow запретить файлы с заведомо неинтересными расширениями.
В такой конфигурации оба поисковика будут бродить по инету, собирать все ссылки и индексировать только имена файлов (с расширениями). Ну а там ищите по этой инфе то, что хотите.
спасибо. посмотрел, но там только некоторые широкораспространенные форматы, не годится...
2Zute
огромное спасибо! ну должен же быть хоть один дельный ответ.
Вопрос Вам: что ставить. Читал много про mnogosch и dataparksch, вроде как по смыслу одно и тоже, люди говорили много хорошего про Aspsearch.
Я бы все таки хотел чтото связанное с PHP, наверное mnogo нужен... там есть extension. Слышал что он страшно глючный, не знаю, так или нет.
Скорость работы не интересует, важен сам процесс :)
а указать интересующие расширения можно?
кстати заодно вопрос - можно ли этот GPL поисковик использовать для создания вообще тематического поисковика?
ну то есть:
1) указание интересующего пула тематических сайтов для индексации (ну например из некого каталога сайтов, который также есть в данной тематической поисковой системе). (полагаю это он должен уметь)
2) индексация только того материала, который входит в тематику. То есть имеется в виду некий частный случай автоклассификации текстов, когда мы просто принимаем решение - подходит страница по тематике или нет. Мы задаем некую обучающую выборку текстов по тематике, или например поисковик сам обучается на вручную отобранных из каталога сайтах. Алгоритмы принятия решения любые, хоть наивный баессовский фильтр.
3) более навороченный вариант - "focused crawling" (фокусное индексирование), когда паук ползет по тем ссылкам (или в первую очередь по тем), которые близки по тематике.
можно ли такие штуки выжать из данных продуктов?
и (если у кого есть опыт), то как?
что касается поиска по определенным файлам - то это один из нужных сервисов, который должен быть доступен.
php-интерфейс есть у mnogosearch, вроде и у aspseek есть, но не родной (не от разработчика). Ктому же aspseek уже давно не развивается, впрочем, если вы быдете его саим поддерживать и развивать, то можно рассмотреть и его.
Использовать GPL-движки для создания тематических поисковиков можно, весь вопрос в количестве и размере индексируемых документов, около 1 млн. документов на одной машине вполне реально с не очень большим потоком поисковых запросов. С кластеризацией у всех эти поисковиков не очень.
1) - возможно
2) и 3) - автоматическое невозможно. Если вы вручную классифицируете сайты, то потом можно индексировать/переиндексировать каждый класс отдельно, ровно как и искать внутри только одного класса.
Ну да, как это автоматически невозможно? Читайте основополагающие работы Клейнберга по HITS.
Читайте внимательно топик, речь шла только о возможностях mnogosearch, dpsearch и aspseek....
Насколько я знаю, это системы с открытым исходным кодом, поэтому в случае необходимости подобную функциональность можно добавить самому.
Вячеслав, поясните пожалуйста - что именно прочитать? насколько я знаю - Hits это рекурсивный алгоритм ссылочного ранжирования, который достаточно ресурсоемок и поэтому широкого применения в чистом виде не получил. У меня пока он не коррелируется с представлениями об автоклассификации.... что вы имели в виду?
ценное замечание.... если есть возможность реализации, то это уже лучше чем ничего...
вчитался еще раз в эту фразу... может имелось в виду индексирование в первую очередь только "авторитетных" с точки зрения бОльших весов сайтов заданной тематики? или фокусное следование по ссылкам на/с авторитетных ресурсов...
Да, имелся в виду Topic Distilation algorithm на основе HITS, который поможет найти тематические линки, к примеру, только с файловыми архивами. Дальше пойдет их сфокусированное сканирование.
Когда я разрабатывал систему сбора информации для Новотеки, я использовал подобный подход.