- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Есть много-много текстовых файлов различной тематики.
Хочется рассортировать по темам и сделать выборку по нужным.
Пожалуйста, подскажите чем можно воспользоваться для пакетной обработки.
Telegranimonic, тыренных?)
Если файлы уже есть, то сортировка их это уже малое дело, но у вас это не так :)
Выборку. Людьми надо будет делать, видимо.
Вам нужно что-то типа "семантического зеркала".
Пожалуйста, подскажите чем можно воспользоваться для пакетной обработки
VB. =) Алгоритм прост:
Kost, прикольно это "зеркало" определило тематику сайта МТС (mts.ru)
Telegranimonic, тыренных?)
Если файлы уже есть, то сортировка их это уже малое дело, но у вас это не так :)
Выборку. Людьми надо будет делать, видимо.
Думаю, что если делать людьми, то нужна армия китайцев или машина времени, так как даже разархивирование этих статей занимает большое время. Например за 4 часа распаковалось только 1,5 млн. статей на машине Dual Opteron 265.
Вчера давал запрос Ашманову на стоимость этого скрипта, пока нет ответа.
Мне кажется, что алгоритм не плохой. Он был бы полезен именно в моем случае, если ему подсунуть чистую статью. А тематику web-страниц он плохо определяет, потому что жрёт абсолютно все слова на странице включая менюшки, сайдбары и футеры. Цены бы ему не было, если бы он был поинтеллектуальнее в плане разбора кода страницы на основной текст и на всё остальное.
На сколько я понимаю готовых решений в природе не существует. Придется киркой работать.
Есть много-много текстовых файлов различной тематики.
Хочется рассортировать по темам и сделать выборку по нужным.
Хочется рассортировать по какому-то своему специфическому списку тем или просто по универсальным темам типа "Здоровье", "Автомобили", "Образование" и т. д.? Во втором случае, действительно, может подойти что-то вроде "Семантического зеркала". В первом - придется позаниматься машинным обучением.
Хочется раскидать по универсальным темам, как в Яндекс-каталоге.
6. Из "верхушки" полученного массива определяем тематику.
Хм. А можно подробнее раскрыть этот пункт алгоритма? ;) Как именно на основании верхушки Вы предлагаете определять тему?
Kost, прикольно это "зеркало" определило тематику сайта МТС (mts.ru)
Если географические рубрики не брать, то выдается только "Мобильная связь". Все правильно, вроде как.
А куча географических там понятно, из-за чего - из-за выпадающего списка "Регион".
AnyOf добавил 02.08.2010 в 21:10
А, да, вот еще, для полноты картины:
http://keva.ru/docThema.html
http://www.linkfeedator.ru/index.php?task=tematika
Но там с сайтом МТС дела обстоят похуже, чем у "Семантического зеркала".
Хм. А можно подробнее раскрыть этот пункт алгоритма? Как именно на основании верхушки Вы предлагаете определять тему?
Ну это кому насколько воображения хватит. Самый простой способ взять 2-а верхних слова =)
Если географические рубрики не брать, то выдается только "Мобильная связь". Все правильно, вроде как.
ДЫК он же взял. И неважно, что они там в LI и т.п... важно, что результат скрипт вернул ошибочный.
Относительно недавно были эксперименты над тематическим фильтром.
/ru/forum/474938;highlight=cfilter.ru
В принципе интересно, но у меня чистая страница про смерть и войну определилась как юмор.
Жалко, что не доработано, да ещё и платно.
Если мне нужно проверить 1 000 000 страниц, то придется заплатить 1000 WMZ. :(
Ну это кому насколько воображения хватит. Самый простой способ взять 2-а верхних слова =)
В теории, способ прост, да :) Но на практике там придется столкнуться с кучей проблем. Что и так понятно, впрочем :)
ДЫК он же взял. И неважно, что они там в LI и т.п... важно, что результат скрипт вернул ошибочный.
Ошибочный - это слишком сильно сказано. Я бы сказал "недостаточно точный". Все-таки правильная рубрика была определена, а вот такие случаи с географией можно постобработать, если они действительно мешают.
AnyOf добавил 02.08.2010 в 21:53
В принципе интересно, но у меня чистая страница про смерть и войну определилась как юмор.
Т. е. на странице были просто слова "смерть" и "война"?
Жалко, что не доработано, да ещё и платно.
Если мне нужно проверить 1 000 000 страниц, то придется заплатить 1000 WMZ. :(
Если б нормальное качество, то еще туда-сюда. Подозреваю, что "Семантическое зеркало"-то подороже выйдет, хотя точно не знаю, врать не буду.