- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Нужно придумать алгоритм, который поможет отделять текст (не считая меню и другой служебный текст) на произвольной странице от метатэгов. Сейчас есть несколько идей по алгоритму, хотел бы услшыть ваши соображения.
1. Определение по тэгам <p>, <h.> т др "текстовых" тегов- самый примитив.
2. Определение блока между тэгами, который состоит более, чем из n слов, определение вида тэга, содержащего текст, парсинг по данному тэгу - большая выделить не только текст.
3. Определение текста по наличию знаков препинания перед/после количеством слов, большим, чем n - вроде как самый неплохой вариант.
Буду рад, если поделитесь соображениями или ссылками по теме.
угу неоднократно обсуждалась на yabiz.ru
Регулярные выражения.
http://www.pcre.ru/
Регулярки - только один из элементов системы (не факт, что обязательный). Но нужен еще грамотный алгоритм. Думаю, скоро реализую штуковину и выложу для теста и обсуждения.
да есть уже такие системы, баян и фигня. Сначала разделяешь на предложения, потом смотришь по скоплению предложений. Плюс-минус работает, дальше можно даже не запариваться. Тут просто сам подход ацтой - тырить plain-текст нецелесообразно. Мыслите ширше.
response, интересно, это как? Можно в личку. Интересна эта тема :)
response, интересно, это как? Можно в личку. Интересна эта тема :)
что именно "как"?
если первое, то еще в прошлом году я выкладывал пусть непрактичный, но рабочий прототип - он кажется не просто тырил контент из серпа по запросам, а именно на предложения тексты разбивал. Хотя там все не так серьезно было, но хоть какая-то иллюстрация. Если не в тему, то переформулирйте запрос (ц) :)
да есть уже такие системы, баян и фигня.
Боян - конечно. Тема контента всегда актуальна. А фигня ли - это от конкретных целей и задач зависит.
Сначала разделяешь на предложения, потом смотришь по скоплению предложений. Плюс-минус работает, дальше можно даже не запариваться. Тут просто сам подход ацтой - тырить plain-текст нецелесообразно. Мыслите ширше.
Примерно так и делаю, но с некоторыми нюансами. Потом вынесу на обсуждение.
Широта мышления приходит с опытом. А опыт - сын ошибок трудных. :)