Из затрат: с вас домен(ы), из работы руками: можно ничего не делать. Окупаемость 3 месяца. Пишите в ЛС.
апну разок.
У тебя текст в чём в юникоде? Делаешь замену "(\s\w{1,3})\." на "." Если у тебя русский язык и не юникод, то можешь попробовать "(\s\S{1,3})\.", но сюда и цифры попадут. Вывод лучше перевести в юникод. А вообще если вопросы будут по парсингу пиши сюда постараюсь помочь.
Если надо выпилить всё предложение то "[^\.!?]+?\s\w{1,3}[\.!?]". Полагаю что не все предложения повествовательные ;)
DenisVS, да именно, интеллектуальный парсер.
А может как-то подсчитать ссылки в блоке (разбивка на дивы, например), и если хмм... на 500 байт приходится более одной ссылки, то этот блок не подходит. Похоже можно так решить.
Вообщем предлагаю обсудить здесь, какие бояны попадаются при парсинге контента с помощью регулярок, а мы все вместе попробуем разрешить эту проблему. Потому что каждый раз проверять всё что на парсил - ни времени не сил не хватит. А бояны время от время всплывают, проверено!
alex1113 добавил 04.01.2011 в 01:08
Продавать парсер, это всё равно что продавать программу, которая выводит на экран содержимое файл, имхо, дело не благодарное. К тому же под WP полно плагинов которые решают эту задачу.
Толстый троль детектед 🤣
AndSudakov твои акки проверил, ситуация не изменилась.
Делюсь опытом друг - яндекс лежит! Благодарностей не надо. Закрыта тема?
Я тоже поплачу в этой теме. Яндекс.Паспорт в таймауте часами бывает в последнее время. Непонятно это Херня какая-то а не поисковик, почту даже не могу проверить.
Я неделю назад спрашивал именно про Я! Ну нет так нет, пиши если будут.
предложи что-нибудь с php для яндекса!
Только ТС забил болт на аську и эту тему!