- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Существует что-нибудь такое, которое умеет вынимать из текста предложения между большой буквой, с которого начинается предложение и точкой включительно и складывать из в отдельный файл? То есть определять в тексте с мусором только целые нормальные предложения?
сниппеты" конкурентов соберал чтоли? уменя подобная была ситуация. Я все 140 кеев выдрал руками за 3 дня)
сниппеты" конкурентов соберал чтоли? уменя подобная была ситуация. Я все 140 кеев выдрал руками за 3 дня)
Не, у меня есть тексты, где много предложений без точек, и прочий мусор. Известные скрипты хреново отчищают такое, вот если сделать анализатор полноценных предложений... Может он уже есть?
Именно такой проги не видел, но вот скриптик написать не сложно.
такой скрипт есть и причем уже давно. на подобном алгоритме работает мой парсер контента.
в скором времени будет онлайновая бесплатная версия с некоторыми ограничениями.
А вообще дурацкая идея. Если предложение такое:
"Эту собаку зовут Каштанка, потому что её шерсть каштанового цвета."
И как скрипт правильно определит стартовое слово, их тут два с большой буквы. Кроме того, мусор может оказаться внутри предложения, что и происходит во время генерации дора, т.к. доргены предложения так и определяют-начало большая буква, конец точка.
Если вот что-то на базе Word замутить, что-то такое, которое будет отбирать только те предложения, которые Word посчитал нормальными...
Пришли мне на почту немного такого мусора для примера, я мб сделаю программу vocheretko(at )gmail.com
какой еретический ужас. вам по отдельном скурипту на каждый случай надо? для большой буквы и точки, для маленькой и точки, для любой буквы и любого знака препинания? взять любой кастомайзбл парсер и собрать, настроив правила.
Пришли мне на почту немного такого мусора для примера, я мб сделаю программу vocheretko(at )gmail.com
Отослал. Такой текст даже дорген Jako заглатывает очень долго. В то время как такой же объем от Цербера нормально.
А вообще дурацкая идея. Если предложение такое:
"Эту собаку зовут Каштанка, потому что её шерсть каштанового цвета."
И как скрипт правильно определит стартовое слово, их тут два с большой буквы. Кроме того, мусор может оказаться внутри предложения, что и происходит во время генерации дора, т.к. доргены предложения так и определяют-начало большая буква, конец точка.
и тем не менее скрипт работает, определяет стартовые слова и конечную точку.
и мусор очищается и все что не нужно выкидывается.
если что-то кажется сложным и невыполнимым, не значит, что это сделать никому не возможно.
пример куска текста, на выходе парсера:
----------
Серия Guilty Gear существует уже несколько лет, завоевала массу фанатов, и стала одним из достойнейших представителей файтингов на киберспортивных турнирах. Так же подумали и ребята из Arc System Works, приготовив игрокам новую ловушку, пожирающую время в промышленных масштабах, но доставляющую массу веселья! Три расы, развитие города, какое-то пафосное фэнтезийное название, все это мы уже видели не раз и ни два. В этом плане игра не предлагает ничего оригинального. Видимо поэтому IT Arcama решили прикрутить к посредственному клону квесты и ролевую систему. Мутант получился тот еще, но не лишенный некоторой доли обаяния.
----------
Контент состоит из морфологически и синтаксически верных предложений, которые друг с другом не всаимосвязанны сюжетом (что впрочем для дора монопенисуально).
"Эту собаку зовут Каштанка, потому что её шерсть каштанового цвета."
И как скрипт правильно определит стартовое слово
перед каштанкой нет точки, так и определит )
graber.txt добавил 14.07.2010 в 02:20
пример куска текста, на выходе парсера
по такому кусочку судить нельзя ))