А есть такая прога...

12
[Удален]
1418

Существует что-нибудь такое, которое умеет вынимать из текста предложения между большой буквой, с которого начинается предложение и точкой включительно и складывать из в отдельный файл? То есть определять в тексте с мусором только целые нормальные предложения?

Trafikgon
На сайте с 24.10.2008
Offline
174
#1

сниппеты" конкурентов соберал чтоли? уменя подобная была ситуация. Я все 140 кеев выдрал руками за 3 дня)

. (#)
[Удален]
#2
Trafikgon:
сниппеты" конкурентов соберал чтоли? уменя подобная была ситуация. Я все 140 кеев выдрал руками за 3 дня)

Не, у меня есть тексты, где много предложений без точек, и прочий мусор. Известные скрипты хреново отчищают такое, вот если сделать анализатор полноценных предложений... Может он уже есть?

Unsiker
На сайте с 23.03.2009
Offline
43
#3

Именно такой проги не видел, но вот скриптик написать не сложно.

Мне трудно теперь сохранить реальность улыбки, Еще труднее быть с кем-то самим собой.
N4
На сайте с 27.07.2008
Offline
89
#4

такой скрипт есть и причем уже давно. на подобном алгоритме работает мой парсер контента.

в скором времени будет онлайновая бесплатная версия с некоторыми ограничениями.

Интернет-магазин: SP.Easy.Shop 1.4
[Удален]
#5

А вообще дурацкая идея. Если предложение такое:

"Эту собаку зовут Каштанка, потому что её шерсть каштанового цвета."

И как скрипт правильно определит стартовое слово, их тут два с большой буквы. Кроме того, мусор может оказаться внутри предложения, что и происходит во время генерации дора, т.к. доргены предложения так и определяют-начало большая буква, конец точка.

Если вот что-то на базе Word замутить, что-то такое, которое будет отбирать только те предложения, которые Word посчитал нормальными...

[Удален]
#6

Пришли мне на почту немного такого мусора для примера, я мб сделаю программу vocheretko(at )gmail.com

response
На сайте с 01.12.2004
Offline
324
#7

какой еретический ужас. вам по отдельном скурипту на каждый случай надо? для большой буквы и точки, для маленькой и точки, для любой буквы и любого знака препинания? взять любой кастомайзбл парсер и собрать, настроив правила.

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)
[Удален]
#8
Social-engines:
Пришли мне на почту немного такого мусора для примера, я мб сделаю программу vocheretko(at )gmail.com

Отослал. Такой текст даже дорген Jako заглатывает очень долго. В то время как такой же объем от Цербера нормально.

N4
На сайте с 27.07.2008
Offline
89
#9
Kalessin:
А вообще дурацкая идея. Если предложение такое:
"Эту собаку зовут Каштанка, потому что её шерсть каштанового цвета."

И как скрипт правильно определит стартовое слово, их тут два с большой буквы. Кроме того, мусор может оказаться внутри предложения, что и происходит во время генерации дора, т.к. доргены предложения так и определяют-начало большая буква, конец точка.

и тем не менее скрипт работает, определяет стартовые слова и конечную точку.

и мусор очищается и все что не нужно выкидывается.

если что-то кажется сложным и невыполнимым, не значит, что это сделать никому не возможно.

пример куска текста, на выходе парсера:

----------

Серия Guilty Gear существует уже несколько лет, завоевала массу фанатов, и стала одним из достойнейших представителей файтингов на киберспортивных турнирах. Так же подумали и ребята из Arc System Works, приготовив игрокам новую ловушку, пожирающую время в промышленных масштабах, но доставляющую массу веселья! Три расы, развитие города, какое-то пафосное фэнтезийное название, все это мы уже видели не раз и ни два. В этом плане игра не предлагает ничего оригинального. Видимо поэтому IT Arcama решили прикрутить к посредственному клону квесты и ролевую систему. Мутант получился тот еще, но не лишенный некоторой доли обаяния.

----------

Контент состоит из морфологически и синтаксически верных предложений, которые друг с другом не всаимосвязанны сюжетом (что впрочем для дора монопенисуально).

[Удален]
#10
Kalessin:
"Эту собаку зовут Каштанка, потому что её шерсть каштанового цвета."
И как скрипт правильно определит стартовое слово

перед каштанкой нет точки, так и определит )

graber.txt добавил 14.07.2010 в 02:20

number4:
пример куска текста, на выходе парсера

по такому кусочку судить нельзя ))

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий