Можно будет использовать всё. Главное с "водой" не перебарщивать. Тут как раз важнее общий процент таких конструкций, а не их непосредственное наличие в тексте.
...
Именно поэтому мы не можем навязывать этот список пользователям. Мы сделали инструмент - посмотрим, принесет ли он пользу. Если нет, уберем. Ломать - не строить. :)
Мы думали сделать так изначально, но потом решили дать возможность пользователям добавлять свои списки стоп-слов. Из-за того, что указанный выше список очень субъективен и часто слова из него очень даже к месту в тексте.
Совершенно верно. Цель - собрать максимально возможное количество "водянистых" конструкций. Чем их будет больше, тем лучше будут автоматически выявляться откровенно пустые тексты.
К сожалению, просто так отловить "вступительную воду", про которую вы написали технически очень непросто. Я сомневаюсь, что это вообще возможно без использования навороченных алгоритмов с анализом тематических слов. Но даже такой подход, скорее всего, даст весьма посредственный результат.
"Создает уют", имхо, не подходит, поскольку недостаточно общо, "водянисто", что ли. :) Думаю, что это словосочетание характерно для текстов тематики "Домашний очаг". Мы же хотим создать список словосочетаний, которые могут использоваться во всех тематиках.
По поводу тавтологии - это очень хорошая идея. Мы давно думаем о добавлении этой функции в систему обязательной проверки текста. Думаю, что таки реализуем в ближайшее время.
Спасибо. Правда, это не совсем "водные" слова. Но мы реализуем эту мысль в системе проверки орфографии, которая используется на бирже.
Спасибо, Scaryer, за ваш список стоп-слов в старой теме. Добавил их в общий список.
каждый из нас не раз слышал
все мы прекрасно знаем
и хотя
как правило
тем не менее
Спасибо за ваше мнение. Пиар, конечно, важен, спору нет, но в этом случае основная задача, которую бы мы хотели решить, это создание достаточно обширной базы слоп-слов, которая всегда будет находиться в свободном доступе. Эту базу можно использовать для работы с этим готовым инструментом и для разработки новых, чем мы и занимаемся.
База стоп-слов :)
Это будет возможно, только в том случае, если мы объедим наш опыт. Буду рад, если вы поделитесь такими словосочетаниями. Сразу скажу, что список этот не претендует на "черный список стоп-слов" или что-то в этом духе, он сильно субъективен, но, думаю, будет полезен многим. :)
Спасибо, выглядит неплохо и API имеется. Будем тестить.
Sentoro, [umka], спасибо за советы!
Обычно до 2-х дней.
Zodar, Worthy jobs, спасибо за отзывы!
Спасибо за предложение. Думаю, в ближайшее время реализуем эту возможность.