- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Тут выкладывали интервью с Еленой Колмановской, где она упомянула про проект рефераты от Яндекса. Я попробовал погенерировать тексты --- они без смысла, но, вообще говоря, с точки зрения структуры предложения они грамотные. Так если Яндекс разбирается в том как устроен реферат (это почти тоже самое, что статья про какое-то слово), может быть он проверяет соответсвие индексируемых сайтов этим принципам? В таком случае, очевидно, формула текстовой релевантности не ограничивается tf*idf даже для однословных запросов.
Я никаких экспериментов по этому поводу не проводил, но замечал в ходе других экспериментов, что одинаковые (кол-во слов, кол-во ключей, кол-во наиболее частотного слова, отсутствие внешних ссылок) сайты порой ведут себя немного по-разному. Это можно было бы списать на качество текста.
Они там в яндексе проехались по филфакам региональных пединститутов, насобирали студенток и посадили их оценивать качество текстов. Примерно так, да?
Тексты на referats.yandex.ru пишет машина по каким-то правилам. Гипотетически, выполнение этих же правил может быть проверно машиной для проиндексированных сайтов. В каком месте тут нужны студентки филфаков региональных пединститутов?
Тексты на referats.yandex.ru пишет машина по каким-то правилам. Гипотетически, выполнение этих же правил может быть проверно машиной для проиндексированных сайтов. В каком месте тут нужны студентки филфаков региональных пединститутов?
Вы не задумывались, что для написания "хорошего" текста нужно намного меньше правил, чем для оценки качества текста? Вы вообще в школе когда-нибудь изложения писали?
Вы не задумывались, что для написания "хорошего" текста нужно намного меньше правил, чем для оценки качества текста?
я так не думаю
Вы вообще в школе когда-нибудь изложения писали?
что было в школе я давно забыл
Вы не задумывались, что для написания "хорошего" текста нужно намного меньше правил, чем для оценки качества текста? Вы вообще в школе когда-нибудь изложения писали?
при чем здесь написание текста? речь идет, насколько я понимаю, о возможности оценки Яндексом грамотности построения предложений, используя алгоритм Ярефератов
Так вопрос про качество (оригинальность, уникальность, содержательность) или просто про грамотность?
они без смысла, но, вообще говоря, с точки зрения структуры предложения они грамотные.
Есть еще статистический анализ. Если сгенерированные словосочетания почти не встречаются на других сайтах - подозрительно!
Так что генерировать не нужно - просто берите чужие тексты и меняйте слова на синонимы. Или не меняйте. Слухи о "страшном вреде неуникальности" сильно преувеличены, т.к. весь интернет состоит из неуникальных текстов - они повторяются на миллионах сайтов.
Если ваш текст слишком уникален - это спам!
Так вопрос про качество (оригинальность, уникальность, содержательность) или просто про грамотность?
Под качественными я имею в виду грамотные + более менее стилистически выдержанные тексты (с какими-нибудь вводным словами, наречиями, возможно должна быть какая-то структура, типа введение, основная часть и заключение и т д --- я не знаю как это формализовать). Например текст
"Мы продаем оконные кондиционеры, мобильные кондиционеры ... и так далее еще 30 слов, 15 из которых --- кондиционеры... ."
может быть и грамотный, но не качественный.
вот вы подймайте как машина будет оценивать грамотность и качество текста ?
там же в интервью говорят, что сначала сайт определяют по каким-то признакам, что он подозрительный, а потом люди уже смотрят и оценивают...
так оно и есть
Если говорить о синтаксической оценке текста, то тут ничего сложного нет - структуру предложения (подлежащее, сказуемое, группа однородных прилагательных и т.д.) выделить можно. Можно даже пойти дальше и вести оценку текста как в Word'е .т.е. используя тезаурус. Вопрос в затратах - хз, насколько это ресурсоемко.
Вопрос также и в том, а повышает ли такая глубокая оценка точность оценки релевантности текста? Тут можно долго гадать, пока мы не попробуем провести практический эксперимент. Яндекс наверняка проводит, так что ему виднее, где накручивать, а где достаточно TF*IDF