vitvvs

Рейтинг
146
Регистрация
31.01.2008
xXх:
а еще вот что:
Часто профессионалу можно бегло прочитать пару строк чтобы определить качество текста.
Например 15 секунд - один сайт. Значит за час - 240 сайтов, за день 2400, т.е. десять человек могут ежедневно в ручном режиме модерировать все новые сайты.

а руками то зачем, набери в ворде - хорошая человек. Он подчеркнет - хорошая.

Eladi:
Так без наездов.

Другая тема = морфология поисковых запросов, которые в этой теме не обсуждаем.

Когда я говорил про "учет морфологии" текста, я имел ввиду что Яше будет глубоко пох, написана фраза морфологически правильно в ТЕКСТЕ СТРАНИЦЫ: "хороший человек" или "хорошая человек", и пессимизации за правильность написания не будет. Ключи и их употребление это другой разговор 🚬

а ты не исключаешь что "хорошая человек" и если весь текст состоит из таких словосочетаний, то по выдаче такой сайт будет стоят ниже чем правильные?

Eladi:
Обе выдачи соответвуют леммам словосочетания "пластиковые окна". И в первом и втором случае процентное соотношение частоты нормальной формы "пластиковые окна" выше, но это уже другая тема 🚬

ты притворяешься?

леммы (лексемы) не относятся к морфолгии?

vitvvs добавил 13.03.2009 в 21:01

Выше на этой странице ты писал

Eladi:

Если Яндекс начнет учитывать морфологию и что еще сложнее семантику предложений страницы и сайта в целом, уйдет вниз определенное множество сайтов, и среди них белые, которые несут полезную информацию.

теперь на мой пример ты отвечаешь

Eladi:
Обе выдачи соответствуют леммам словосочетания "пластиковые окна". Лучше, понятное дело, употреблять все леммы или наиболее употребляемые при генерации контента. Семантика особой роли не играет.

ты в с своем уме? При чем здесь семантика, мы говорим о морфологии.

Eladi:
Конкретно они открыто не говорят, что и как они учитывают.
Да лемматизация упоминается, ну это и в принципе и ожидаемо, при поиске необходимо приводить в фразы в «словарную» форму.

http://yandex.ru/yandsearch?text=%D0%B3%D0%BE%D0%BB%D1%8B%D0%B5+%D0%B1%D0%B0%D0%B1%D1%8B&stparhome=bno

http://yandex.ru/yandsearch?text=%D0%B3%D0%BE%D0%BB%D1%8B%D1%85+%D0%B1%D0%B0%D0%B1&stparhome=bno

может так вам будет понятней, или так

http://yandex.ru/yandsearch?text=%D0%BF%D0%BB%D0%B0%D1%81%D1%82%D0%B8%D0%BA%D0%BE%D0%B2%D1%8B%D0%B5+%D0%BE%D0%BA%D0%BD%D0%B0&stparhome=byes

http://yandex.ru/yandsearch?text=%D0%BF%D0%BB%D0%B0%D1%81%D1%82%D0%B8%D0%BA%D0%BE%D0%B2%D1%8B%D1%85+%D0%BE%D0%BA%D0%BE%D0%BD&stparhome=byes

Eladi:
Посмотрите на Google, он как 5 лет назад ел морковку так и сейчас ест. И двигается флагман рынка в другом направлении.

Если Яндекс начнет учитывать морфологию и что еще сложнее семантику предложений страницы и сайта в целом, уйдет вниз определенное множество сайтов, и среди них белые, которые несут полезную информацию. Это не тривиальная задача, в которой много исключений. Определение грамотно составленного текста не гарантирует, полезность этого текста для пользователя. И наоборот полезный для пользователя контент, может быть и не грамотным. Хотя это в принципе решать Яндексу, он лучше всех знает, что полезней для пользователя :)

а разве яндекс не учитывает морфологию? насколько мне известно вы ошибаетесь.

ознакомьтесь http://download.yandex.ru/company/iworld-3.pdf

mimicunit:
Марков и гиг исходных текстов решает ☝
по адалту, из гига получается примерно 20 лямов словосочетаний, полляма уникальных слов ...

вот текст адалтный тупо по Маркову, и пусть кто-нить скажет что он не читаем 😂 :


############### - это типа ключевики

правда база тяжелая получается, из гига исходных - под 4 гига, из них 3,5 гига - ключи :(

а дорген какой юзаете для этого?

проект закрыл для дальнейшей доработки

а есть еще варианты? ;)

вы же сами видели

Gnome:
Текст очень хороший.

Как на счет других тематик? Что подается на вход?

тематики любые, на вход по несемнтической генрации обычный текстовый файл, по семантике тот же файл в полуавтоматическом режиме с помощью написанного скрипта разбивается на семантические группы.

Всего: 443