Генератор правильного текста.

[Удален]
#71

vitvvs Тоже интересуют ваши наработки. Пример текста в личку плиз

HorrorTM
На сайте с 06.05.2007
Offline
73
#72

Господа, вы начали закапываться в дебри. В лексику, семантику и т.д. Доказывать, что это невозможно реализовать в данный момент и так далее. Но вы упираетесь в догмы и видите только одну сторону медали, потому что только её вам показывали и именно о ней думает голова, когда поднимается данный вопрос. Вся беда в ДОГМАХ. За последние пол года Яндекс кстати сломал уже несколько догм, причем "играючи".

Приведу простенький пример из жизни, возможно он поможет понять что я имею ввиду.

Некоторое время назад в ветке белых появился веселый паренек, который сходу заявил, что Яндекс может со 100% вероятностью в любой момент определить и перебанить ВСЕ ссылки с САПЕ.

Поднялась дискуссия, примерно в 8 баллов по шкале Рихтера. Одни говорили что реально, другие - не может быть. Уперлись в то, каким образом он может отловить "продажные" ссылки. Что только не упоминали - и блоки ссылок и количество и то, что на одних и тех же страницах они время от времени меняются. Дискутировали долго вобщем, потом паренек раскололся - он решил задачу зайдя с ТЕХНИЧЕСКОЙ стороны.

Он тупо открывал страничку и смотрел ссылки, рядом открывал её еще раз, но с бредовым параметром, типа page.html?ssilkam=popa. А код САПЕ воспринимал их как две РАЗНЫЕ страницы и на второй соответственно ссылки не выставлял.

Сообщество тогда несколько припухло. Выход, кому надо было, нашли очень быстро, но факт остается фактом - человек просто глянул на проблему под другим углом...

Вы уверены, что частную проблему определения говнотекстов доров нельзя решить таким же, нелинейным методом? Я сходу мог бы Яше несколько вариантов предложить, после которых сайт можно если не банить автоматом, то как минимум отправлять на ручную модерацию...

Думайте господа, пока есть время ☝

Культура (http://www.skdnt.ru) в Ставропольском крае :: Ставропольская околица (http://www.stavok.ru) :: Фильмы онлайн (http://www.trubim.tv)
xXх
На сайте с 19.01.2009
Offline
70
#73
HorrorTM:
Яндекс может со 100% вероятностью в любой момент определить и перебанить ВСЕ ссылки с САПЕ.

Почему то у тебя всегда реальные посты.

А я вот думаю выгодно ли яндексу присекать все продажные ссылки? Думаю помнишь была беда пару лет назад - заходишь на коммерческий сай из топа, начинаешь звонить в фирму - фирмы нет... Просто часто были сайты\информация устаревшая.

Вот если сайт покупает линки - это реально существующий сайт. И часто качество сайта прямо пропорционально стоимости рекламной кампании (стоимости ссылок) соответственно прямо пропорционально в выдаче поисковика.

Просто мои мысли сводятся к одному:

Покупка ссылок позволяет цивилизованно распределять места в коммерческой выдаче.

Это мое мнение, если что - сильно не пинать. Оффтоп конечно, но интересны мысли по этому поводу.

E
На сайте с 22.09.2007
Offline
22
#74
vitvvs:
ты притворяешься?
леммы (лексемы) не относятся к морфолгии?

Так без наездов.

Другая тема = морфология поисковых запросов, которые в этой теме не обсуждаем.

Когда я говорил про "учет морфологии" текста, я имел ввиду что Яше будет глубоко пох, написана фраза морфологически правильно в ТЕКСТЕ СТРАНИЦЫ: "хороший человек" или "хорошая человек", и пессимизации за правильность написания не будет. Ключи и их употребление это другой разговор 🚬

"Imagination is more important than knowledge" Albert Einstein
V
На сайте с 31.01.2008
Offline
146
#75
Eladi:
Так без наездов.

Другая тема = морфология поисковых запросов, которые в этой теме не обсуждаем.

Когда я говорил про "учет морфологии" текста, я имел ввиду что Яше будет глубоко пох, написана фраза морфологически правильно в ТЕКСТЕ СТРАНИЦЫ: "хороший человек" или "хорошая человек", и пессимизации за правильность написания не будет. Ключи и их употребление это другой разговор 🚬

а ты не исключаешь что "хорошая человек" и если весь текст состоит из таких словосочетаний, то по выдаче такой сайт будет стоят ниже чем правильные?

xXх
На сайте с 19.01.2009
Offline
70
#76

а еще вот что:

допустим в день в яндекс добавляются 40 000 новых сайтов. Программные анализаторы выбирают из них например половину, которые подозрительны по морфологическому анализу текста.

т.е. 20 000 новых сайтов. Скрипт обходит их и получает тексты(слепки) сайтов.

Часто профессионалу можно бегло прочитать пару строк чтобы определить качество текста.

Например 15 секунд - один сайт. Значит за час - 240 сайтов, за день 2400, т.е. десять человек могут ежедневно в ручном режиме модерировать все новые сайты.

Допустим что это студенты которые работают по свободному графику, значит расход на модерацию минимален.

Я посчитал конечно по тупому. Можно написать ряд алгоритмов для анализа. Например в отличии от сайта страниц с нулевым контентом на доре практически нет, в отличии от сайта. Есть еще пачка отличий.

Еще с учетом того что яндекс.бар фиксирует редирект. также может анализировать глубину входа пользователя на сайт (на доре глубина всегда и у всех=1).

V
На сайте с 31.01.2008
Offline
146
#77
xXх:
а еще вот что:
Часто профессионалу можно бегло прочитать пару строк чтобы определить качество текста.
Например 15 секунд - один сайт. Значит за час - 240 сайтов, за день 2400, т.е. десять человек могут ежедневно в ручном режиме модерировать все новые сайты.

а руками то зачем, набери в ворде - хорошая человек. Он подчеркнет - хорошая.

E
На сайте с 22.09.2007
Offline
22
#78
vitvvs:
а ты не исключаешь что "хорошая человек" и если весь текст состоит из таких словосочетаний, то по выдаче такой сайт будет стоят ниже чем правильные?

Насчет ранжирования ХЗ, скорее всего нет.

Чтобы узнать наверняка, можно провести эксперемент:

делаем две страницы с левым ключем, один с плохим контентом, другой с нормальным. Плотность и пр. одинаково. Ставим одинаковые ссылки. Смотрим результат.

response
На сайте с 01.12.2004
Offline
324
#79

квотить лень, но в общем и целом жжоте, господа :)

Пара каментов, что называется, btw:

1. В моемкруге (кстати, ужасный интерфейс, Гастарбайтер облажался) есть личности, выдающие себя за обезьян яндекса :)

2. Контрольный пакет сапы принадлежит тов. Мильнеру (DST), как и mail.ru. Как яндексу относиться к тому, что один из его партнеров в одном месте зарабатывает на на**ке поисковика, а в другом - продает его же контекстку? :) Представьте, какая заварушка получится, если яндекс возьмет и за одну ночь обрушит сапу.

Про факторы согласен стопудово с Хоррором: можно полгода изобретать алгоритм, а потом спалиться на тупой статистике чего-либо, не затрагивающей даже плотность ключевиков. СДЛ, граждане, промышленные СДЛ ;)

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)
T
На сайте с 19.10.2008
Offline
32
#80
response:


1. В моемкруге (кстати, ужасный интерфейс, Гастарбайтер облажался) есть личности, выдающие себя за обезьян яндекса :)

У меня подруга там модератором работает, и говорит отдел оооочень большой + есть отдел поиска, рядом сидят. Правда чем занимаются- не знает (работает в основном на удаленке)

Столько всего сказано, только никто основ не упомянул - безсловарный анализ

Сбылись мечты народные: МИР-ТРУД-МАЙ

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий