Создайте базу знаний о предметных областях на основании скормленных ей текстов. Сосредоточьтесь на системе, которая бы применяла весь упомянутый - Вопросы новичков в SEO

Идея Фикс или велосипед? - Мысль об автоматическом источнике хлеба с маслом ;)

MD5sys · 2008-07-29T22:12:42.0000000Z

Здравствуйте, уважаемые мастера SEO! Приношу сразу свои извинения, если вдруг не в тему или случайно повторяюсь... Я почти новичок в SEO. Но есть неплохой опыт в программировании (на PHP). У меня тут назрела некоторая мысль о создании эдакой Автоматической Системы, которая будет постоянным источником дохода за счёт SEO. Мысль эта вряд ли слишком новая, но у этой есть свои особенности, о которых хотел бы немножко рассказать. ;) Прочитал также недавно уйму информации о SEO - в книжках, форумах и т.п., - башка раскалывается :) Хотел попросить специалистов в области SEO, если есть желание, - поделиться мыслями по поводу актуальности данной системы. Собственно идея вот в чём: 1. Заказать в аренду выделенный сервер чтобы полноценно использовать серверные мощности. 2. Регистрировать много доменов под сайты. Часть платных (.ru, .com), под сателиты можно и халявные (.msk.ru, .pp.ru и т.п.). Упростить массовую регистрацию засчёт интеграции с API регистраторов. 3. Делать много проектов с уникальным контентом. Естественно на автомате (или почти на автомате - лишь мелкую часть действий делать вручную, например выбор темы проектов и источников материалов). 4. Для этого написать самому целую PHP-систему которая будет работать на серваке и управлять всем этим. 5. С шаблонами особо не заморачиваться - есть большие базы готовых (того же вордпресса), привести их просто к стандарту. 6. Самый конёк - уникальный контент. Эта тема неоднократно везде обсуждается, но как я заметил - большинство ограничиваются либо синонимайзерами, либо наёмными платными-рерайтерами. У синонимайзеров свои минусы - как правило контент значительно теряет читабельность (для пользователя), да и уникальности даёт обычно 7-10%. А услуги рейрайтеров - достаточно дорого и не всегда удобно. Хочу попробовать реализовать такую идею: написать систему рерайтинга, максимально приближённую по качеству к человеческому. Идеальной системы конечно не получится, но я попытаюсь обучить её так, чтобы она именно пересказывала смысл. То есть, проводить сложный морфологический, синтаксический, тематический анализ, затем пытаться выбрать смысловые части и из них строить новые предложения. Где-то упрощать, где-то наоборот, усложнять, использовать качественный синониминг и т.п. ;) И таким образом модифицировать отдельные предложения или даже абзацы. В идеале, уникальность можно получить 60-80%, но в любом случае ориентир делать именно на читабельность для пользователя. Конечно, это потребует как очень больших усилий в разработке, так и в серверных мощностях. Возможно продумать также дальнейшую самообучаемость системы. Контент-источник брать традиционным способом - парсинг и RSS. ;) 7. Делать с этого нишевые информационно-новостные ресурсы, с продуманной умной наполняемостью (т.е. как будто их наполняет человек). 8. Пытаться (в авторежиме) выводить в Топ странички по НЧ запросам. Для этого черпать базу НЧ с того же WordStat'а, а тематические запросы также продуманно по возможности вставлять и в тексты (т.е. чтобы рерайтер сам их использовал с умом). 9. Продумать умную переликновку. Линковать внутренние странички и кольцевым методом перелинковывать все ресурсы в системе (желательно тематические). Анкоры естественно согласовывать с НЧ. 10. Может также продумать автосабмиттинг в каталоги, доски объявлений и т.п. для доп. внешних ссылок. Хотя в них например сабмиттить только саттелиты, а с сателитов уже ставить ссылки на основные ресурсы. 11. Монетизировать трафик в основном за счёт контекстной рекламы . Причём черпать сразу из трёх источников - Adsensa, Бегуна и РСЯ, а сами блоки показывать к примеру рандомно. Потом если что подключить другие (ту же Сапу, партнёрки и др.). Вообщем, в итоге система почти полностью должна получиться автоматической. Действия человеку оставить например для подбора домена, названия проекта, возможно кое-где минимального дизайнерского труда ;) Любые ручные действия максимально упростить. В итоге плодить в год пару сотен более-менее качественных проектов и уйму саттелитов под каждый из них. Какие есть мысли по поводу такой системы? ;) Насколько такой источник актуален, если бы он воплотился в реальность? Ориентир планирую делать на Рунетовский рынок (у нас он сейчас неплохо развивается), хотя со временем можно развивать и на Запад. Какие (хотя бы примерно , я вообще не в курсе) можно ожидать с таких сайтов прибыли? :) Заранее благодарю за советы и внимание. Всего доброго! P.S. Сорри за такой длинный пост. Но без какого-либо пункта - система не была бы МЕГА. ;) Хотя о каждом из них отдельно можно говорить вообще очень много :)

[Удален]

30 июля 2008, 08:58

#41

kevindark:
basterr, ходил. У тебя есть есть хоть 1 доказательство того, что это сгенерированный текст, а не понты типа "вот какой у меня генератор"?

Так там ТС предлагает списаться с ним в личке и обсудить, можете попробовать.

719

basterr

30 июля 2008, 08:59

#42

kevindark:
У тебя есть есть хоть 1 доказательство того, что это сгенерированный текст, а не понты типа "вот какой у меня генератор"?

нет конечно. из того топика их не видно. но насколько я знаю этот вацлав достаточно известный чел, врядли бы так тупо пиариться стал. хотя черт их всех знает.

125

Nominder

30 июля 2008, 08:59

#43

Идея очень даже реальная, сам нераз прокручивал это в своих мозгах.

Пункт 6 реализуем, но тяжело. Видел асечный бот с нормальными ответами и на вконтакте была флешка с которой я разговаривал примерно ПОЛ-ЧАСА!!! Он не тупил до того момента, пока я не начал говорить одно и то же слово *** кучу раз. Он отвечал ...

Эти системы ословываются на первичном разборе предложения на смысловые части, выделяют основу предложения: подлежащее, сказуемое. Смотрят на местоимения. Работают с окончаниями, суффиксами и приставками прилагательных, существительных, наречий и т. п.

Сам думал о реализации, но подумал, что моих мозгов на это не хватит. Какой-нибудь человек с кафедры может помоч разложить все по пунктам и наметить реализацию пункта номер 6.

либо этот проект так и не будет закончен, либо не окупится, т.к. как-нибудь и это прикроют, хотя х.з. как...

попытка не пытка.

[Удален]

30 июля 2008, 09:03

#44

bratka_panya, basterr, все существующие генераторы основываются на предварительной подготовке массива шаблонов, внутри которых потом проходит рандомизация - опять же, на основе массива данных. Засада в том, что в небольших масштабах это работает, а в промышленных - слишком большое сходство, и ПС палят на ура (((

Современные компьютеры умеют только вычислять. Это важно понимать, прежде чем думать о генераторах текста)

81

sun

30 июля 2008, 09:08

#45

Все не осилил, но идея больше применима к буржунету, английский более легче в синанемайзинге.

devmen.com (http://devmen.com/)

S

60

seraphim

30 июля 2008, 09:13

#46

MD5sys:

P.S. Если будут ещё мысли - пишите ;)

Ага, их есть у нас :)

Основная мысль - ваша система будет бесполезной без умения обучаться в незнакомых ей контекстах. Поэтому лучше сосредоточьтесь на системе, которая бы применяла весь упомянутый инструментарий (морфологию, синтаксис, семантику) и генерировала базы знаний о предметных областях на основании скормленных ей "образцовых" текстов.

Если такое осилите - то "решить" пересказ текста будет более простой задачей. Если не осилите - то не стоит и париться с очередным тысячепервым "продвинутым синонимайзером"... Хотя, конечно, абсурдна сама идея - строить адронный коллайдер чтобы разогнанными частицами жаб глушить :)

kevindark:
Современные компьютеры умеют только вычислять. Это важно понимать, прежде чем думать о генераторах текста)

Ну это вы тоже зря упрощаете. Вычисления вычислениям рознь. Исследователи ИИ хоть и медленно, но движутся вперед. Применительно к теме: "создать текст" и "пересказать текст" - это принципиально разные задачи. Вторая как раз не требует творчества, а требует вычислений. Проблема - создать базу для вычислений.

Другое дело, что ТС, похоже, о существующих направлениях в исследовании ИИ не в курсе, и таки будет изобретать велик...

19

Vanj

30 июля 2008, 09:19

#47

MD5sys:

MD5sys добавил 30.07.2008 в 11:17

1. Морфологический разбор.

2. Синтаксический разбор.

3. Тематический разбор.

4. Смысловой анализ

Должно получится серьёзное отличие от синонимайзеров

Это на столько же реально, на сколько п/с придумают новый фильтр!

Вся проблема заключается в одном – алгоритм, который можно вычислить.

Тут наверное действительно нужен аля "искусственный интеллект", а это уже нано технологии. :)(шутка)

Уверен в одном, что Ваша идея заработает (если конечно будете много над ней работать), но о тех масштабах, о которых говорится выше – забудьте, по любому, гайки закрутят.

SJ

78

sokol_jack

30 июля 2008, 09:48

#48

kevindark:
bratka_panya, basterr, все существующие генераторы основываются на предварительной подготовке массива шаблонов, внутри которых потом проходит рандомизация - опять же, на основе массива данных.

Слова человека, который явно работал в этом направлении ;)

И текст на армаде вполне может быть генерированным. По шаблону. Да, в шаблоне 100 переменных, каждая может принимать 10 значений, у шаблона переставляются предложения с согласованием рода, числа, времени...

Но он остается шаблоном. Которые хорошо только человек может подготовить.

У меня например все уперлось в "метаправила". Это когда система знает, что блок такой-то (словосочетания разных групп, предложения и т.д.) можно трансформировать так-то. Ясное дело, что морфология и разбор предложений активно юзались. Вот только эти "метаправила" придумывать мне... И я устал :) Это просто очередной шаблон. Да, очень "широкий" - но просто шаблон.

А научить "понимать"... Совсем тяжко. Но! Почитайте это:

http://newis.livejournal.com/

/ru/forum/232093

А потестить можно кстати тут (английский пока очень хорошо, русский - не знаю):

http://www.newisearch.com

Сравните выдачу с гугловой ;)

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?

[Удален]

30 июля 2008, 10:49

#49

Хочу попробовать реализовать такую идею: написать систему рерайтинга, максимально приближённую по качеству к человеческому. Идеальной системы конечно не получится, но я попытаюсь обучить её так, чтобы она именно пересказывала смысл.

То есть, проводить сложный морфологический, синтаксический, тематический анализ, затем пытаться выбрать смысловые части и из них строить новые предложения. Где-то упрощать, где-то наоборот, усложнять, использовать качественный синониминг и т.п.

Конек в этом. Все остальное уже сделано.

Как близкий к лингвистике человек, скажу, что это очень сложно.

Смотрите, почему синонимайзеры не работают? Вернее, работают не так, как надо? Программулину даже я на пхп напишу, главное - базы.

Есть конкретный текст, его можно посмотреть, выделить слова для синонимизации и составить базу.

Но все тексты разные, и универсальной базы не получится.

Даже возьмем тематику медицина. Ну и что? Это очень обширно. Надо брать примерно такую тематику: Медицина - стоматология - строение зубов - и собирать базу под особенности зубов.

Но надо ли? Ведь таких тематик миллионы, и собирать под каждую базу - нецелесообразно.

Посему синонимайзинг - дело, конечно, хорошее, но сложное именно из-за отсутствия баз.

Вот те, кто утверждает, что существуют хорошие синонимайзеры, возьмите и пропустите мой пост (только так чтоб действительно текст почти уникальным стал) - и почитайте. Бред.

А вообще, в части уникального контента вопрос уже решен. Есть тема, и она активно применяется, и очень хорошо, что ее не палят. Миллион знаков уникального контента по любой тематике добываются в качестве вечернего отдыха. Уникальность - 100%, читабельность - 100%, смысловая нагрузка - 100%
Так что никаких велосипедов изобретать не надо, уже изобретено :)

Яндекс кобласит Падают просмотры на ютуб Особенности продвижения информационных сайтов

[Удален]

30 июля 2008, 10:51

#50

Squick, а что ж квартиры с машиной еще нет? :)

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Идея Фикс или велосипед? - Мысль об автоматическом источнике хлеба с маслом ;)