G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
Prediger:
Хотелось бы порассуждать о возможностях применения давно уже и пока бесплатного продукта от разработчиков Яндекса - Yandex.Server.

Так а чего о нем рассуждать? Нравится - используйте, не нравится - не используйте. :)

Prediger:
В общем, штучка для тех, кто хотел бы заиметь свой "ручной" поисковик и больше не мучиться подстраиванием под поисковые машины (SEO) :).

Штучка-то штучка, да не все так просто... Я активно использую Яндекс.сервер как искалку документов, типа "фаст ранк", игнорируя его ранжирование. Т.е. по запросу (в разных модификациях) выгребаю много документов (несколько тысяч, до десяти), после чего ранжирую их без учета мнения Яндекс.сервера. Мне не нравится качество ранжирования Яндекс.сервера, хотя у того же Богдана Гаркушина иное мнение. Но пободаться качеством он при этом не желает. :)

vitali_y, ну вот и подтверждение практически "из первых рук". Владимир Офицеров, специалист отдела качества поиска гугла, на прошлой неделе ответил на несколько вопросов.

Среди вопросов был и такой:

— Какие еще существуют проблемы в современном поиске? Что вас лично на данный момент не устраивает и что бы вы хотели как можно скорее исправить?

— Проблем существует достаточно много, но одной из самых серьезных, я считаю, является спам в поисковых результатах. По крайней мере, для Российского рынка это один из ключевых факторов и мы будем стараться фильтровать эту информацию.

Офицеров - ведущий спец с именем, причем абсолютно в теме (я с ним общался за день до интервью по поводу совместных исследований с гуглом), считает спам в выдаче проблемой. Похоже, что только для Вас такой проблемы нет. ;)

vitali_y:
не совсем верно - не вдаваясь в детали - я уточнял задачу - вел речь о некотором подклассне задач - вы перешли на еще более общую задачу определения спама ну и т.п.

Ага, Вы уточнили, когда поняли, что написали фигню. Хотя даже после уточнения задача не становится легкой нигде, кроме как в Вашем не опытном моске.

vitali_y:
вручную когда текст A забудется такие задачи никто не решает - можно для решения вручную определять подозрительные тексты.

Это и делается, один из методов для отслеживания новых спам-алгоритмов. Но только один из, все ведь гораздо сложнее. :)

vitali_y:
хотелось бы увидеть код или на худой конец exe файл для подобного синонимайзера.

Мне бы тоже хотелось, да.

vitali_y:
Написание оного задача не из легких - это первый аргумент.

Ну так у спамера нынче жизнь такая - не из легких. Однако, в гугле.юс они рубят сотни тысяч американских денег в месяц. И гугл не может искоренить их окончательно, хотя очень старается. :)

vitali_y:
нет не легко - здесь - да сложность сравнима с написанием самого синонимайзера.

Не, сложность будет слегка выше, чем у синонимайзера.

vitali_y:
НО повторюсь - Я НЕСЧИТАЮ ЧТО ДЛЯ ПОИСКОВИКА ИМЕЕТ СМЫСЛ БОРОТЬСЯ С ПОДОБНЫМ.

Да я понял, что Вы не считаете. А поисковики - считают, видимо в поисковиках недалекие люди рулят процессами, Вы бы объяснили им, чтоле. Если бы они забили на антиспам и часть из бюджета на него переводили Вам - Вы и все Ваши родственники смогли бы не работать и жить в монаке. :D

vitali_y:
еще аргументы: тест был изменен настолько что потерял первоначальный смысл.

Ну не совсем потерял, хотя конечно я немного переборщил. Но суть моего "синонимайза" надеюсь понята? ;)

vitali_y:
при поиске я не вижу ни одного запроса к тексту 1 где второй текст стал бы в выдаче рядом с первым. верно и обратное.

А вот и нет - обратное как раз верно, "универ" Яндекс переколдовывает, как "университет". :)

vitali_y:
если второй текст генерится с целью получить трафик от определенной аудитории - говорящей и читающей на "наречии" и понимающей о чем речь когда говорится "медвед", "в ГЗ универа", "целую пару", "выносил моск" - то флаг таким спамерам в руки! пускай получают свой трафик!

Ну про "универ" я выше написал, "ГЗ" не переколдовывается временно, а "медвед" - по политическим причинам. Хотя здесь Яндекс не совсем последователен, т.к. у него есть пресс-портрет Дмитр Медвед. :D

vitali_y:
флаг им в руки - если их спам переработан настолько умело - они ищут и находят свою аудиторию. не может выйти одной исчерпывающей книги по теме - можно написать собственную книгу либо статью достаточно переработав материал и подавая его в другом виде - это реально не спам - если же этот процесс автоматизировать - подойти формально - то исходник будет заметно хуже оригинала - книга есть такая "Гедель Эшер Бах" - там эта тема затрагивается.

Автор приведенного мной выше патента генерит все на автомате, даже названия книг. И продает их на Амазоне - когда-то писали, что там почти 100К его разнообразных "трудов" в продаже, многие вполне себе раскупаются. :)

vitali_y:
с моей точки зрения - проблемма надумана. я завидую "коллективам" и их "грантам" - выделили бы мне маааленикий грантик и я бы то же сочинил бы что нибудь на тему -> подозреваю что в той среде все свои -> подозреваю что мне не позволят решать подобные задачи - вероятно "рылом не вышел" что б в "вступить в колашный ряд" :)

Я уверен, что Ваша "боязнь" происходит от нежелания вдуматься в проблему. Из той же серии:

выделили бы мне маааленикий грантик и я бы:

- легко написал самый крутой антивирус, это же легко: увидел вирус - и удалил его. И аргУмент есть весомый - мой бывший программер на днях выпустил релиз Kaspersky Security 8.0 для Microsoft Exchange Servers. Если подчиненный смог, то я то - тем более.

- легко написал бы самый крутой поисковик, и аргУмент есть - я же выиграл РОМИП-2010 в поиске, а там и Яндекс участвовал.

- легко написал бы самую крутую ОС. И аргУмент есть - когда-то лет 20+ назад я был Великим Программистом, в т.ч. и написал с нуля полноценную ДОС для Агат-9.

:D

webpavilion:
Top for the good, наверное вот это имелось ввиду: http://ru.wikipedia.org/wiki/Scigen

Да, это были крутые отжиги. :)

G00DMAN добавил 20.11.2010 в 01:19

Scaryer, так там и перевод на русский схавали наши псевдоученые.

ssoll:
ждем вопросов. Ответы дадим в начале рабочей недели

ssoll, в посте #2 этой ветки я задал вопрос. Где ответ? :)

vitali_y:
ну про окончательно никто и не говорил - есть база для обучение - программу обучил и она будет помечать как спам похожие сообщения.

Безусловно. Если есть база, т.е. понятен принцип спама.

vitali_y:
так никто и не утверждал что решаема автоматически. и вообще, вы сначала сформулируйте задачу, которую вы собираетесь решать - а затем что то утверждайте.
а то похоже тут 90% философы и с точными формулировками и у точняющими вопросами не привыкли иметь дело.

Задачу же Вы поставили, или забыли уже? :)

vitali_y:
задачу ввиде: есть текст A и есть набор текстов {A1, ..., An} определить текст Ax который был получен автоматически из текста A при условии что текст A имеет смысл и Ax сохраняет этот смысл.
я решу легко ввиде программы.

Вы и вручную такую задачу не решите, если n будет достаточно большим. Чисто физически - глаз замылится, а текст А забудется.

Ну и простой пример хитрого синонимайзера:

Было:

Сегодня президент РФ Д.А.Медведев прочитал полуторачасовую лекцию в главном здании МГУ им.Ломоносова

Стало:

Прикинь, щас лично сам медвед целую пару выносил нам моск в ГЗ универа!

Такой уровень синонимайзера осилите легко? ;)

vitali_y:
несогласен

Потому что никогда не думали об этом. Проблема ведь не такая тупая, как Вам кажется. Антиспамом занимается много коллективов, выделяются большие гранты по всему миру. Толк есть, но спамеры тоже на месте не стоят. :)

Кстати, некоторые спамеры даже патенты получают. И издают сотни тысяч разнообразных книг, изготовленных спам-методами. Имеют многомиллионный официальный доход. :)

Dvoe, Ваши домыслы по абвг не имеют ничего общего с действительностью. :)

Релевантность документа запросу рассчитывается по 400+ параметрам, а Вы строите логические цепочки только на двух из них - наличию ссылки на А и текста на Д. Причем, по Вашему мнению, наличие ссылки должно заруливать текст. Такого давно уже нет в Яндексе, все гораздо сложнее. Варианты, когда один из двух сайтов показывается только при rd=0 также не говорят о "силе" ссылки. Один из результатов скрывается, когда Яндекс считает ответы похожими, не более того.

Financia, ну так Ваш вопрос "как выйти в топ?" к форексу имеет такое же отношение, как и к окнам, и к любой другой тематике. На такие вопросы никто Вам конкретного ответа не даст, и не надейтесь. :)

Вы выбрали сложную тематику для монетизации, конкуренция в ней приличная, так что легко не будет. Если Вы сможете регулярно выдавать интересные авторские материалы, то траф лучше гнать с форексных форумов, получится больше, чем из поиска и конверсия должна быть лучше.

HapKOTuK, ну если Вы сделаете плагин для Сапы под ФФ, по типу Винка, то спрос наверняка будет.

Качество сегодня можно доказать только на семинаре РОМИП, тем более, что в сезоне 2011 собираются участвовать два тематических классификатора из сео-отрасли, от команд агрегаторов Руки и Вебэффектор.

Если будут вопросы по РОМИПу - можете стучать в личку, или на наш новый форум, который я наконец-то запустил. :)

Костя, ты ошибся. :)

Ну и в отличие от Сергея я тут скорее всего проездом. :D

Sim:
Погоди. А как же понты? которые дороже денег?

Ну вот я не понимаю понтов, когда в бизнес не вписывается, а все конкуренты радостно скликивают. Зачем радовать конкурентов, даже по мелочи? :)

Sim:
ТС?

Не, я писал про тех, кто занимается дилингом. А ТС хочет мелко попаразитировать на отрасли, да и то пока не выходит. :)

Всего: 1960