G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
den78ru:
Имеете ввиду рабочие 10-15%?
Нет, наоборот, ссылки от сеопульта если куда и ставятся, то это "куда" принимает на автомате.
Это к тому, что я лично улучшения качества анкоров текущей конструкции не заметил.
Возникает вопрос, а сам принцип посторения анкоров фраза1. фраза2. фраза3. незыблим?

den78ru, а чем вам не нравится такой текст, если он нормально читаем?

di_max:
Ага. А так же все резкие шаги Яндекса в 2007-2008 в сторону усиления закрытости алго.;)

Закрытость приводит к тому, что статья про аннотирование на последнем ромипе вообще получилась косячная. Ну и алгоритмы, в ней приведенные, в явном виде не работают естественно. А жаль. :D

Калинин:
Они бешеные и у них совершенно нет гордости.
Человек, с жаром и слюнями отстаивавший еще 5-10 лет назад концепцию "новой истории" академика Фоменко, бывший его правой рукой и в связи с этим не застрелившийся - не имеет гордости. Это я о Каспарове; если кто не знал, он был ярым адептом и, наверное, что-то за это получал, помимо кайфа от приближения к новоисторической сверхистине.

Да. Каспаров не был правой рукой, Фоменко всегда дистанцировался от движения новохронологов, но в какое-то время адепты НХ нашли несколько потенциальных толстых спонсоров (в т.ч. и меня :) ). Вот тогда Каспаров и примкнул к движению, он не прямо, но достаточно явно предлагал почти весь предполагаемый бюджет отдать ему, за бренд, в обмен на лидерство и лоббирование идей. Учитывая, что многие идеи Новой Хронологии отводят России заметно большее значение в мировой истории, чем классические трактовки, Каспаров в те годы был практически ура-патриотом России, о чем и сообщал при каждом удобном случае. Но как только деньги обломились, Гарик тут же закончил с НХ и стал искать другие источники дохода. Нашел. :D

Godrasta, на фулл мун пати, через проливчик, наливают грибные коктейли. Говорят, что сознание открывается конкретно.:D

sokol_jack:
Однако я бы назвал страницы один и два тематичными (тематичными на поределенный %, а не да\нет!).

Ни разу не верю, что ПС сейчас так определяет тематичность.🚬

G00DMAN добавил 31.01.2009 в 18:21

sokol_jack:
А, ну точно. Логарифм - это ж не для обычных людей. Даже с учетом факльтета прикладной математики КПИ за плечами.

А от чего необычные люди будут брать логарифм? ;)

Добавьте и меня, что ли... :)

sokol_jack, вы так и не ответили на мой вопрос - как вы собираетесь сравнивать документы? ;)

Postum, а слабо в фильтры добавить параметр (суммарное кол-во ссылок с проиндексированных страниц)/(кол-во проиндексированных страниц)? У вас ведь эти данные есть в готовом виде. ;)

Если не слабо, то параметра маловато будет, к нему бы еще еще регулярно обновляемую табличку: по осям значение параметра и, скажем, тИЦ, в ячейках - количество. Дискретность осей с ходу не понятна, нужно результаты смотреть... :)

Ну и если вы полностью обрабатываете все страницы барыжащих сайтов, а не только те, которые в индексе Яндекса, то такую же фичу для всех страниц тоже хоца. :)

D_Search:
а ещё лучше думаю по tf*idf. наверное, там контрастность всё-таки считают :)

Лучше при нормальной базе IDF. Базы времен бОльшей открытости Яндекса что-то у меня не особо катят. :(

sokol_jack:
- Яндекс вполне понимает, что у слова есть синонимы и наличие на одной странице слова "автомобиль", а на другой - "машина" вполне может дать + ;)

Вы думаете, что сейчас в Яндексе реализовано сравнение документов по синонимам? А объем вычислений прикидывали? Мне кажется, что это маловероятно, тем более, что цель не особо значимая - лучше отранжировать ЯК. Не верю. :)

Да и задача как-то сложновата, даже в теоретическом плане, о чем уже упоминалось выше.

sokol_jack:
- пишу умный скрипт, который будет собирать эту самую текстовую составляющую со страниц, приводить к базовым формам слова, фильтровать что не надо, расширять синонимами и сравнивать две страницы на совпадаемость по словам (возможно, дальше и на уровне двух или трех слов подряд)...

И как вы собираетесь сравнивать? По типу есть/нет в документе? Да хреново это, "есть в документе" и "тематичность" - немного разные понятия... У донора и акцептора может быть достаточно большое пересечение по каким-то общим словам, даже тупо без синонимов, а документы будут очевидно не тематичны.

Я бы предложил забить на синонимы и определять тематичность по количеству вхождений слова в документ. Это не совсем то, что делает Яндекс, но достаточно близко к истине. Т.е. если в тексте у акцептора несколько раз встречается "автомобиль", то и доноров искать с таким же свойством, и анкор лепить аналогичный. Геморно, но прирост тИЦ должно дать явно больше среднего, имхо. ;)

Всего: 1960