den78ru, а чем вам не нравится такой текст, если он нормально читаем?
Закрытость приводит к тому, что статья про аннотирование на последнем ромипе вообще получилась косячная. Ну и алгоритмы, в ней приведенные, в явном виде не работают естественно. А жаль. :D
Да. Каспаров не был правой рукой, Фоменко всегда дистанцировался от движения новохронологов, но в какое-то время адепты НХ нашли несколько потенциальных толстых спонсоров (в т.ч. и меня :) ). Вот тогда Каспаров и примкнул к движению, он не прямо, но достаточно явно предлагал почти весь предполагаемый бюджет отдать ему, за бренд, в обмен на лидерство и лоббирование идей. Учитывая, что многие идеи Новой Хронологии отводят России заметно большее значение в мировой истории, чем классические трактовки, Каспаров в те годы был практически ура-патриотом России, о чем и сообщал при каждом удобном случае. Но как только деньги обломились, Гарик тут же закончил с НХ и стал искать другие источники дохода. Нашел. :D
Godrasta, на фулл мун пати, через проливчик, наливают грибные коктейли. Говорят, что сознание открывается конкретно.:D
Ни разу не верю, что ПС сейчас так определяет тематичность.🚬
G00DMAN добавил 31.01.2009 в 18:21
А от чего необычные люди будут брать логарифм? ;)
Добавьте и меня, что ли... :)
sokol_jack, вы так и не ответили на мой вопрос - как вы собираетесь сравнивать документы? ;)
Postum, а слабо в фильтры добавить параметр (суммарное кол-во ссылок с проиндексированных страниц)/(кол-во проиндексированных страниц)? У вас ведь эти данные есть в готовом виде. ;)
Если не слабо, то параметра маловато будет, к нему бы еще еще регулярно обновляемую табличку: по осям значение параметра и, скажем, тИЦ, в ячейках - количество. Дискретность осей с ходу не понятна, нужно результаты смотреть... :)
Ну и если вы полностью обрабатываете все страницы барыжащих сайтов, а не только те, которые в индексе Яндекса, то такую же фичу для всех страниц тоже хоца. :)
Лучше при нормальной базе IDF. Базы времен бОльшей открытости Яндекса что-то у меня не особо катят. :(
Вы думаете, что сейчас в Яндексе реализовано сравнение документов по синонимам? А объем вычислений прикидывали? Мне кажется, что это маловероятно, тем более, что цель не особо значимая - лучше отранжировать ЯК. Не верю. :)
Да и задача как-то сложновата, даже в теоретическом плане, о чем уже упоминалось выше.
И как вы собираетесь сравнивать? По типу есть/нет в документе? Да хреново это, "есть в документе" и "тематичность" - немного разные понятия... У донора и акцептора может быть достаточно большое пересечение по каким-то общим словам, даже тупо без синонимов, а документы будут очевидно не тематичны.
Я бы предложил забить на синонимы и определять тематичность по количеству вхождений слова в документ. Это не совсем то, что делает Яндекс, но достаточно близко к истине. Т.е. если в тексте у акцептора несколько раз встречается "автомобиль", то и доноров искать с таким же свойством, и анкор лепить аналогичный. Геморно, но прирост тИЦ должно дать явно больше среднего, имхо. ;)