Андрей Иванов

www.advse.ru

Рейтинг

166

Регистрация

23.11.2000

Интересы

search engines

Анализатор документов

2 марта 2001, 05:47

Артем, я же не программер, даже не знаю, что такое BDE. Если не сложно, напишите, какой файл надо найти, и какие данные из него получить. :0)

Анализатор документов

1 марта 2001, 01:22

Увы, AiK, так и есть. Попытка запустить выдает, что не найдет какой-то путь... :0(

Может, удастся сделать бесконфликтный вариант. Мне Штучку удалять нельзя, часто пользуюсь.

Предложение Игорю Ашманову

26 февраля 2001, 21:57

Вот еще ссылка на пять адресов - http://users.kaluga.ru/akwproject/articles/voy.htm

Добавь в свой Яндекс немного денег!

26 февраля 2001, 01:31

Услуга Яндекса вполне нормальная, есть лишь одна "шероховатость". Цитирую: "Внесение сайта в каталог бесплатно. Но, поскольку описание ресурсов делается с учетом их значимости и известности, регистрация может занять много времени. А новые и не очень известные сайты даже крупных компаний могут стоять в очереди на регистрацию довольно долго."

С учетом "значимости и известности" все понятно, в правилах каталога (http://www.yandex.ru/info/cat2.html) четко говорится, что ресурс (каталог Яндекса) авторский, поэтому как модератор решит, так и будет. Но вот что такое "довольно долгая очередь на регистрацию"... весьма забавно. Пункт 4. "Правил": "Опубликование малоизвестных и малоинформативных ресурсов (например, содержание которых может быть интересно только узкому кругу знакомых и друзей автора) может затянуться на неопределенный срок." Неопределенный срок - это действительно "довольно долго". :0)

Неопределенного срока решения вопроса даже бюрократы себе позволить не могут. Здесь же выбирать, по идее, приходится между ста баксами и бесконечностью. Предлагаю ввести новую услугу Яндекса - сверхсрочную регистрацию в течение 3 часов за $500. В честь наступающего 8 Марта скидки всем сайтам знакомств. :0

Что есть спам? Краткий ответ.

21 февраля 2001, 08:41

Спасибо за ответы! Особенно, за "теософизм". С Александром я не совсем согласен в... некоторой однозначности толкований. Как-то раз видел очень интересный милицейский документ, написанный по всем канонам жанра, с "довожу до вашего сведения,.. гражданин такой-то..." и т.п. Используемая лексика была вполне стандартна - не ошибешься. Запомнилась фраза: "причиной травмы являлся удар палком по яйцам". :0) Случай далеко не единичный. На мой взгляд, невозможно четко определить области применения любого слова, даже самого специального. Тем более, алгоритмически, львиная доля смысла при таком подходе исчезает, следовательно, и документов тоже, если подобные алгоритмы применять.

Почти половина поисковых запросов состоят из одного слова. Запрос из одного слова - нечеткий запрос, это всего-навсего обозначение темы. В реале максимально полным и точным ответом на такой вопрос является определение + разложение темы на составляющие. Например, запрос - "Биология", ответ - "Биология - это наука о живой природе. ... ... ... Выделяются отдельные предметы, как-то Зоология, Ботаника... и т.п." По однословному запросу "Зоология" картина та же, только деление будет начинаться уже от этого раздела - зоология позвоночных и беспозвоночных. Как видим, такой тип ответа отображает картину области знания по определяющему термину. Поисковые системы не могут четко выделить смысловую область запроса и обозначить все возможные варианты развития поиска наверху, один за другим. Смысловых вариантов единицы и десятки, найденных документов - десятки тысяч.

Разработчики поисковых систем искали способы, чтобы верхними документами являлись наиболее соответствующие запросам пользователей, так появился термин "релевантность" и современные алгоритмы ранжирования. Сами вебмастера, "не ожидая милостей от природы", стали искать свои способы продвижения наверх собственных документов, появился спам. По сути - единство, по форме в крайних случаях - "в темноте, сзади и наоборот".

Обладая даже приблизительной информацией об алгоритмах ранжирования, о формулировках и частотах запросов и кой-каким опытом в этом деле, теоретически мы можем научиться заранее определять позицию нового документа в ряду уже существующих по какой-то теме. А тогда попробуйте заставить себя "отрешиться" от этих навыков при составлении документов, которые хотим использовать на своих сайтах. Или при той же заказнухе. В итоге странная картина: учимся профессионально "заманивать пользователей", совершая при этом "преднамеренные поступки", прекрасно зная, что поисковые системы от этого не в восторге и никакой грани даже не существует между оптимизированием и спамом.

Во, блин, философия рекламы в поисковиках. Может, кто что-нибудь про "моральный выбор" скажет?.. :0)

Предложение Игорю Ашманову

19 февраля 2001, 17:48

<font face="Verdana" size="2">Я считаю, что для "здорового взаимодействия" вебмастеров и поисковиков, для наращивания интересного и имеющего спрос контента, вебмастерам не требуется знать конкретных запросов и частоты, но им очень бы помогла аналитическая информация о том, что ищут по конкретным темам. </font>

Это вопрос вкуса, Грин, кому-то нравится мясо, кому-то котлеты. Недавно в рассылке об Интернет-рекламе прочитал, что интерес к порнографии находится чуть ли не на десятом месте после интереса к товарам, услугам и еще куче чего-то, а средний возраст группы, интересующейся "клубникой" - 36 лет. Сравните при помощи той же "Штучки" частоты запросов по этой тематике и любой другой - картина сразу же покажется несколько отличной от заявленной в "аналитическом материале".

Кроме того, количество конкретных тем - величина неисчислимая. Мне приходили письма с просьбами посмотреть запросы о канатах и проволоке, однажды прислали список из 200 лекарств для "проверки спроса на них", кучу полиграфических терминов, белье, литературе и т.д. и т.п. Фактически каждый запрос, который можно понять хотя бы двояко - это тема.

Роман четко высказал мысль, к которой я пришел довольно долгими наблюдениями: для более-менее реального представления об узкоспециализированном спросе необходима база в десятки миллионов запросов. При публичном объявлении о возможностях такого исследования количество тем, которые сразу же окажутся востребованными, пойдет на тысячи. Интересоваться ими будут вебмастера, у которых не так уж много трудовых долларов. Открытая бесплатная база решает их проблемы в информации автоматически. При ней же может спокойно кормиться пара-тройка аналитических агентств, которые будут работать под заказ для тех, кому самим возиться лень, зато денег хватает.

Анализатор документов

19 февраля 2001, 17:01

С идеей запуска двух окон программы все верно - это у меня в башке что-то заклинило, с умным видом сказал большую глупость. :0) Ждем!

Анализатор документов

19 февраля 2001, 03:58

<font face="Verdana" size="2">Originally posted by Gray:
Артем, признаться, не понял, почему в общем-то полезную программу нельзя обсуждать здесь.
...Буду страшно признателен, если кто-нибудь поможет найти программу (не сервис), которая:
1) создаёт список слов, встречающихся в документе с указанием их частоты;
2) понимает кириллицу (пофиг, что не различает словоформы);
3) понимает в качестве входящего параметра не только место размещения документа на диске, но и его веб-адрес...
</font>

Сергей, Артем, тут проблема, на мой взгляд, опять "моральная". Прежде всего, для чего программа предназначена? Если посмотреть на пп. 1,3 вполне можно предположить, что собирались анализировать частоты не только своих, но и чужих текстов. Свои обычно, это doc, txt, а веб-адрес - htm, не так много народу творит сразу в хтмл'e. Тогда и будем исходить из того, что программа нужна для расчета параметров, которые могут иметь значение при расчетном позиционировании. Самый простой способ, обеспечивающий наглядность - сравнение.

В этом случае прога должна иметь не одно, а два окна и два входных адреса - в одном выводятся данные по тексту, который пользователь собирается, например, подать на индексацию. В другом данные какого-то "эталона". Очевидно, что в качестве эталонов будут использоваться страницы, стоящие на верхних позициях в листах ответов по интересующей пользователя тематике.

Второй момент, который нуждается в прояснении, - это вопрос о ключевых словах. То, что находится в тэге keywords - не ключевые слова в понимании к нашим поисковикам, это уже давным-давно устарело. Ключевыми словами, мы все же привыкли пользоваться этим термином, являются слова запроса, причем важен не только их состав, но и порядок (тот же пример про "работа вакансии" и наоборот). Лист ответа сам по себе никогда не появляется, он выдается по какому-то конкретному запросу. Список наиболее частотных запросов по любой тематике при помощи той же "Штучки" можно сделать элементарно. Поэтому расчет и сравнение параметров надо делать не по наличию тэга keywords, а по произвольно введенным пользователем словам. Это уж его дело, что он туда введет, у каждого свой сайт.

Далее простейшая процедура - ввод в анализируемую поисковую систему известной формулировки запроса, получение листа ответов переход на сайт, занимающий привлекательную позицию и анализ его текста именно по словам запроса. Т.е. наличие слов запроса в тексте, титуле, тэгах выделения, если очень хочется, то в keywords&description, заголовках, альтах, отношение к общему объему текста (вес), близость к началу текста. То же самое для каждого слова запроса за минусом стоп-слов.

Проделав такую процедуру с верхними 10 страницами и по разным запросам, волей-неволей начнешь "интуитивно" представлять, какие параметры имеют влияние и примерные границы допусков. А потом можно просто сравнивать данные собственных страниц со страницами примерно равного объема "эталонного" сайта.

А зачем, мол, анализировать, если можно просто стащить? Простое воровоство контента не проходит, потому что, если я правильно помню инструкции Яндекса, дубликаты не индексируются. Да и правильным пацанам влом этим заниматься. :0) Так что "напрягаться" мыслью авторам, которые хотят сделать оптимизированный текст, придется. С одной стороны - выдержать параметры, с другой - любая система сегодня имеет модераторов, которые, если увидят высокорелевантный бред, просто могут исключить из индексов. Но как Грин и сказал, "нужное слово в титуле, немножечко в альте, чуть-чуть выделим, и кой-чего передвинем ближе к началу", глядишь, и результат хороший получился. :0)

То есть, нужна машинка, которая будет сравнивать параметры двух произвольно выбранных страниц по любому выбранному пользователем поисковому запросу. Как у нас будет воспринята идея создания такого сервиса? Его, кстати, и в онлайне можно довольно быстро организовать.

Вопрос открытый. Артем, Сергей, будете делать такой софт? :0)

С уважением,

Андрей Иванов.

Предложение Игорю Ашманову

19 февраля 2001, 01:10

Интересное письмо, Грин! Поисковые системы как юридические лица созданы для зарабатывания денег. Чем они сегодня и пытаются заниматься, используя свою посещаемость для организации и раскрутки портальных проектов с целью увеличения количества рекламных площадей. Совершенствование поиска уже как-то побоку, если даже форум по проблематике поиска создан и работает отдельно от них, спасибо Грею.

Абсолютно верно, что любые действия с сайтом, которые не рассчитаны на восприятие посетителем, а поисковым роботом - это спамдексинг по духу. Только термин этому дали сами поисковые системы, на самом деле это естественное желание любого вебмастера быть первым. Используются те методы, которые позволяет ситуация. Если бы поисковый трафик каким-то образом зависел от дизайна страниц - весь Рунет очень быстро превратился бы во что-то вроде выставки лучших образцов веб-дизайна.

А пока... вот цитата из письма одного из моих знакомых: "...Кстати мне удалось взломать Вордтрэкер (западный аналог с базой в 45 миллионов запросов) и теперь я пложу дорвеи тысячами и десятками тысяч. Пара заказных прог плюс Позишенвивер плюс Вордтрекер - это артиллерия очень крупного калибра...". Судя по виртуозному обращению с программами, он мастер. А Positionweawer делал Дэвид Гиканди, который и писал статью о спамдексинге, где говорится о том, что такое спам поисковых систем и почему это бяка. Как видим, борец против спама пишет проги для махрового спама, а занимаются этим делом вполне квалифицированные профессионалы, а не моральные и умственные ублюдки. Все как в жизни, на любую проблему можно и нужно смотреть с разных сторон.

Если смотреть на общее предназначение поисковых систем, то необходимы некоторые уточнения. Раньше поисковой системой назывался сервис, который составлял индексы сайтов Сети при помощи робота и предлагал посетителям поиск по индексам. Отдельно существовали тематические каталоги. Сегодня практически все индексаторы с каталогами слились и предлагают... как бы выразиться "навигационный сервис". Т.е. поисковик - это уже не только индексатор, а сам поиск можно рассматривать не только как поиск в индексах, а как поиск информации человеком при помощи доступнымх ему навигационных инструментов, сайтов.

В этом разрезе четко выделяются идеи цитатного поиска, это как раз то, на чем основаны индексаторы, и тематического - пути по каталогам. Но совершенно неразвита еще идея поиска смыслового, когда ответ не содержит слов запроса, а сам запрос может быть понят в разных смыслах. Решать эту проблему можно по-разному. Можно пытаться алгоритмически, но для окончательного решения придется создать фактически "мыслящую машину", японцы над этим уже лет двадцать думают, программа финансируется государством и очень неслабо, но пока ничего не придумали толком. Можно так, как это пытаются сейчас делать поисковики, при помощи ручного администрирования, но они катастрофически не успевают, ежедневно в Сеть несколько миллионов документов добавляется. И можно попытаться решить организацией социальной модели, когда поисковик (в большом смысле поисковик) устанавливает правила игры, практически все работает автоматически, а социум, в котором каждый действует исключительно в своих интересах, самостоятельно выстраивает и самоорганизует систему иерархии знаний и действующих лиц. Это как раз идея Нейрона, которую я толкаю уже второй год.

Люди, вводя запрос, yahoo.com, скорее всего, хотят получить сводную информацию о Яхе. В Рунете та же картина, я долго удивлялся, видя в "Прямом Эфире" Яндекса постоянно повторяющийся запрос www.yandex.ru. То же с mail.ru и всеми заметными сайтами. Это как раз простейший пример необходимости смыслового решения поиска.

Анализатор документов

18 февраля 2001, 23:02

Совершенно замечательная идея - автоматического анализа документов. PAN скачал, посмотрел. AiK, можно я напишу, что бы хотелось видеть в такой программе, типа "техзадания"? :0)

С уважением,

Андрей Иванов.

1 ... 66 67 68 69 70 71 72 73 74

Всего: 737

Зачем быть уникальным в мире, где все можно скопировать

Open AI тестирует память для ChatGPT

Андрей Иванов