Как делать сниппет?

79

alexf2000

22 декабря 2005, 16:48

2843

Написал я тут свой "гугл" :) и возникла проблема - самая долгая операция, это создание сниппета, тех 2-3 строчек которые показываются в описании ссылки. Вопрос - как их правильно делать, может есть готовые алгоритмы или толково описанный принцип их создания?

Самый интересный SEO-блог (http://alexf.name)

445

Таггу x_x

22 декабря 2005, 16:50

#1

alexf2000:
Написал я тут свой "гугл"

О! А есть где глянуть?

☠️☠️☠️

79

alexf2000

22 декабря 2005, 17:03

#2

Пока не стоит, не отлаженная штука, сервер мне уроните. :) Лучше про сниппеты давайте. Как их правильно делать?

JD

34

JohnDrake

22 декабря 2005, 17:04

#3

гугл берет description для этого дела

Вопросик как реализовывал TF*IDF?

79

alexf2000

22 декабря 2005, 19:27

#4

Гугл берёт дескрипшин далеко не всегда. Даже довольно редко.

tf-idf у меня не используется, хотя реализовать без проблем можно. Вопрос остаётся открытым. :)

30

lagif

23 декабря 2005, 09:55

#5

alexf2000, Сохраняйте контент :) в каком-нибудь сжатом виде, плюс координаты слов к нему...

Это тоже пройдет...

VT

130

Vyacheslav Tikhonov

23 декабря 2005, 10:16

#6

Вопрос - как их правильно делать, может есть готовые алгоритмы или толково описанный принцип их создания?

Нужно разделить весь текст документа на блоки и хранить в индексе для каждого слова координаты всех блоков, где оно встречается. Для более точного поиска кроме номеров документа и блока можно хранить и позицию слова в блоке, как это делается во всех современных полнотекстовых поисковиках - это поможет и при организации поиска со строгим соответствием, и при поиске со смещением, когда нужно найти термы, отстоящие на несколько слов друг от друга.

AA

70

AlexA

23 декабря 2005, 12:15

#7

alexf2000:
Вопрос - как их правильно делать, может есть готовые алгоритмы или толково описанный принцип их создания

Здесь две задачи:

1. Выбрать отрывок/ки текста, которые выдавать в качестве сниппета.

2. Выдача этого отрывка.

Первая задача зависит от критерия определения этого куска. Пусть, к примеру, это будет наибольшая плотность/близость слов запроса. Тогда получить критериальные оценки и, следовательно, координаты нужного отрывка можно через координатный индекс. Т.е. текст для этого не нужен.

2. Здесь без текста не обойтись. Нужен конкретный отрывок с известными из (1) координатами. Можно, конечно, разобрать страницу на лету тем же разборщиком, что грузили, но это слишком накладно. Предлагаю хранить текст с проставленными при загрузке координатами (вектор координата-смещение) - это достаточно простое решение.

Или можно преобразовать текст в структуру с быстрым разбором, например, разметить текст. Тогда найти текст с нужными координатами будет несложно.

С уважением, Антонов Александр.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

R

37

Rusl

23 декабря 2005, 12:24

#8

alexf2000:

tf-idf у меня не используется, хотя реализовать без проблем можно. Вопрос остаётся открытым. :)

Как это?! А как же вычисляете вес?

79

alexf2000

27 декабря 2005, 13:47

#9

Во, пошла конкретика. :) Как правильно разделять текст на блоки? На данный момент я делаю так - теги br, /p. /div считаются концами блоков, пробовал точку тоже считать концом блока, но тогда www. адреса режутся. Какие ещё способы есть? Как выбрать те 1-2 блока, которые будут показаны?

K

80

Keva

27 декабря 2005, 15:02

#10

Во-первых, никаких "сниппетов" не существует :) Оригинальное название этого дела - "цитаты", или "цитаты релевантных фрагментов" :)

Впервые такое дело в промышленном масштабе было реализовано еще в советские годы, в ИнфорЭлектро, группой ныне здравствующего Владимира Пархоменко в рамках системы "Скобки" - так назывался небольшой поисковичок.

Первая "большая" поисковая система, которая это делала - это Апорт, запущенный в 1996 году вашим покорным слугой. И там это тоже называлось "цитатами", а никакими не "сниппетами". Фу, вульгарный жаргон!

alexf2000:
Вопрос - как их правильно делать, может есть готовые алгоритмы или толково описанный принцип их создания?

Теперь по реализации.

Я обычно реализую это через т. н. "плоский индекс" - через образы документов, где каждое слово представлено 4-байтным идентификатором. При вычислении запроса с учетом координат слов запоминаю несколько самых релевантных фрагментов, строю битмапу для цитирования и, адресуя этот образ индексами слов, строю цитату. Вхождения, соответственно, все подсвечиваю.

Кстати, использование такого плоского индекса на небольших объемах - не более пары миллионов урлов - может, как ни странно, при переорганизации алгоритма сократить объем обратного индекса.

С уважением, Андрей Коваленко aka Keva

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ