Как закодировать фразу одним числом?

R

37

Rusl

12 апреля 2005, 17:39

5600

Посоветуйте, как можно закодировать фразу состоящую например из 5 слов одним числом?

Если в качестве такого числа брать сумму ANSI-кодов букв составляющих фразу, то оно получится совсем не уникальным. :(

[Удален]

12 апреля 2005, 17:42

#1

Rusl, на буквы и знаки можно разбить.

30

lagif

12 апреля 2005, 18:03

#2

Rusl,

Для этого есть хэширование... Но не факт, что разные фразы не могут быть захэшированы одинаково...

Это тоже пройдет...

R

37

Rusl

12 апреля 2005, 18:09

#3

Как писал Scaramush
Rusl, на буквы и знаки можно разбить.

Не пойдет. Нужно получить для фразы уникальное (под уникальным понимаю число, позволяющее однозначно (или с небольшой (не более 5%) погрешностью) идентифицировать фразу.

Можно например всем словам языка (в аглицком их предположим 300 000) присвоить свой ID и потом составить число из ID слов: 245678 016747 145578 005311 245568, но уж больно оно большое...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

12 апреля 2005, 19:10

#4

Rusl, смотря сколько различных фраз предполагается обрабатывать. Берете функцию md5 (она дает 128 бит число), и обрубаете сколько-то бит, чтобы поменьше стало. Это же недавно совсем обсуждали (хеширование слов).

AA

70

AlexA

13 апреля 2005, 09:31

#5

Можно также взять CRC32. Число коллизий будет чуть меньше, чем у обрезанного до 4-х байт MD5.

При хэшировании вероятность коллизий в любом случае ненулевая. Для CRC32 ~ 0,002 (Влад Шабанов).

А можно завести словарь (отсортированный список), тогда номер будет определяться абсолютно однозначно.

С уважением, Антонов Александр.

Sape ввела возможность влиять В Twitter теперь можно В РСЯ появились новые

R

37

Rusl

18 апреля 2005, 16:18

#6

А где можно было бы почитать о CRC32? Особенно интересны вероятностные выкладки.

R

37

Rusl

21 апреля 2005, 11:12

#7

Может кто-нибудь даст ссылочку на разбор метода CRC32?

M

100

Muxa

21 апреля 2005, 12:34

#8

Как писал Rusl
Посоветуйте, как можно закодировать фразу состоящую например из 5 слов одним числом?

Если в качестве такого числа брать сумму ANSI-кодов букв составляющих фразу, то оно получится совсем не уникальным. :(

а нафига оно надо?

ну а если надо, просто конкатенируй номер каждого символа в HEX или DEC или даже BIN

вот тебе и уникальное число......

motopila.ru (http://motopila.ru/) - цепные пилы, все цепные пилы и ничего кроме цепные пилы. Аминь!

R

37

Rusl

21 апреля 2005, 12:56

#9

Оказалось легче сделать через CRC32. Но вот толкового описания не могу найти. :(

Г

31

Грибо

21 апреля 2005, 12:59

#10

Согласен с последним, зачем присваивать кажому слову уникальный ID, если можно присвоить уникальный ID каждому символу... В латинском алфавите 26 символов (без учета регистра) Помоему так гораздо проще, чем создавать базу из 300 000 слов :))

Яндекс.Директ увеличил лимит на Яндекс.Маркет запускает новый блок Букварикс представил новые бесплатные

Что делать, если ваша email-рассылка попала в спам

VK приобрела 70% в структуре компании-разработчика red_mad_robot