Ентропія інформації як міра невизначеності повідомлення | |
Тут ви дізнаєтесь, як кількісно оцінити невизначеність даних за допомогою формальної моделі, що лежить в основі сучасної інформатики. Означення ентропії в теорії інформаціїУ теорії Клода Шеннона ентропія — це середня кількість інформації, яку несе випадкове повідомлення. Вона залежить від того, наскільки передбачуваними є символи. «Інформація — це усунення невизначеності» — Клод Шеннон Формальне визначення для дискретного джерела виглядає так: \[ H(X) = -\sum_{i=1}^{n} p(x_i)\,\log_2 p(x_i), \] де \(p(x_i)\) — ймовірність появи символу \(x_i\). Сенс ентропії простими словамиЕнтропія показує, скільки «несподіваності» міститься у даних. Якщо результат завжди однаковий, «нової» інформації немає — ентропія дорівнює нулю. Якщо ж усі варіанти рівноймовірні, кожен символ додає максимум нової інформації. Як обчислюється ентропіяКрок 1. Визначення множини символівСпочатку встановлюють, які символи може генерувати джерело даних. Наприклад, у тексті — це літери, у каналі зв’язку — стани сигналу. Крок 2. Обчислення ймовірностейДля кожного символу рахується частота появи. Ймовірність — це частота, поділена на загальну кількість символів. Крок 3. Підстановка у формулу Шеннона\[ H = -\sum p_i \log_2(p_i). \] Якщо всі символи рівноймовірні (наприклад, кидок правильного кубика), ентропія спрощується: \[ H = \log_2 n, \] де \(n\) — кількість рівноймовірних станів. Для чого використовується ентропія
Приклади ентропії різних типів інформаціїТекст природною мовоюУ реальних мовах символи з’являються з різними ймовірностями: літера «о» зустрічається частіше, ніж «ф». Тому ентропія таких текстів нижча за максимальну. Типовий діапазон для української чи англійської — приблизно 1–1.5 біта на символ (після врахування залежностей між буквами). Випадкове 8-бітове значенняЯкщо кожен з 256 можливих байтів рівноймовірний, ентропія: \[ H = \log_2 256 = 8 \text{ біт}. \] ПароліПароль довжиною \(L\) із алфавітом у \(N\) символів має потенційну ентропію: \[ H = L\log_2 N. \] Різниця між потенційною та реальною ентропією виникає тоді, коли користувачі вибирають передбачувані шаблони.
Де ентропія застосовується сьогодніУ системах стиснення, таких як ZIP або PNG, ентропія визначає теоретичну межу мінімального розміру даних. У криптографії вона показує рівень захищеності ключів та паролів. У машинному навчанні ентропія використовується навіть у функціях втрат, наприклад крос-ентропії, яка вимірює «відстань» між прогнозом моделі та реальними значеннями. Тема залишається актуальною, бо нові алгоритми шифрування, моделі текстів та методи прогнозування постійно збагачуються підходами, що базуються на оцінюванні невизначеності даних. | |
|
|
|
| Усього коментарів: 0 | |