| <— 1. Машинне навчання | Зміст | 1.2 Регресія на основі базисних функцій —> |
1.1 Навчання на основі даних
Найпростіший випадок використання моделі, натренованої на основі даних, — це коли доступний сигнал $x$, наприклад, зображення номерного знака, за яким потрібно передбачити величину $y$, таку як рядок символів, написаних на цьому знаці.
У багатьох реальних ситуаціях, коли $x$ є сигналом великої розмірності, зафіксованим у неконтрольованому середовищі, надто складно придумати аналітичний рецепт, який пов’язує $x$ і $y$.
Що можна зробити, так це зібрати великий тренувальний набір даних (training set) $\mathscr{D}$ з пар значень ($x_n$,$y_n$) і розробити параметричну модель $f$ та відповідний їй фрагмент комп’ютерного коду, які модулюють його поведінку, що у свою чергу містять налаштовуванні параметри (trainable parameters) $w$. Далі шукати значення параметрів $w^{\ast}$ такими, щоб ця модель (код) давала хороший прогноз. «Хороший» в даному контексті означає наступне: якщо на цей фрагменту коду дати вхідні дані $x$, то обчислене значення $\hat{y}=f(x;w^{\ast})$ даватиме хорошу оцінку значення $y$, яке пов’язане із $x$ у тренувальному наборі, якщо він там був.
Це поняття “хорошого” зазвичай формалізується за допомогою втрати (loss) $\mathscr{L}(w)$. Чим менше втрати, тим краще параметрична модель $f(\cdot;w)$ для набору $\mathscr{D}$. Тому тренування (training) моделі полягає в обчисленні такого значення параметрів $w^∗$, яке мінімізує функцію втрат $\mathscr{L}(w\ast)$.
Більшість змісту цієї книги присвячено означенню моделі $f$, яка у реалістичних сценаріях є складною комбінацією попередньо означених під-модулів.
Параметри $w$, що підбирають в процесі тренування, часто називають вагами (weights) за аналогією із синаптичними вагами біологічних нейронних мереж. Окрім цих параметрів, моделі зазвичай залежать від метапараметрів (meta-parameters), які встановлюються відповідно до попередніх знань предметної області, найкращих практик або обмежень ресурсів. Вони також можуть бути певним чином оптимізовані, але за допомогою техніки, відмінної від тих, що використовуються для оптимізації параметрів $w$.