본문 바로가기

딥러닝

단층에서부터 Deep한 다층 퍼셉트론까지(Universal Approximation Theorem) 다양한 실험에 따르면 노드 수가 많은 단층 구조 신경망보다, 비선형 함수를 활용한 노드 수가 적은 다층 구조 신경망이 훨씬 우수한 경우가 많다고 한다. 그렇다면 왜 비선형 활성화 함수(e.g., ReLu)를 활용해야 하는가? 이 이야기를 하기 전에, 우리가 어떻게 매우 복잡한 문제를 딥러닝으로 해결할 수 있는지에 대한 단서인 Universal Approxiamtion Theorem을 알아보자. Universal Approxiamtion Theorem Every continuous function that maps intervals of real numbers to some output interval of real numbers can be approximated arbitrarily closely by.. 더보기
MLE(Maximum Likelihood Estimation), 음의 로그우도(Negative log-likelihood) 머신러닝은 주어진 데이터를 가장 잘 설명하는 '함수'를 찾는 알고리즘을 디자인한 것이다. 그렇다면, 주어진 데이터가 아닌 관측하지 못한 데이터에 대해서 해당 '함수'가 얼마나 정확한 예측을 해낼 수 있을까? 다음과 같은 문제를 일반화 문제라고 하는데, 머신러닝의 목표는 주어진 데이터를 잘 학습하는 optimization이 아니라, 우리가 관측하지 못한 데이터(unseen data)에 대해서 일반화(generalization)하는 것이다. 이러한 일반화를 위해 우리는 실제 확률 분포로부터 샘플링하여 수집된 데이터만을 가지고 " 현상을 가장 잘 설명하는 확률 분포 모델"을 추정함으로써, 우리가 알고 싶은 실제 확률 분포를 근사하게 된다. 이때 주어진 데이터를 잘 추정하기 위해 가능도를 최대화하도록 파라미터를.. 더보기