공부하는 입장에서 작성한 내용이라, 틀린 부분이 있을 수 있습니다. 발견 시 지적해주시면 감사하겠습니다. Batch Gradient Descent (BGD) 먼저 알고리즘 명의 Batch의 개념은 Total Trainning Dataset 을 의미한다. (데이터를 분할 시 사용했던 batch 의미의 용어는 여기서 mini-batch로 통용) 전체 데이터 셋에 대해 에러를 구한 뒤 ⇒ 기울기를 한번만 계산하여 모델의 파라미터를 업데이트 하는 방식이다. 특징 전체 데이터에 대해서 업데이트가 한번에 이루어지므로 업데이트 횟수 자체는 적다. 그러나 한번의 업데이트에 모든 Trainning Data Set을 사용하므로 계산 자체는 오래 걸린다. 전체 데이터에 대해 Error Gradient 계산하므로 Optima..