[모두를위한딥러닝] 소프트맥스 회귀
하나의 벡터를 주어지고 X와 연산을 하게된다면 각각의 계산된 값은 독립된 바이너리 예측 값을 획득할 수 있으며 이것을 Multinomial Logistic Regression의 개념이다.
그렇다면 시그모이드란 함수는 뭣인가?
시그모이드는 위 Multinomial Logistic Regression 를 적용했을 때 나오는 각각의 결과 값에 대해서 0~1 사이의 값을
내놓도록 하는 역할을 한다.
위와 같이 2.0을 ->0.7로 1.0을 0.2로 바꿔주는 역할이 바로 소프트 맥스이다.
그렇다면 위와 같이 logitrs에서 A가 나올 확률이 0.7 B가 나올 확률이 0.2 C가 나올 확률이 0.1이라고 가정할 때
이것을 Binary(0,1)로 선택해서 보여달라는 것을 one hot encoding 즉, 그 값이 참이냐 아니냐로
선택할 수 있다.
그리고 이것을 텐서플로우로 구현하는 방법은 아래와 같다.
tf.matmul(X,W)+b
hypothesis=tf.nn.softmax(tf.matmul(X,W)+B)
그리고 예측한 값과 실제 값이 얼마나 차이가 나는지에 대한 Cost Function을 정의하여야 한다.
실제값과 소프트맥스 값(예측 값)의 차이를 Cross-Entropy 함수를 통해서 구한다.
그리고 최종적으로 경사 하강법을 통해 최적의 값을 구하면 된다.
텐서플로우로 구현하는 방법은 다음과 같다.
cost=tf.reduce_mean(-tf.reduce_sum(Y*tf.log(hypothesis),axis=1))
optimizer=tf.train.GradientDescentOptimizer(learning_rate=0.1).minimize(cost)
전체 코드는 다음과 같다.
# Lab 6 Softmax Classifier
import tensorflow as tf
tf.set_random_seed(777) # for reproducibility
x_data = [[1, 2, 1, 1],
[2, 1, 3, 2],
[3, 1, 3, 4],
[4, 1, 5, 5],
[1, 7, 5, 5],
[1, 2, 5, 6],
[1, 6, 6, 6],
[1, 7, 7, 7]]
y_data = [[0, 0, 1],
[0, 0, 1],
[0, 0, 1],
[0, 1, 0],
[0, 1, 0],
[0, 1, 0],
[1, 0, 0],
[1, 0, 0]]
X = tf.placeholder("float", [None, 4])
Y = tf.placeholder("float", [None, 3])
nb_classes = 3
W = tf.Variable(tf.random_normal([4, nb_classes]), name='weight')
b = tf.Variable(tf.random_normal([nb_classes]), name='bias')
# tf.nn.softmax computes softmax activations
# softmax = exp(logits) / reduce_sum(exp(logits), dim)
hypothesis = tf.nn.softmax(tf.matmul(X, W) + b)
# Cross entropy cost/loss
cost = tf.reduce_mean(-tf.reduce_sum(Y * tf.log(hypothesis), axis=1))
optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.1).minimize(cost)
# Launch graph
with tf.Session() as sess:
sess.run(tf.global_variables_initializer())
for step in range(2001):
_, cost_val = sess.run([optimizer, cost], feed_dict={X: x_data, Y: y_data})
if step % 200 == 0:
print(step, cost_val)
print('--------------')
# Testing & One-hot encoding
a = sess.run(hypothesis, feed_dict={X: [[1, 11, 7, 9]]})
print(a, sess.run(tf.argmax(a, 1)))
print('--------------')
b = sess.run(hypothesis, feed_dict={X: [[1, 3, 4, 3]]})
print(b, sess.run(tf.argmax(b, 1)))
print('--------------')
c = sess.run(hypothesis, feed_dict={X: [[1, 1, 0, 1]]})
print(c, sess.run(tf.argmax(c, 1)))
print('--------------')
all = sess.run(hypothesis, feed_dict={X: [[1, 11, 7, 9], [1, 3, 4, 3], [1, 1, 0, 1]]})
print(all, sess.run(tf.argmax(all, 1)))
'''
0 6.926112
200 0.6005015
400 0.47295815
600 0.37342924
800 0.28018373
1000 0.23280522
1200 0.21065344
1400 0.19229904
1600 0.17682323
1800 0.16359556
2000 0.15216158
-------------
[[1.3890490e-03 9.9860185e-01 9.0613084e-06]] [1]
-------------
[[0.9311919 0.06290216 0.00590591]] [0]
-------------
[[1.2732815e-08 3.3411323e-04 9.9966586e-01]] [2]
-------------
[[1.3890490e-03 9.9860185e-01 9.0613084e-06]
[9.3119192e-01 6.2902197e-02 5.9059085e-03]
[1.2732815e-08 3.3411323e-04 9.9966586e-01]] [1 0 2]
'''
테스트를 하고자할 때 앞서 학습한 가설에 X값을 삽입하여 값을 출력한다.
그러면 X는 소프트맥스에 의해 3개의 클래스 레이블에 대한 각각의 예측 값을 내놓는데
이 중 가장 큰 값을 선택해주는 함수가 바로 arg_max 함수이다.
그럼 one-hot에 대해서 자세히 알아보자
one-hot encoding은 여러개의 결괏값이 예상될 경우 이를 0~1 사이로 예측값을 제시하는 것이다.
왼쪽에서부터 16개의 열은 각 특정 요소에 대한 여부를 0과 1로 나눈 것이며 맨 오른쪽 열은 해당 요소를
통해 반영된 Y 결괏 값이다. 0~6으로 총 7개이며 이를 one hot encoding으로 0~1 사이의 값으로 출력 시킬 수 있는데
one-hot encoding 특성상 차원이 하나가 늘어난다. 때문에, reshape를 통해서 차원을 조절 해주는 역할이 필요하다.