[모두를위한딥러닝] 소프트맥스 회귀

[프로그래밍]/모두를 위한 딥러닝

[모두를위한딥러닝] 소프트맥스 회귀

댕이댕이 2019. 8. 19. 23:27

하나의 벡터를 주어지고 X와 연산을 하게된다면 각각의 계산된 값은 독립된 바이너리 예측 값을 획득할 수 있으며 이것을 Multinomial Logistic Regression의 개념이다.

그렇다면 시그모이드란 함수는 뭣인가?

시그모이드는 위 Multinomial Logistic Regression 를 적용했을 때 나오는 각각의 결과 값에 대해서 0~1 사이의 값을

내놓도록 하는 역할을 한다.

위와 같이 2.0을 ->0.7로 1.0을 0.2로 바꿔주는 역할이 바로 소프트 맥스이다.

그렇다면 위와 같이 logitrs에서 A가 나올 확률이 0.7 B가 나올 확률이 0.2 C가 나올 확률이 0.1이라고 가정할 때

이것을 Binary(0,1)로 선택해서 보여달라는 것을 one hot encoding 즉, 그 값이 참이냐 아니냐로

선택할 수 있다.

그리고 이것을 텐서플로우로 구현하는 방법은 아래와 같다.

tf.matmul(X,W)+b
hypothesis=tf.nn.softmax(tf.matmul(X,W)+B)

그리고 예측한 값과 실제 값이 얼마나 차이가 나는지에 대한 Cost Function을 정의하여야 한다.

실제값과 소프트맥스 값(예측 값)의 차이를 Cross-Entropy 함수를 통해서 구한다.

그리고 최종적으로 경사 하강법을 통해 최적의 값을 구하면 된다.

텐서플로우로 구현하는 방법은 다음과 같다.

cost=tf.reduce_mean(-tf.reduce_sum(Y*tf.log(hypothesis),axis=1))
optimizer=tf.train.GradientDescentOptimizer(learning_rate=0.1).minimize(cost)

전체 코드는 다음과 같다.

# Lab 6 Softmax Classifier
import tensorflow as tf
tf.set_random_seed(777)  # for reproducibility

x_data = [[1, 2, 1, 1],
          [2, 1, 3, 2],
          [3, 1, 3, 4],
          [4, 1, 5, 5],
          [1, 7, 5, 5],
          [1, 2, 5, 6],
          [1, 6, 6, 6],
          [1, 7, 7, 7]]
y_data = [[0, 0, 1],
          [0, 0, 1],
          [0, 0, 1],
          [0, 1, 0],
          [0, 1, 0],
          [0, 1, 0],
          [1, 0, 0],
          [1, 0, 0]]

X = tf.placeholder("float", [None, 4])
Y = tf.placeholder("float", [None, 3])
nb_classes = 3

W = tf.Variable(tf.random_normal([4, nb_classes]), name='weight')
b = tf.Variable(tf.random_normal([nb_classes]), name='bias')

# tf.nn.softmax computes softmax activations
# softmax = exp(logits) / reduce_sum(exp(logits), dim)
hypothesis = tf.nn.softmax(tf.matmul(X, W) + b)

# Cross entropy cost/loss
cost = tf.reduce_mean(-tf.reduce_sum(Y * tf.log(hypothesis), axis=1))

optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.1).minimize(cost)

# Launch graph
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())

    for step in range(2001):
            _, cost_val = sess.run([optimizer, cost], feed_dict={X: x_data, Y: y_data})

            if step % 200 == 0:
                print(step, cost_val)

    print('--------------')
    # Testing & One-hot encoding
    a = sess.run(hypothesis, feed_dict={X: [[1, 11, 7, 9]]})
    print(a, sess.run(tf.argmax(a, 1)))

    print('--------------')
    b = sess.run(hypothesis, feed_dict={X: [[1, 3, 4, 3]]})
    print(b, sess.run(tf.argmax(b, 1)))

    print('--------------')
    c = sess.run(hypothesis, feed_dict={X: [[1, 1, 0, 1]]})
    print(c, sess.run(tf.argmax(c, 1)))

    print('--------------')
    all = sess.run(hypothesis, feed_dict={X: [[1, 11, 7, 9], [1, 3, 4, 3], [1, 1, 0, 1]]})
    print(all, sess.run(tf.argmax(all, 1)))

'''
0 6.926112
200 0.6005015
400 0.47295815
600 0.37342924
800 0.28018373
1000 0.23280522
1200 0.21065344
1400 0.19229904
1600 0.17682323
1800 0.16359556
2000 0.15216158
-------------
[[1.3890490e-03 9.9860185e-01 9.0613084e-06]] [1]
-------------
[[0.9311919  0.06290216 0.00590591]] [0]
-------------
[[1.2732815e-08 3.3411323e-04 9.9966586e-01]] [2]
-------------
[[1.3890490e-03 9.9860185e-01 9.0613084e-06]
 [9.3119192e-01 6.2902197e-02 5.9059085e-03]
 [1.2732815e-08 3.3411323e-04 9.9966586e-01]] [1 0 2]
'''

테스트를 하고자할 때 앞서 학습한 가설에 X값을 삽입하여 값을 출력한다.

그러면 X는 소프트맥스에 의해 3개의 클래스 레이블에 대한 각각의 예측 값을 내놓는데

이 중 가장 큰 값을 선택해주는 함수가 바로 arg_max 함수이다.

그럼 one-hot에 대해서 자세히 알아보자

one-hot encoding은 여러개의 결괏값이 예상될 경우 이를 0~1 사이로 예측값을 제시하는 것이다.

왼쪽에서부터 16개의 열은 각 특정 요소에 대한 여부를 0과 1로 나눈 것이며 맨 오른쪽 열은 해당 요소를

통해 반영된 Y 결괏 값이다. 0~6으로 총 7개이며 이를 one hot encoding으로 0~1 사이의 값으로 출력 시킬 수 있는데

one-hot encoding 특성상 차원이 하나가 늘어난다. 때문에, reshape를 통해서 차원을 조절 해주는 역할이 필요하다.