사고 사슬 (CoT) 프롬프팅은 최근에 개발된 방법입니다. LLM에게 이유에 대해서 설명하도록 만드는 방법입니다. 아래의 사진에서 퓨샷 표준 프롬프트(왼쪽)와 사고 사슬 프롬프팅(오른쪽)을 비교해 볼 수 있습니다.
CoT의 메인 아이디어는 LLM에게 답이 나오는 과정에 대해서 설명한 표본을 보여줌으로써 LLM이 프롬프트에 답할 때 똑같이 그에 대한 과정을 설명하도록 만드는 것입니다. 이유에 대한 설명은 종종 답을 더 정확하게 만듭니다.
몇가지 예시가 있습니다. 먼저 GPT-3 (davinci-003)가 몇가지 간단한 단어 문제를 틀린 것을 볼 수 있습니다. 두 번째에서는 GPT-3(davinci-003)이 CoT를 통해서 같은 문제를 맞은 것을 볼 수 있습니다.
CoT는 산술적, 상식적, 상징적 추론 과제와 같은 일들에 더 효율적으로 나은 결과를 만들어 냈다. 특히 PaLM 540B는 GSM8K에서 57%의 정확도 향상을 보였다.
Comparison of models on the GSM8K benchmark (Wei et al.)
중요한 점은, Wei 등에 따르면, "CoT는 ∼100억 개의 파라미터를 가진 모델과 함께 사용할 때만 성능 향상을 가져옵니다". 더 작은 모델은 비논리적인 사고 사슬을 작성했고 이는 표준 프롬프트로 작성할 때 보다 더 부정확했습니다. 모델들은 보통 모델의 크기에 비례하는 방식으로 CoT프롬프트에 따른 성능 향상을 보였습니다.
이 챕터를 작성하는 과정에서 어떤 언어 모델도 다치지 않았답니다😊.
Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E., Le, Q., & Zhou, D. (2022). Chain of Thought Prompting Elicits Reasoning in Large Language Models. ↩ ↩2 ↩3
Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., Schuh, P., Shi, K., Tsvyashchenko, S., Maynez, J., Rao, A., Barnes, P., Tay, Y., Shazeer, N., Prabhakaran, V., … Fiedel, N. (2022). PaLM: Scaling Language Modeling with Pathways. ↩
Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., Plappert, M., Tworek, J., Hilton, J., Nakano, R., Hesse, C., & Schulman, J. (2021). Training Verifiers to Solve Math Word Problems. ↩