๐ก ์ต์ ์ต๋ ํ๋กฌํํธ
์ต์ ์ต๋ ํ๋กฌํํธ(LtM)1๋ CoT ํ๋กฌํํ ์์ ๋ ๋์๊ฐ ํ๋์ ๋ฌธ์ ๋ฅผ ์ฌ๋ฌ ๊ฐ์ ์๋ธ ๋ฌธ์ ๋ค๋ก ๋ถํ ํ ๊ฐ๊ฐ์ ํด๊ฒฐํ๋ ๊ฒ์ ๋๋ค. ์ด ๊ธฐ์ ์ ์ค์ ๋ก ์์ด๋ค์ ์ํ ๊ต์ก ์ ๋ต์์ ์๊ฐ์ ๋ฐ์์ ๋ง๋ค์ด์ก์ต๋๋ค.
๋จผ์ CoT ํ๋กฌํํ ์์ ํ์ด์ผ ํ ๋ฌธ์ ๋ ๊ฐ๊ฐ ์๋ก๋ฅผ ๊ธฐ๋ฐ์ผ๋กํ๋ ์๋ธ ๋ฌธ์ ๋ค๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค. ๋ ๋ฒ์งธ๋ก ์ด ์๋ธ ๋ฌธ์ ๋ค์ ํ๋ฒ์ ํ๋์ฉ ํด๊ฒฐ๋ฉ๋๋ค. ์ผ๋ฐ CoT์๋ ๋ค๋ฅด๊ฒ ์ด์ ์ ํ์๋ ์๋ธ ๋ฌธ์ ๋ค์ ๋ค์ ๋ฌธ์ ๋ฅผ ํธ๋๋ฐ์ ์ฌ์ฉ๋ฉ๋๋ค.

์์: ์๋น์ ์ฐ๊ตฌ ๊ฒฐ๊ณผโ
์กฐ๊ธ ๋ณต์กํ ์๋น์ ์๋น์ค ์ง๋ฌธ์ ํด๋ด ์๋ค.
์คํจ์ ๋๋ค. ์ด์ ์๋ธ ๋ฌธ์ ๋ค๋ก ๋๋์ด๋ณด๋ ๊ณผ์ ์ ์งํํด๋ด ์๋ค.
์ฒซ ๋ฒ์งธ ์๋ธ ๋ฌธ์ ๋ฅผ ํ์ด๋ด ์๋ค.
์ฒซ ๋ฒ์งธ ๋ฌธ์ ๋ฅผ ํธ๋ ๊ฒ ๋ง์ผ๋ก๋ ์ฐ๋ฆฌ๋ ๋ฌธ์ ์ ์ฒด๋ฅผ ํ ์ ์์์ต๋๋ค. ๋ง์ฝ GPT-3๊ฐ ๋ต์ ์ฆ๊ฐ์ ์ผ๋ก ์ฃผ์ง ๋ชปํ๋ค๊ณ ํด๋ ๋ต์ ์ค๋๊น์ง ์ฐ๋ฆฌ๋ ๋ค์ ๋ฌธ์ ๋ฅผ ํ ์ ์์์ต๋๋ค. Let's go step by step.
๋ผ๋ ๋ฌธ์ฅ์ ์ฌ์ฉํ๋ ๊ฒ์ ์ฐธ๊ณ ํ์ธ์. ์ด ๋ฌธ์ฅ์ ํ์๊ฐ ์๋์ง๋ง ์ต์ํ ์ด ์์ ์์๋ ๋์์ด ๋์์ต๋๋ค.
์์ : ๋ฌธ์ ์ฐ๊ฒฐโ
LtM์ ๋ฌธ์ ๋ฅผ ์ฌ๋ฌ ๋จ๊ณ๋ก ๋๋๋๋ฐ ๋ช ์์ ์ธ ์ง์๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์๋๋ผ ํจ์ท ํ๋กฌํํ ์ ์ฌ์ฉํ๋ ๊ฒ์ผ๋ก ์์์ ์ค๋ช ์ด ๋์์ต๋๋ค. ์ถ๊ฐ์ ์ผ๋ก ์ฌ๋ฌ๊ฐ์ ํ๋กฌํํธ๊ฐ ์๋๋ผ ํ๋์ ํ๋กฌํ๋กฌํํธ๋ก ๊ฐ๋ฐ๋๋ ๊ฒฝ์ฐ๋ ์ข ์ข ์์ต๋๋ค. ๊ฐ ๊ฐ๋ณ์ ์ธ ๋จ์ด๋ค์ ๋ง์ง๋ง ๋ฌธ์๋ฅผ ์ฐ๊ฒฐํ๋ ๋ฌธ์ ๋ฅผ ํ์ด๋ด ์๋ค.
์ฒซ ๋ฒ์งธ ์๋: ํ์คโ
ํจ์ท์ ์ฌ์ฉํ๋ ํ์ค ํ๋กฌํํธ ์์ ๋ ์ ๋๋ก ์๋ํ์ง ์์ต๋๋ค. ์ฌ์ง์ด text-davinci-003๊ฐ์ ๋ ์ข์ ๋ชจ๋ธ์ ์จ๋ ๊ทธ๋ ์ต๋๋ค.
๋ ๋ฒ์งธ ์๋: ์ฌ๊ณ ์ฌ์ฌ ํ๋กฌํํ โ
์ฌ๊ณ ์ฌ์ฌ ํ๋กฌํํ ์ ํ์ค ํ๋กฌํํธ ๋ณด๋ค๋ ๋ซ์ต๋๋ค. ์ด์ ๋ ๋ชจ๋ธ๋ค์ด ๋จ์ด์ ๋ง์ง๋ง ๋ฌธ์๋ฅผ ์ถ์ถํ๋ ๊ฒ์ด ๊ฐ๋ฅํด์ก๊ณ ์ด์ ๋ณด๋ค ๋ฌธ์๋ค์ ๋ชจ์ผ๋ ๋ชจ์ผ๋ ์์ ์ ๋ณต์ก์ฑ์ด ๋ด๋ ค๊ฐ๊ธฐ ๋๋ฌธ์ ์ฑ๋ฅ์ด ์ข์์ง ์ ๋ฐ์ ์์์ต๋๋ค.
์ธ ๋ฒ์งธ ์๋: ์ต์ ์ต๋ ํ๋กฌํํ (ํ๋กฌํํธ ํ ๊ฐ)โ
์ต์ ์ต๋ ํ๋กฌํํ ์ ํตํด์ ์ฐ๋ฆฌ๋ ์ด์ ์ ์ฐ๊ฒฐ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ค์ ์ง์ ํ๊ธฐ ์ํ ๊ฐ๋ณ ๋จ๊ณ๋ฅผ ์ฌ๊ตฌ์ฑํ์ฌ ์ฌ๊ณ ์ฌ์ฌ ๊ฐ๋ ์ ๊ฐํํ๋ค. ์ด ๋ฐฉ๋ฒ์ ์๋ก์ด ๋ฌธ์๋ฅผ ์ฐ๊ฒฐํ๋ ๊ฐ๊ฐ์ ๊ณผ์ ๋ค์ ๋จ์ํํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๋ฐฉ๋ฒ์ ๋จ์ด๊ฐ 12๊ฐ ์ด์์ผ ๋์ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค.
์ด ์ ๊ทผ๋ฒ์ ๊ทธ๋ฅ ์ฌ๊ณ ์ฌ์ฌ ๋ฐฉ์๊ณผ ๋น์ทํด๋ณด์ผ ์ ์์ต๋๋ค. ํ์ง๋ง ์ค์ ๋ก๋ ๊ต์ฅํ ๋ค๋ฆ ๋๋ค. ๊ฐ์ฅ ๋ค๋ฅธ ๋ถ๋ถ์ ๋ชจ๋ ๋จ๊ณ์์ ์ด์ ์ ์ฐ๊ฒฐ์ ํ์ฉํ๋ค๋ ์ ์ ๋๋ค. "think, machine, learning"์ ์๋ฅผ ๋ค์ด๋ด ์๋ค, "k","e","g" ๊ฐ๊ฐ์ ๊ฐ๋ณ์ ์ผ๋ก ์ฐ๊ฒฐํ๋ ๊ฒ์ด ์๋๋ผ "k"์ "e"๋ฅผ ๋ํด์ "ke"๋ฅผ ๋ง๋ค๊ณ ๊ทธ ๋ค์ "g"๋ฅผ ๋ํ๋ ๋ฐฉ์์ ์ฌ์ฉํ ๊ฒ์ ๋๋ค. ์ด ์ด์ ์ ๊ฒฐ๊ณผ๋ฌผ์ ํ์ฉํ๋ ๊ฒ์ผ๋ก ์ธํด์ ๋ชจ๋ธ์ ๊ฐ๊ฐ์ ๋จ๊ณ์์๋ ์์ฃผ ์กฐ๊ธ์ ์์ ๋ง์ ํ์ํ๊ธฐ ๋๋ฌธ์ ๋ ๊ธด ์ฌ์ฌ์ ํ์ฑํ ์ ์์ต๋๋ค.
๊ฒฐ๋ก โ
12๊ธ์๋ฅผ ์ฐ๊ฒฐํ๋ ์ง๋ ๋ฌธ์ ์์ ์ฌ๊ณ ์ฌ์ฌ์ 34%์ ์ ํ๋๋ฅผ ๋ด์์ง๋ง ์ต์ ์ต๋ ํ๋กฌํํ ์์๋ 74%์ ์ ํ๋๋ฅผ ๋ด์์ต๋๋ค.(text-davinci-002๋ฅผ ํ์ฉํ์ ๋)
์์ : ๊ตฌ์ฑ ์ผ๋ฐํ (SCAN)โ
์ค์บ ๋ฌธ์ 2์ ๋ชจ๋ธ์ด ์์ฐ์ด๋ฅผ ์ผ๋ จ์ ํ๋์ผ๋ก ๋ฐ๊พธ๋ ๊ณผ์ ์ ์๊ตฌ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด์, "run left and walk twice"๋ผ๋ ๋ฌธ์ฅ์ "TURN_LEFT + RUN + WALK * 2"๋ก ๋ฐ๊พธ๋ ๊ฒ์ ๋๋ค. ์ธ์ด ๋ชจ๋ธ์ ํ์ต ๋ฐ์ดํฐ๋ณด๋ค ๋ ๊ธด ๋ฌธ์ฅ์ ๋ง์ฃผํ์ ๋ ํนํ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
์ฒซ ๋ฒ์งธ ์๋: ํ์ค ํ๋กฌํํ โ
ํ์ค ํ๋กฌํํ ์ ์ฌ์ฉํ์ ๋ text-davinci-003์ ์ธ์์ ์ด์ง๋ง ์ฌ์ ํ ์คํจํ๊ณ ์์ต๋๋ค.
๋ ๋ฒ์งธ ์๋: ์ต์ ์ต๋, ์ฒซ ๋ฒ์งธ ๋จ๊ณ - ์ถ์โ
์ฐ๋ฆฌ๋ 2๊ฐ์ง์ ๋ค๋ฅธ ํ๋กฌํํธ๋ฅผ ๋ค๋ฃฐ ๊ฒ์ ๋๋ค. ์ฒซ ๋ฒ์งธ ํ๋กฌํํธ๋ ๊ธฐ์กด์ ๋ฌธ์ ๋ฅผ ๋ ๋จ์ํ๋ ๋จ๊ณ๋ก ๋ฐ๊พธ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. ๋ ๋ฒ์งธ ํ๋กฌํํธ๋ ์ด๋ฌํ ๋จ์ํ๋ ๋จ๊ณ๋ฅผ ํฉ์ณ ์ค์ ํ๋์ผ๋ก ๋ง๋๋ ๋ฐ ์ฌ์ฉ๋ ๊ฒ์ ๋๋ค.
๋ ํ๋กฌํํธ๋ ๋ชจ๋ ๊ธธ๊ณ ๊ทธ๋ฆฌ๊ณ ํ ํฐ์ ์ ์ฅํ ์์ ์ ํ์ด์ฌ ์์ถ ํ๊ธฐ๋ฒ์ ์ฌ์ฉํ ๊ฒ์ ๋๋ค.
์ฒซ ๋ฒ์งธ ๋จ๊ณ์์๋ ์์ฐ์ด ์ค๋ช
์ ๋ณด๋ค ๋ช
ํํ๊ฒ ๋ง๋ญ๋๋ค.(์ฌ์ ํ ์ธ๊ฐ ์นํ์ ์ธ ์ธ์ด๋ก) ์ด๊ฒ์ ๋งคํ ๋จ๊ณ์์ ์์ฐจ์ ์ผ๋ก ์ํฉ์ ํ์
ํ๋ ๋ฐ ๋์์ด ๋ ๊ฒ์
๋๋ค. ์๋ฅผ ๋ค์ด์ "jump around left twice"๋ "jump left" -> TURN_LEFT + JUMP
, "jump around left" -> `(TURN_LEFT + JUMP) * 4๋ก ์ถ์๋ฉ๋๋ค. ๋ํ ์ถ์ ๋จ๊ณ๋ ๋ฐ๋ณต์ ๊ฐ๋
์ ์ค๋ช
ํ๋ ๋ฐ์๋ ์ฌ์ฉ์ด๋ฉ๋๋ค.
๋ ๋ฒ์งธ ์๋: ์ต์ ์ต๋, ๋ ๋ฒ์งธ ๋จ๊ณ - ํฉ์น๊ธฐโ
๋ ๋ฒ์งธ ๋จ๊ณ์์ ์ฐ๋ฆฌ๋ ์ถ์๋ ๊ฒฐ๊ณผ๋ฌผ์ ์ฌ์ฉํ ๊ฒ์ด๊ณ ๋ ๊ต์ฅํ ๊ธด ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํด์ ์ถ์๋ ์์ฐ์ด ์ค๋ช ์ ํ๋์ ๊ณผ์ ์ผ๋ก ๋ง๋ค ๊ฒ์ ๋๋ค.
์ฐ๋ฆฌ๋ ์ฒซ ๋ฒ์งธ ๋จ๊ณ์ ๊ฒฐ๊ณผ๋ฌผ์ ์ฝ์ ํ ๊ฒ์ ๋๋ค:
"jump around left twice" can be solved by: "jump left", "jump around left", "jump around left twice". "walk opposite left thrice" can be solved by: "walk opposite left", "walk opposite left thrice". So, "jump around left twice after walk opposite left thrice" can be solved by: "jump left", "jump around left", "jump around left twice", "walk opposite left", "walk opposite left thrice".
LLM์ผ๋ก์.
๊ฒฐ๋ก โ
LtM์ ์ฌ๋ฌ ์ฅ์ ์ด ์์ต๋๋ค:
- ์ฌ๊ณ ์ฌ์ฌ๋ณด๋ค ๋ ๊ฐ์ ๋ ์ ํ๋
- ํ๋กฌํํธ์์ ์์๋ค ๋ณด๋ค ๋ ๋ณต์กํ ๋ฌธ์ ๋ค์ ์ผ๋ฐํํ๋๋ฐ ์ฅ์ ์ด ์๋ค.
- ํนํ SCAN๊ฐ์ ๋ฌธ์ ์์ ๊ตฌ์ฑ ์ผ๋ฐํ์ ๊ต์ฅํ ์ฅ์ ์ด ์๋ค.
text-davinci-002์ ํ์ค ํ๋กฌํํธ๋ก ์์ฑํ ๊ฒฐ๊ณผ๋ 6%์ ๋์ SCAN๋ฌธ์ ์ ํ๋๋ฅผ ๊ฐ์ง๋๋ฐ ์ต์ ์ต๋ ํ๋กฌํํ ์ ๊ฒฐ๊ณผ๋ 76%์ ์ ํ๋๋ฅผ ๊ฐ์ง๋ค. ๊ฒ๋ค๊ฐ code-davinci-002 ๋ชจ๋ธ์์๋ ๋ ๋๋ ทํ๊ฒ ๋ํ๋๋๋ฐ ์ต์ ์ต๋ ํ๋กฌํํ ์ ๋ฌด๋ ค 99.7%์ ์ ํ๋๋ฅผ ๊ฐ์ง๋ค.
- Zhou, D., Schรคrli, N., Hou, L., Wei, J., Scales, N., Wang, X., Schuurmans, D., Cui, C., Bousquet, O., Le, Q., & Chi, E. (2022). Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. โฉ
- Lake, B. M., & Baroni, M. (2018). Generalization without Systematicity: On the Compositional Skills of Sequence-to-Sequence Recurrent Networks. https://doi.org/10.48550/arXiv.1711.00350 โฉ