퓨샷 프롬프팅
또 다른 프롬프트 전략은 퓨샷 프롬프팅 (few shot prompting)으로, 기본적으로 모델에 원하는 작업의 몇 가지 예시(보통 줄여서 shot이라고 함)를 제시합니다.
위의 예제에서 우리는 고객의 피드백이 긍정적인지 부정적인지 구분하려고 합니다. 우리는 모델에게 긍적/부정의 3가지 예제를 제공했고 그리고 아직 구분되지 않은 피드백을 보여주었습니다(It doesnt work!:
과 함께). 모델은 먼저 긍정
과 부정
으로 구분되어 있는 3가지 예제를 보고 이 정보를 이용해서 주어진 새로운 예제를 부정
으로 구분했습니다.
예제를 구조화하는 것은 상당히 중요합니다. input: classification
을 통해서 3개의 예제를 구조화 했기 때문에 모델은 this review is positive
와 같은 문장 전체로 답변하는 게 아니라 마지막 라인에 한 개의 단어로 답변하게 되었습니다.
구조에 대해 더 알아보기
퓨샷 프롬프팅의 주요 사용처는 모델에게 설명하기 어려운 특별한 방법으로 구조화된 출력을 요구할 때입니다. 이것을 이해하기 위해서 관련된 예제를 알아봅시다: 지역 신문 기사를 분석하여 인근 마을에서 잘 알려진 시민의 이름과 직업을 편집해야 한다고 가정합시다. 여러분은 모델에게 각 기사를 읽고 그리고 First Last [OCCUPATION]
포맷의 리스트를 출력하도록 해야합니다. 이를 실행하기 위해서 여러분은 모델에 몇가지 예제를 제공할 수 있을 것입니다:
모델에게 몇가지 정확한 출력 포멧을 제공하는 것으로, 새로운 글에서도 정확한 출력을 제공할 수 있을 것입니다.
그냥 명령 프롬프트를 통해서도 같은 출력을 만들 수 있지만 퓨샷 프롬프트는 더 일관성있는 출력을 제공할 것입니다.
다양한 퓨샷 프롬프트
"샷"(shot)은 "예제"와 같은 뜻입니다. 퓨샷 프롬프팅 외에 두 가지 종류의 샷 프롬프팅이 존재합니다. 이것을 너무 어렵게 생각하지 마십지오! 이 종류들 사이에 다른 것이라고는 예제를 제공하는 개수밖에 없습니다.
종류:
- 제로 샷(0 shot) 프롬프팅: 모델에게 예제를 제공하지 않음
- 원 샷(1 shot) 프롬프팅: 모델에게 한 개의 예제를 제공함
- 퓨샷 프롬프팅: 모델에게 2개 이상의 예제를 제공함
제로 샷(0-shot) 프롬프팅
제로 샷 프롬프팅은 가장 기본적인 프롬프팅입니다. 예시 없는 프롬프트를 모델에 제공해서 결과를 생성합니다. 이와 같이, 지금까지 봤던 모든 명령이나 역할 프롬프트는 제로 샷 프롬프트라고 볼 수 있습니다. 추가적으로 제로 샷 프롬프트의 예시는 다음과 같습니다:
Add 2+2:
모델에게 어떤 예제도 제공하지 않았기 때문에 제로 샷 프롬프트입니다.
원 샷(1-shot) 프롬프트
원 샷(1-shot) 프롬프트는 모델에게 1개의 예시만 제공합니다. Add 2+2:
을 물어보고 싶을 떄:
Add 3+3: 6
Add 2+2:
우리는 모델에 하나의 완성된 예시(Add 3+3: 6
)를 제공습니다. 그렇기 떄문에 원 샷(1-shot) 프롬프트입니다.
퓨샷 프롬프팅
퓨샷 프롬프팅은 2개 이상의 예제를 제공합니다. 위의 섹션의 모든 프롬프트는 퓨샷 프롬프트였습니다. 위 예제의 퓨샷 프롬프트 버전은 다음과 같습니다:
Add 3+3: 6
Add 5+5: 10
Add 2+2:
모델에 두 개의 완성된 예제(Add 3+3: 6
and Add 5+5: 10
)를 제공했습니다. 보통 더 많은 예시가 모델에게 제공되면 더 나은 결과가 출력됩니다. 그래서 보통 퓨샷 프롬프팅이 제로 샷 프롬프팅이나 1샷 프롬프팅보다 선호됩니다.
결론
퓨샷 프롬프팅(Few-shot prompting)은 모델에게 정확하고 구조화된 출력을 생성하게 하는 아주 강력한 기술입니다.
Footnotes
-
Logan IV, R., Balazevic, I., Wallace, E., Petroni, F., Singh, S., & Riedel, S. (2022). Cutting Down on Prompts and Parameters: Simple Few-Shot Learning with Language Models. Findings of the Association for Computational Linguistics: ACL 2022, 2824–2835. https://doi.org/10.18653/v1/2022.findings-acl.222 ↩
-
Lake, B. M., Salakhutdinov, R., & Tenenbaum, J. B. (2015). Human-level concept learning through probabilistic program induction. Science, 350(6266), 1332–1338. ↩