LLM 세팅
소개
LLM의 결과는 얼마나 '랜덤'할 지와 같이 모델의 다양한 부분을 조종하는 설정 하이퍼 파라미터의 영향을 받습니다. 이 하이퍼 파라미터들은 더 창의적이고 다양성 있고 흥미로운 답변을 내도록 조정할 수 있습니다. 이 섹션에서 우리는 두 개의 중요한 설정 하이퍼 파라미터들을 알아볼 것이고 이것이 어떻게 결과에 영향을 주는지 알아볼 것입니다.
[연구자들을 위해서] 이것들은 learning rate, number of layers, hidden size 등과 같은 보통의 하이퍼 파라미터와는 다릅니다.
Temperature
Temperature는 답변의 랜덤성을 조절하는 설정 하이퍼 파라미터입니다. temperature가 높으면 더 예측 불가능하고 창의적인 결과를 내고 낮으면 흔하고 보수적인 답변을 합니다. 예를 들어 temperature를 0.5로 설정하면 모델은 1.0으로 설정했을 떄보다 덜 창의적인 답변을 낼 것입니다.
Top p
핵 샘플링으로 알려진 Top p는 모델의 랜덤성을 조절하는 또 하나의 하이퍼 파라미터입니다. 이것은 확률의 한계를 설정하고 그 누적 확률을 초과하는 토큰만을 선택합니다. 모델은 이 토큰들을 이용해서 랜덤한 답변을 생성합니다. 이 방법은 기존의 전체 단어를 샘플링 하는 기존의 방법보다 더 다양성 있고 흥미로운 결과를 생성합니다. 예를 들어, 만약 0.9의 top p를 설정한다면 모델은 90%의 확률을 달성하는 가장 가능성 높은 단어들로만 답변을 생성할 것입니다.
다른 관련된 하이퍼 파라미터
frequency나 presence penalties 같은 다른 많은 하이퍼 파라미터도 모델의 성능에 영향을 미칩니다. 여기에서는 다루지 않지만 나중에는 다루게 될 것입니다.
하이퍼 파라미터가 어떻게 결과에 영향을 미칠까?
Temperature과 top p 둘 다 모델의 랜덤성과 다양성에 영향을 줍니다. 높은 Temperature과 top p는 더 예측 불가능하고 흥미로운 결과를 냅니다 하지만 에러나 이상한 답변을 할 가능성도 높아집니다. 낮은 Temperature과 top p는 더 틀에 박히고 예측가능한 결과를 냅니다. 하지만 반복적이고 흥미롭지 않은 답변을 할 것입니다.
글 생성을 위해서 여러분은 보통 높은 Temperature과 top p를 사용하기를 원할 것입니다. 하지만 통역과 같이 정확도가 중요한 작업이라면 낮은 Temperature과 top p를 사용하는 것이 정확도면에서 더 이점이 있을 것입니다.
가끔은 정확도를 필요로 하는 상황에서도 더 많은 랜덤성이 도움이 될 때가 있습니다. (특별한 프롬프트 기술들과 함께라면)
결론
요약하자면 Temperature과 top p 그리고 다른 설정 하이퍼 파라미터들은 모델이 어떻게 작동할 지를 정하는 중요한 요인입니다. 하이퍼 파라미터와 답변은 관계를 이해하면 특별한 일과 프로그램에 최적화해서 사용할 수 있을 것입니다.
(API를 별도로 사용하지 않는 한) ChatGPT와 같은 몇몇 모델들은 설정 하이퍼 파라미터를 수정을 할 수 없게 되어있습니다.
By jackdickens382