기본 콘텐츠로 건너뛰기

라벨이 LLM인 게시물 표시

40만 사용자 블라인드 테스트한 LLM 모델 순위 1위는? (feat. LMSYS Chatbot Arena) [14-Claude AI 로 블로깅하고 책쓰기 ]

참고: 이 데이터는 Hugging Face에서 운영하는 LMSYS Chatbot Arena 에서 최근에 각동 LLM 모델들을 평가한 자료를 Claude 3로 분석하여 설명한 내용입니다. 아래 그래프나 도표는 모두 이 LMSYS Chatbot Arena 사이트에서 발췌한 것입니다.      https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard LMSYS Chatbot Arena는 다양한 LLM(Large Language Model)의 성능을 종합적으로 평가하고 비교하기 위한 오픈 플랫폼입니다. 이 플랫폼에서는 크라우드소싱을 통해 수집한 사용자들의 선호도 평가 데이터를 바탕으로 모델 간 상대적 우열을 가리고 있습니다. 40만명이 넘는 사람들의 선호도 투표를 모아 Elo 랭킹 시스템으로 LLM을 순위화했습니다. 부연 설명: LMSYS Chatbot  Arena Leaderboard 는 대규모 언어모델(LLM)의 성능을 평가하기 위한 플랫폼입니다. 이 플랫폼은 크라우드소싱 방식으로 운영되며, 누구나 참여할 수 있는 오픈 플랫폼입니다. 40만명 이상의 사람들이 직접 LLM들에 대한 선호도를 투표했습니다. 이 투표 결과를 바탕으로 Elo 랭킹 시스템을 적용하여 LLM들의 순위를 매겼습니다. Elo 랭킹 시스템은 전통적으로 체스 등 두 플레이어 간 경기에서 실력 차이를 수치화하는 데 사용되는 방식입니다. 이 경우에는 사람들의 선호도 투표를 통해 LLM 간 상대적 성능 차이를 Elo 점수로 계산했습니다. 결론적으로 종합하면 현재로서는 Claude 3 opus와 GPT-4 계열 모델이 여러 평가 지표에서 최고 성적을 거두며 LLM 시장을 선도하고 있다고 평가할 수 있겠습니다. Bard, Claude 3 sonnet 등이 그 뒤를 바짝 추격하고 있으며, 구형 모델들과는 분명한 격차를 보이고 있습니다. 주요 평가 항목과 그 의도를 살펴보면 다음과 같습니다: 1. 일대일 대결 승률 (Figure 1):   각 모델 쌍 간의