최근 메타에서 차세대 오픈소스 대규모 언어 모델인 Llama 3를 공개( https://ai.meta.com/blog/meta-llama-3/ ) 했습니다. (** 참고 이내용은 Meta에서 최근에 발표한 Llama3 소개 자료를 Claude 3 (Opus) 가 분석하여 비교한 내용과 Llama3 분석 요약한 것입니다 **) Meta Llama3 vs. Claude AI 비교 사람 평가자가 선호도를 평가한 결과, Llama 3 70B Instruct 모델은 Claude, GPT-3.5 등 경쟁 모델을 압도하는 성능을 보였습니다. 특히 Claude Sonnet 모델과의 비교에서 Llama 3는 52.9%의 선호도로 우위를 보였고, 34.2%의 낮은 패배율을 기록했습니다. 이는 Anthropic의 Claude 모델이 강력한 경쟁 모델로 평가받는 상황에서 의미있는 결과입니다. 다만 휴먼 평가 방식의 한계상 두 모델의 절대적인 성능 차이를 단언하긴 어렵습니다. 향후 다양한 태스크에서의 직접 비교가 필요해 보입니다. 객관적인 벤치마크 결과를 볼 때, Llama 3 70B Instruct 모델은 MMLU, GPQA 등 주요 평가에서 Claude Sonnet를 약간 상회하는 성능을 보여주었습니다. 다만 HumanEval(코딩 능력) 벤치마크에서는 Claude Sonnet에 다소 뒤쳐지는 모습을 보여, 세부 태스크별 성능 편차가 존재함을 알 수 있었습니다. 종합하면 Llama 3 Instruct 모델은 Claude를 포함한 최신 경쟁 모델들과 매우 근접한 성능을 보여주었다고 할 수 있겠습니다. Claude와의 비교 내용을 추가하여 Llama 3의 경쟁력을 보다 입체적으로 제시해 보았습니다. Llama 3는 현존 최고 수준으로 평가받는 Claude 모델과 견줄만한 성능을 보여주었지만, 일부 태스크에서의 열세도 관찰되었습니다. 두 모델 모두 아직 발전 단계에 있는 만큼, 향후 지속적인 벤치마크 비교가 필요해 보입니다. 다양한 활용 사례에서의 성능 검증도 흥미로운 주제가 될 것 ...
저서: 1. AI 검색 혁명 Perplexity AI 활용 완전 정복 (종이책-예스24) 2. AI 전환 시대엔 혼자보다 함께, 클로드 AI 글쓰기(프리렉, 종이책-예스24), 3. 일하는 방식의 전환, 구글 워크스페이스 활용 가이드 (프리렉, 예스24)