제목: Anthropic, 혁신적인 AI 모델 Claude 3.5 Sonnet 출시 - 더 똑똑하고 빠른 AI의 시대가 열리다
오늘은 생성형 AI 기술의 새로운 이정표가 될 소식을 전해드리려 합니다. Anthropic이 Claude 3.5 모델 제품군의 첫 번째 모델인 'Claude 3.5 Sonnet'을 출시했습니다. 이 모델은 지능과 속도 면에서 큰 도약을 이뤄냈다고 하는데요, 함께 자세히 살펴보겠습니다.
Claude 3.5 Sonnet의 주요 특징:
- 성능 향상: 대학원 수준의 추론, 학부 수준의 지식, 코딩 능력 등 다양한 분야에서 업계 최고 수준의 성능을 보여줍니다. 이는 Claude 3.5 Sonnet이 복잡한 문제 해결과 창의적인 작업에 매우 유용할 것임을 시사합니다.
- 2배 빨라진 속도: Claude 3 Opus 대비 2배 빠른 속도로 작동하여 사용자의 요청에 더욱 신속하게 응답할 수 있게 되었습니다. 이는 실시간성이 중요한 대화형 AI 애플리케이션에 특히 유리할 것으로 보입니다.
- 비용 효율성: 높은 성능에 비해 합리적인 가격으로 제공되어, 다양한 사용자들이 첨단 AI 기술을 활용할 수 있게 되었습니다.
- 시각 인식 능력 향상: 차트, 그래프 해석 및 이미지 내 텍스트 인식 등 시각적 추론 작업에서 크게 개선된 성능을 보였습니다. 이는 데이터 분석, 문서 처리 등 시각 정보가 중요한 분야에서 Claude 3.5 Sonnet의 활용도가 높아질 것으로 기대됩니다.
Claude 3.5 Sonnet은 Claude.ai 웹사이트와 iOS 앱에서 무료로 사용할 수 있으며, 구독 요금제에 따라 더 높은 사용 한도를 제공받을 수 있습니다. 또한 Anthropic API, Amazon Bedrock, Google Cloud의 Vertex AI 등 다양한 플랫폼을 통해서도 접근 가능합니다.
흥미로운 점은 'Artifacts'라는 새로운 기능의 도입입니다. 이를 통해 사용자는 Claude가 생성한 코드, 문서, 웹사이트 디자인 등을 실시간으로 확인하고 편집할 수 있게 되었죠. 이는 Claude가 단순한 대화형 AI를 넘어 협업 작업 환경으로 진화하고 있음을 보여주는 사례라 할 수 있습니다.
Anthropic은 Claude 3.5 Sonnet의 안전성 확보를 위해서도 많은 노력을 기울였습니다. 엄격한 테스트와 외부 전문가들의 피드백을 반영하여 오용 가능성을 최소화하고, 아동 안전 등 중요한 이슈에 대한 대응력을 높였다고 합니다. 또한 사용자 프라이버시 보호를 위해 명시적 허가 없이는 사용자 데이터를 모델 학습에 사용하지 않는다는 원칙을 세웠습니다.
이런 점들을 종합해 보면, Claude 3.5 Sonnet은 성능과 활용성, 그리고 윤리적 책임까지 두루 갖춘 차세대 AI 모델이라 할 수 있겠습니다. 개인과 기업 모두에게 큰 도움이 될 이 기술이 어떻게 우리의 삶을 변화시킬지 궁금해집니다. Anthropic은 연내에 Claude 3.5 모델 제품군을 완성하고, 기업용 솔루션과 개인화 기능 등을 지속 개발해나갈 계획이라고 하니, 앞으로의 행보에도 관심이 가는 바입니다.
—----------------------------------
다음 내용을 번역한 것입니다. https://www.anthropic.com/news/claude-3-5-sonnet
오늘, 곧 출시될 Claude 3.5 모델 제품군의 첫 번째 제품인 Claude 3.5 Sonnet을 출시합니다. 클로드 3.5 소네트는 다양한 평가에서 경쟁 모델과 클로드 3 오푸스를 능가하는 성능으로 업계의 인텔리전스 기준을 높였으며, 중간급 모델인 클로드 3 소네트의 속도와 비용도 그대로 유지합니다.
Claude 3.5 Sonnet은 현재 Claude.ai와 Claude iOS 앱에서 무료로 사용할 수 있으며, Claude Pro 및 Team 요금제 가입자는 훨씬 높은 요금 한도로 액세스할 수 있습니다. 또한 Anthropic API, Amazon Bedrock, Google Cloud의 Vertex AI를 통해서도 사용할 수 있습니다. 이 모델의 비용은 입력 토큰 100만 개당 3달러, 출력 토큰 100만 개당 15달러이며, 토큰 컨텍스트 창은 200만 개입니다.
2배 빠른 속도의 프론티어 인텔리전스
Claude 3.5 Sonnet은 대학원 수준의 추론 능력(GPQA), 학부 수준의 지식(MMLU), 코딩 능력(HumanEval)에 대한 새로운 업계 벤치마크를 설정합니다. 뉘앙스, 유머, 복잡한 지침을 파악하는 능력이 현저히 향상되었으며 자연스럽고 공감할 수 있는 어조로 고품질 콘텐츠를 작성하는 데 탁월합니다.
클로드 3.5 소네트는 클로드 3 오푸스보다 두 배 빠른 속도로 작동합니다. 이러한 성능 향상과 비용 효율적인 가격 덕분에 Claude 3.5 Sonnet은 상황에 민감한 고객 지원 및 다단계 워크플로 조율과 같은 복잡한 작업에 이상적입니다.
내부 에이전트 코딩 평가에서 Claude 3.5 Sonnet은 64%의 문제를 해결하여 38%를 해결한 Claude 3 Opus보다 뛰어난 성능을 보였습니다. 이 평가는 원하는 개선 사항에 대한 자연어 설명이 주어질 때 오픈 소스 코드베이스에 버그를 수정하거나 기능을 추가하는 모델의 능력을 테스트합니다. 관련 도구가 제공되고 지시를 받으면 Claude 3.5 Sonnet은 정교한 추론 및 문제 해결 기능을 통해 독립적으로 코드를 작성, 편집 및 실행할 수 있습니다. 코드 번역을 쉽게 처리할 수 있어 레거시 애플리케이션 업데이트와 코드베이스 마이그레이션에 특히 효과적입니다.
다양한 태스크에서의 성능이 비교되고 있는데, 대학원 수준의 추론(Graduate level reasoning), 대학교 수준의 지식(Undergraduate level knowledge), 코딩 능력(Code), 다국어 수학(Multilingual math), 지문에 대한 추론(Reasoning over text), 혼합된 평가(Mixed evaluations), 수학 문제 해결(Math problem-solving), 초등 수학(Grade school math) 등 다양한 분야가 포함되어 있습니다.
전반적으로 Claude 3.5 Sonnet이 대부분의 태스크에서 가장 좋은 성능을 보이고 있습니다. 다만 일부 태스크에서는 GPT-4나 Llama-400b가 더 좋은 성능을 보이기도 합니다.
이는 최근 자연어 처리 및 AI 분야에서 급속도로 발전하고 있는 대형 언어 모델들의 성능을 한눈에 비교해 볼 수 있는 흥미로운 자료라고 할 수 있겠습니다. 앞으로도 이 분야의 발전 속도와 향후 전개 방향이 주목됩니다.
최첨단 비전
클로드 3.5 소네트는 표준 비전 벤치마크에서 클로드 3 오푸스를 능가하는 역대 가장 강력한 비전 모델입니다. 이러한 단계적 개선은 차트 및 그래프 해석과 같이 시각적 추론이 필요한 작업에서 가장 두드러지게 나타납니다. 또한 Claude 3.5 Sonnet은 불완전한 이미지에서 텍스트를 정확하게 전사할 수 있으며, 이는 AI가 텍스트보다 이미지, 그래픽 또는 일러스트레이션에서 더 많은 인사이트를 얻을 수 있는 소매, 물류 및 금융 서비스의 핵심 기능입니다.
이 표는 Claude 3.5 Sonnet, Claude 3 Opus, GPT-4, Gemini 1.5 Pro 등 여러 AI 모델의 시각적 추론 및 분석 능력을 비교하고 있습니다.
비교 항목으로는 MathVista에서의 시각적 수학 추론(Visual math reasoning), AI2D 테스트에서의 과학 다이어그램 이해(Science diagrams), 시각적 질의응답 능력(Visual question answering), 차트 Q&A 능력(Chart Q&A), 문서 시각화 및 Q&A 테스트(Document visual Q&A) 등이 있습니다.
전반적으로 Claude 3.5 Sonnet이 모든 항목에서 가장 우수한 성능을 보여주고 있습니다. 특히 시각적 수학 추론, 차트 Q&A, 문서 시각화 Q&A 테스트에서 다른 모델 대비 월등한 성적을 기록했습니다.
Claude 3 Opus는 시각적 질의응답을 제외한 대부분의 항목에서 2위권의 성능을 보였고, GPT-4와 Gemini 1.5 Pro는 유사한 수준의 성능을 보여주었습니다.
이는 멀티모달 학습과 시각적 추론 기술이 적용된 Claude 3.5 Sonnet의 우수성을 입증하는 결과라고 할 수 있겠습니다. 앞으로 이러한 시각 지능 기술이 어떻게 고도화될지 주목해 볼만 합니다.
CopyRetry
Artifacts—Claude를 활용하는 새로운 방법
오늘, 저희는 Claude.ai에 Artifacts라는 새로운 기능을 도입했습니다. 이 기능은 사용자가 Claude와 상호작용하는 방식을 확장시켜줍니다. 사용자가 Claude에게 코드 스니펫, 텍스트 문서 또는 웹사이트 디자인과 같은 콘텐츠 생성을 요청하면, 이러한 Artifacts가 대화창 옆에 전용 창에 나타납니다. 이를 통해 사용자는 Claude가 생성한 콘텐츠를 실시간으로 보고, 편집하고, 확장할 수 있는 동적인 작업 공간을 만들 수 있으며, AI가 생성한 콘텐츠를 프로젝트 및 워크플로우에 원활하게 통합할 수 있습니다.
이 미리보기 기능은 Claude가 대화형 AI에서 협업 작업 환경으로 진화하는 것을 의미합니다. 이는 곧 팀 협업을 지원하도록 확장될 Claude.ai의 더 넓은 비전의 시작일 뿐입니다. 가까운 미래에 팀, 그리고 결국에는 전체 조직이 Claude를 온디맨드 팀원으로 활용하면서 지식, 문서 및 진행 중인 작업을 안전하게 하나의 공유 공간에 집중시킬 수 있게 될 것입니다.
안전 및 개인 정보 보호에 대한 약속
저희 모델은 엄격한 테스트를 거치며 오용을 줄이기 위한 훈련을 받았습니다. Claude 3.5 Sonnet의 지능은 크게 향상되었지만, 저희 레드팀 평가 결과 Claude 3.5 Sonnet은 여전히 ASL-2 수준에 머물고 있다고 결론 내렸습니다. 자세한 내용은 모델 카드 부록에서 확인할 수 있습니다.
저희는 안전 및 투명성에 대한 약속의 일환으로 외부 전문가들과 협력하여 최신 모델 내의 안전 메커니즘을 테스트하고 개선했습니다. 최근에는 영국 인공지능 안전 연구소 (UK AISI)에 Claude 3.5 Sonnet을 제공하여 배포 전 안전 평가를 진행했습니다. UK AISI는 3.5 Sonnet에 대한 테스트를 완료하고, 올해 초 발표된 미국 및 영국 AISI 간 파트너십을 통해 체결된 양해 각서에 따라 그 결과를 미국 인공지능 안전 연구소 (US AISI)와 공유했습니다.
저희는 외부 전문가들의 정책 피드백을 반영하여 평가의 견고성을 확보하고 새로운 오용 트렌드를 고려했습니다. 이러한 협력을 통해 저희 팀은 다양한 유형의 오용에 대한 3.5 Sonnet의 평가 능력을 확장할 수 있었습니다. 예를 들어, Thorn의 아동 안전 전문가들의 피드백을 활용하여 분류기를 업데이트하고 모델을 미세 조정했습니다.
저희 AI 모델 개발을 안내하는 핵심 원칙 중 하나는 개인 정보 보호입니다. 사용자가 명시적으로 허가하지 않는 한, 저희는 사용자가 제출한 데이터로 생성 모델을 훈련시키지 않습니다. 현재까지 저희는 생성 모델 훈련에 고객 또는 사용자가 제출한 데이터를 사용하지 않았습니다.
곧 출시 예정
저희의 목표는 몇 개월마다 지능, 속도 및 비용 간의 상충 곡선을 실질적으로 개선하는 것입니다. Claude 3.5 모델 제품군을 완성하기 위해 올해 말 Claude 3.5 Haiku와 Claude 3.5 Opus를 출시할 예정입니다.
차세대 모델 제품군 작업 외에도 기업용 애플리케이션과의 통합을 포함하여 비즈니스를 위한 더 많은 사용 사례를 지원하기 위해 새로운 양식과 기능을 개발하고 있습니다. 저희 팀은 또한 사용자가 지정한 대로 Claude가 사용자의 선호도 및 상호 작용 기록을 기억하여 경험을 더욱 개인화되고 효율적으로 만들 수 있는 Memory와 같은 기능을 연구하고 있습니다.
저희는 Claude를 개선하기 위해 끊임없이 노력하고 있으며 사용자들의 의견을 듣는 것을 좋아합니다. Claude 3.5 Sonnet에 대한 피드백을 제품 내에서 직접 제출하여 저희 개발 로드맵에 정보를 제공하고 저희 팀이 사용자 경험을 개선하는 데 도움을 줄 수 있습니다. 언제나처럼 Claude를 통해 여러분이 구축하고, 창조하고, 발견하는 것을 기대합니다.
댓글
댓글 쓰기