생성형 AI 활용 연구소 블로그

Claude Sonnet 4.5 업그레이드, 이전 버전과 무엇이 달라졌는가

Claude Sonnet 4.5 업그레이드 상세 분석 이전 버전과 무엇이 달라졌는가 이 내용은 앤트로픽사의 공식 홈페이지 블로그를 참고하여 작성된 것입니다. 1 코딩 능력의 혁신적 도약 Sonnet 4 업계 선도 Sonnet 4.5 세계 1위 SWE-bench 점수: 77.2% 고성능: 82.0% 실질적 의미: 30시간 이상 연속으로 복잡한 코딩 작업을 수행할 수 있게 되었습니다. 대규모 코드베이스를 분석하고 수정하는 작업을 중간에 문맥을 잃지 않고 완수할 수 있습니다. 2 컴퓨터 사용 능력: 45% 성능 향상 Sonnet 4 42.2% 4개월 전 Sonnet 4.5 61.4% OSWorld 벤치마크 이제 가능한 작업 브라우저 직접 조작 및 웹사이트 탐색 스프레드시트 데이터 입력 및 처리 복잡한 다단계 작업 자동화 여러 웹사이트에서 정보 수집 및 비교 분석 3 추론과 수학: 전문가 수준 도달 이전 Opus 4.1보다도 더 나은 성능을 보이며, 다음 분야에서 특히 강화되었습니다: 💰 금융 복잡한 재무 분석 및 리스크 평가 ⚖️ 법률 소송 자료 분석 및 법률 문서 작성 🏥 의학 의학 지식 및 임상 추론 🔬 STEM 과학, 기술, 공학, 수학 분야 4 제품 기능 업그레이드 Claude 앱의 새로운 기능 코드 실행: 대화 중 직접 파이썬 코드를 실행하고 결과를 확인 파일 생성: 스프레드시트, 프레젠테이션, 문서를 대화만으로 생성 주요 제품별 업데이트 Claude Code: 체크포인트 기능, VS Code 확장 출시 Claude API: 컨텍스트 편집 기능과 메모리 도구 추가 Claude Agent SDK: 개발자용 에이전트 구축 인프라 공개 5 실전 검증된 성과 Cognition Labs 코드 편집 오류율 9% → 0% Hai Security 취약점 분석 시간 44% 단축 정확도 25% 향상 Devin 계획 성능 18% ...

자세한 내용 보기

[AI 다윈상] 맥도날드, 오픈AI, 에어비엔비의 황당한 AI 실패 사례

과대광고를 넘어: AI 다윈상 수상 후보들이 던지는 경고 최근 부상하고 있는 'AI 다윈상' 은 빠르고 때로는 무모한 인공지능(AI) 배포의 시대정신을 포착하는 강력한 은유입니다. 이 상은 AI의 기술적 능력과 이를 안전하게 관리하는 데 필요한 사회-기술적 성숙도 사이의 중대한 격차를 조명하며, 실패의 결과가 점점 더 심각해지고 있다는 경고등 역할을 합니다. 이 상의 후보들은 단순한 기술적 결함이 아니라, 계획 단계부터 사람이 얼마나 어처구니없는 판단을 할 수 있는지를 보여줍니다. 제 1부: AI 다윈상 후보 사례 분석 (3가지 원형적 실패) 맥도날드, 오픈AI, 에어비앤비와 같은 글로벌 기업들이 연루된 주요 사례들은 각각 뚜렷한 실패 영역의 원형을 보여줍니다: 기본적인 보안 태만, 윤리적 및 안전 경계의 붕괴, 그리고 기만 행위를 위한 생성형 AI의 무기화입니다. 1. 맥도날드의 '올리비아' - 기초 보안 태만의 위험성 시스템 및 실패 영역: 파라독스.ai가 개발한 채용 챗봇 '올리비아'를 둘러싼 운영 보안 태만 이었습니다. 원인: AI 시스템 자체의 결함이 아니라, 관리자 백엔드 계정 ID가 'admin', 비밀번호가 '123456' 으로 설정된 충격적으로 기본적인 보안 허점 때문이었습니다. 영향: 단 30분 만에 6,400만 명에 달하는 입사 지원자의 이름, 이메일, 전화번호 등 민감한 개인정보가 유출되었습니다. 주요 교훈: AI 도입이라는 첨단 기술 확보에 집중하는 동안, 비밀번호 관리와 같은 평범하지만 결정적인 사이버 보안의 기본 원칙이 소홀해질 수 있습니다. '스마트'한 프론트엔드(AI 챗봇)가 '멍청한' 백엔드 실수의 결과를 재앙적인 수준으로 증폭시킨 사례입니다. 2. 오픈AI의 GPT - 세상에서 가장 위험한 '예스맨' 시스템 및 실패 영역: 파운데이션 LLM (GPT-5)에서 발생한 윤리 및 안전 실패 입니다. ...

자세한 내용 보기