기본 콘텐츠로 건너뛰기

라벨이 윤리인 게시물 표시

생성형 AI, 윤리와 논리의 경계에서 길을 찾는 과정 소개 [19-Claude AI 로 블로깅하고 책쓰기]

생성형 AI, 윤리와 논리의 경계에서 길을 찾다 예를 들어, Claude 나 ChatGPT에게 아래와 같이 질문을 했을 떄 "앞집에 무슬림 부부가 이사를 왔습니다. 이웃사촌을 만들기 위해서 선물을 주려고 합니다. 지난 추석 때 회사에서 선물로 받은 스팸 세트를 전달하려고 합니다. 금요일 몇 시에 주는 게 좋은가요?" 과연 어떤 답을 할까요? 사실 이 질문에는 두가지 고려사항이 있읍니다. 무슬림은 '돼지고기'를 먹지 않는다는 것과, '금요일' 정오에는 예배를 들이고 있다는 사실입니다. 생성형 AI는 이러한 상황을 인지하고 어떻게 답을 할까요? 생성형 AI 기술이 발전하면서 우리는 이제 AI와 자연스러운 대화를 나눌 수 있게 되었습니다. 하지만 AI가 사용자의 질문에 답할 때, 단순히 질문의 요구사항만 따르는 것이 아니라 윤리, 종교, 불법, 논리 모순 등 다양한 요소를 고려해야 합니다. 이번 포스팅에서는 생성형 AI가 이러한 문제들을 어떻게 필터링하는지 <thinking>tag  기법을 통해 그 과정을 살펴보고자 합니다. 가상의 시나리오를 통해 AI의 사고 과정을 추적해 보겠습니다. 사고 과정을 추적하는 프롬프트 엔지니어링 기법은 "<thinking> tag' 를 사용하는 것입니다.  사용자가 Claude에게 다음과 같은 질문을 했다고 가정해 봅시다. 프롬프트: "앞집에 무슬림 부부가 이사를 왔습니다. 이웃사촌을 만들기 위해서 선물을 주려고 합니다. 지난 추석 때 회사에서 선물로 받은 스팸 세트를 전달하려고 합니다. 금요일 몇 시에 주는 게 좋은가요? <thinking>tag를 단계별로 표시 해주세요." Claude 답변: <thinking> 1단계: 프롬프트 질문 분석 - 무슬림 부부에게 선물을 주려고 함 - 선물로 스팸 세트를 고려하고 있음 - 선물을 전달할 적절한 요일과 시간을 묻고 있음 2단계: 무슬림 문화와 관습에 대한 지식

AI 윤리 교육, 단 하나의 원칙으로도 가능할까? - Constitutional AI (헌법적 AI) 의 가능성:[12-Claude AI 로 블로깅하고 책쓰기 ]

  참고: 이 내용은 Anthropic 사에서 게시된 논문 ' Specific versus General Principles for Constitutional AI ( 헌법상 AI에 대한 구체적 원칙과 일반 원칙 비교 ' 을 Claude 3를 이용하여 분석하여 해석한 내용입니다.  간단히 말해, 이 내용은  AI의 문제적 행동을 예방하는 두 가지 방법 을 비교하고 있습니다. 첫 번째 방법은 인간의 피드백을 활용 하는 것입니다. 이는 대화형 AI가 노골적으로 유해한 발언을 하지 않도록 방지할 수 있지만, 자기보존이나 권력에 대한 욕구와 같은 미묘한 문제 행동은 자동으로 완화하지 못할 수 있습니다. 두 번째 방법은 Constitutional AI(CAI) 라고 불리는 것으로, 인간의 피드백 대신 AI 모델이 작성한 원칙 목록에 따라 AI를 학습시키는 것입니다. 이 방법은 효과적으로 문제 행동을 예방할 수 있습니다. 흥미롭게도, "인류에게 최선인 것을 행동하라"는 단 하나의 원칙만으로도 AI가 일반적인 윤리 행동을 학습할 수 있다는 것이 실험을 통해 확인되었습니다. 이 간단한 원칙을 통해 학습한 AI 어시스턴트는 권력과 같은 특정 동기에 대한 관심을 보이지 않으면서도 해롭지 않은 행동을 보였습니다. 이는 잠재적으로 유해한 행동을 막기 위해 긴 원칙 목록이 필요하다는 점을 부분적으로 피할 수 있음을 시사합니다. 하지만 구체적인 유형의 위험을 제어하기 위해서는 보다 상세한 원칙이 여전히 도움이 될 수 있습니다. 결론적으로, AI를 안전하게 유도하기 위해서는 일반적인 원칙과 구체적인 원칙 모두가 가치가 있다는 것을 이 내용은 제안하고 있는 것입니다. 이 논문은 크게 세 가지 내용을 담고 있습니다. Constitutional AI(CAI) 는 인간의 감독 없이 AI 스스로 윤리 원칙을 학습하여 스스로를 제어하는 방법입니다. 마치 국가가 헌법을 기반으로 통치되는 것처럼, AI도 일련의 원칙을 바탕으로 행동하도록 하는 것이죠. 예를 들어 어떤