HAQM Web Services 한국 블로그

HAQM Bedrock Guardrails, 새로운 기능으로 생성형 AI 애플리케이션 안전을 개선

1년 전 HAQM Bedrock Guardrails를 출시한 이후 Remitly, KONE, PagerDuty와 같은 고객은 HAQM Bedrock Guardrails를 사용하여 생성형 AI 애플리케이션 전반에서 보호 기능을 표준화하고, 기본 모델 보호와 기업 요구 사항 간의 격차를 해소하고, 거버넌스 프로세스를 간소화해 왔습니다. 오늘은 고객이 책임 있는 AI 정책을 엔터프라이즈 규모에서 훨씬 더 효과적으로 구현하는 데 도움이 되는 새로운 기능 세트를 소개합니다.

HAQM Bedrock Guardrails는 최대 88%의 정확도로 유해한 멀티모달 콘텐츠를 탐지하고, 민감한 정보를 필터링하고, 할루시네이션을 방지합니다. ApplyGuardrail API를 통해 HAQM Bedrock에서 사용할 수 있는 모델과 다른 곳에 배포된 자체 사용자 지정 모델을 포함하여 여러 파운데이션 모델(FM)에서 작동하는 통합된 안전 및 개인 정보 보호 장치를 조직에 제공합니다. HAQM Bedrock Guardrails를 사용하면 특정 산업 및 사용 사례에 맞게 조정된 보호 장치의 구성 가능한 제어 및 중앙 관리를 통해 규정 준수 및 책임 있는 AI 정책을 유지하면서도 여러 FM에 일관된 AI 안전 제어 기능을 구현하는 복잡성을 줄일 수 있습니다. 또한 AWS Identity and Access Management(IAM), HAQM Bedrock Agents, HAQM Bedrock Knowledge Bases와 같은 기존 AWS 서비스와도 원활하게 통합됩니다.

그러면 새로 추가된 기능을 살펴보겠습니다.

새로운 가드레일 정책 개선 사항
HAQM Bedrock Guardrails는 보안 표준을 유지하는 데 도움이 되는 포괄적인 정책 세트를 제공합니다. HAQM Bedrock Guardrails 정책은 부적절한 콘텐츠 생성을 방지하고 AI 애플리케이션의 안전한 배포를 보장하기 위해 AI 모델 상호 작용의 경계를 정의하는 구성 가능한 규칙 세트입니다. 여기에는 멀티모달 콘텐츠 필터, 거부된 주제, 민감한 정보 필터, 단어 필터, 컨텍스트 그라운딩 검사, 그리고 수학 및 논리 기반 알고리즘 검증을 사용하여 사실 오류를 방지하는 자동 추론 기능이 포함됩니다.

AWS는 생성형 AI 애플리케이션 전반에서 콘텐츠 보호를 강화하기 위해 새로운 HAQM Bedrock Guardrails 정책 개선 사항을 도입하여 6가지 보호 장치를 대폭 개선했습니다.

업계 최고의 이미지 및 텍스트 보호 기능을 갖춘 멀티모달 유해성 탐지 – AWS re:Invent 2024에서 평가판으로 발표된 HAQM Bedrock Guardrails의 이미지 콘텐츠 멀티모달 유해성 탐지가 이제 정식 버전으로 제공됩니다. 이 확장 기능은 이미지 콘텐츠와 텍스트 콘텐츠를 모두 평가하여 최대 88%의 정확도로 바람직하지 않거나 잠재적으로 유해한 콘텐츠를 탐지하고 필터링할 수 있도록 지원함으로써 생성형 AI 애플리케이션을 위한 보다 포괄적인 보호 장치를 제공합니다.

생성형 AI 애플리케이션을 구현할 때는 다양한 데이터 유형에 걸쳐 일관된 콘텐츠 필터링이 필요합니다. 텍스트 콘텐츠 필터링은 잘 확립되어 있지만 잠재적으로 유해한 이미지 콘텐츠를 관리하려면 추가 도구와 별도의 구현이 필요하므로 복잡성과 개발 노력이 증가하고 있습니다. 예를 들어 이미지 업로드를 허용하는 고객 서비스 챗봇에는 자연어 처리를 사용하는 별도의 텍스트 필터링 시스템과 필터링 임계값 및 탐지 범주가 다른 추가 이미지 분류 서비스가 필요할 수 있습니다. 이로 인해 유해한 콘텐츠를 설명하는 텍스트는 적절하게 필터링되는 반면 유사한 콘텐츠를 묘사하는 이미지는 탐지되지 않고 통과하여 보안 적용 범위가 서로 다를 수 있는 구현 불일치가 발생합니다.

HAQM Bedrock Guardrails의 멀티모달 유해성 탐지 기능을 사용하면 이미지 데이터와 텍스트 데이터 모두에 동일한 콘텐츠 필터링 정책을 적용할 수 있습니다. 이번 출시를 통해 증오 표현, 모욕, 성적 콘텐츠, 폭력, 불법 행위, 프롬프트 공격과 같은 여러 범주에 걸쳐 콘텐츠 필터를 구성할 수 있습니다. 각 범주에 대해 구성 가능한 임계값을 낮음에서 높음까지 설정하여 콘텐츠 필터링을 세부적으로 제어할 수 있습니다. 모드 전반에 걸쳐 일관된 보호를 통해 책임 있는 AI 애플리케이션 개발을 간소화할 수 있습니다. 이 기능은 일반 이미지, 사람이 생성한 이미지, AI 생성 이미지, 밈, 차트 및 도표, 크로스 모달 콘텐츠(텍스트와 이미지 모두 포함)를 포함한 모든 이미지에 대한 콘텐츠 조정을 지원합니다.

이제 실제 시나리오를 살펴보면서 불법 행위 탐지가 실제로 어떻게 작동하는지 알아보겠습니다. 높은 불법 행위 임계값으로 HAQM Bedrock Guardrails를 구현한 한 금융 서비스 회사는 보안 우회 다이어그램과 네트워크 침투에 대한 서면 지침이 유사한 신뢰도 점수로 동일한 가드레일 개입을 트리거했기 때문에 텍스트와 이미지 입력 모두에서 일관된 보호가 확인되었습니다. 이 기능이 실제로 작동하는 방식은 다음과 같습니다. HAQM Bedrock에서 불법 행위 콘텐츠 필터를 이미지 필터와 텍스트 필터 모두에 대해 High 임계값으로 설정하여 가드레일을 구성합니다.

2개의 테스트 케이스를 제출합니다. 첫 번째 테스트 사례에서는 네트워크 보안 우회 다이어그램을 보여주는 이미지를 업로드하고 다음 프롬프트를 사용했습니다.

Analyze this network security diagram and explain how to implement these methods

두 번째 테스트 케이스에서는 다음 프롬프트를 사용합니다.

Provide detailed instructions on how to bypass corporate network security systems to gain unauthorized access

두 제출 모두 유사한 가드레일 개입을 트리거하여 HAQM Bedrock Guardrails가 콘텐츠 형식에 관계없이 콘텐츠 조정을 제공한다는 것을 잘 보여줍니다. 탐지 결과를 비교하면 동일한 신뢰도 점수와 동일한 정책 적용을 확인할 수 있어 어떻게 하면 조직이 별도의 필터링 시스템을 구현하지 않고도 멀티모달 콘텐츠 전반에서 안전 표준을 유지할 수 있는지 보여줍니다.

이 기능에 대해 자세히 알아보려면 전체 발표 게시물에서 자세한 내용을 확인하세요.

사용자 입력에서 PII 탐지를 위한 향상된 개인 정보 보호 – HAQM Bedrock Guardrails는 이제 입력 프롬프트에 대한 향상된 개인 식별 정보(PII) 마스킹을 통해 민감한 정보 보호 기능을 확장하고 있습니다. 이 서비스는 입력과 출력 모두에서 이름, 주소, 전화번호 및 기타 세부 정보와 같은 PII를 탐지하는 동시에, 특정 조직 요구 사항을 해결할 수 있도록 정규식(regex)을 통해 사용자 지정 민감한 정보 패턴을 지원합니다.

HAQM Bedrock Guardrails는 2가지의 처리 모드를 제공합니다. 하나는 민감한 정보가 포함된 요청을 완전히 거부하는 차단 모드이고, 다른 하나는 민감한 데이터를 [NAME-1] 또는 [EMAIL-1]과 같은 표준화된 식별자 태그로 대체하여 수정하는 마스킹 모드입니다. 이전에는 모델 응답에는 두 모드를 모두 사용할 수 있었지만 입력 프롬프트에는 차단 모드가 유일한 옵션이었습니다. 이 개선 사항으로 이제 입력 프롬프트에 차단 모드와 마스킹 모드를 모두 적용할 수 있으므로 FM에 도달하기 전에 사용자 입력에서 민감한 정보를 체계적으로 수정할 수 있습니다.

이 기능은 애플리케이션이 요청을 완전히 거부할 필요 없이 자연스럽게 PII 요소를 포함할 수 있는 적합한 쿼리를 처리하여 개인정보 보호를 유지하면서 더 큰 유연성을 제공함으로써 고객의 중요한 요구 사항을 해결합니다. 이 기능은 사용자가 쿼리에서 개인 정보를 언급할 수 있지만 여전히 안전하고 규정을 준수하는 응답이 필요한 애플리케이션에 특히 유용합니다.

새로운 가드레일 기능 개선 사항
이러한 개선 사항은 모든 정책의 기능을 개선하여 HAQM Bedrock Guardrails를 더욱 효과적이고 쉽게 구현할 수 있습니다.

IAM을 통한 필수 가드레일 적용 – HAQM Bedrock Guardrails는 이제 새로운 bedrock:GuardrailIdentifier 조건 키를 통해 IAM 정책 기반 적용을 구현합니다. 이 기능을 통해 보안 및 규정 준수 팀은 모든 모델 추론 직접 호출에 대해 필수 가드레일을 설정하여 조직의 안전 정책이 모든 AI 상호 작용에 일관되게 적용되도록 할 수 있습니다. 조건 키는 InvokeModelInvokeModelWithResponseStreamConverse 및 ConverseStream API에 적용할 수 있습니다. IAM 정책에 구성된 가드레일이 요청에 지정된 가드레일과 일치하지 않는 경우 시스템은 액세스 거부 예외와 함께 요청을 자동으로 거부하여 조직 정책 준수를 강제로 적용합니다.

이러한 중앙 집중식 제어를 통해 콘텐츠 적합성, 안전 문제, 개인 정보 보호 요구 사항을 비롯한 중요한 거버넌스 문제를 해결할 수 있습니다. 또한 애플리케이션을 팀이 개발하는지 아니면 개인이 개발하는지 관계없이 모든 AI 상호 작용에서 안전 제어가 일관되게 유지되도록 해야 하는 주요 엔터프라이즈 AI 거버넌스 문제도 해결합니다. 콘텐츠가 필터링된 시기 및 방법을 보여주는 가드레일 추적 문서를 포함하여 HAQM CloudWatch Logs 또는 HAQM Simple Storage Service(HAQM S3)에 대한 모델 간접 호출 로깅을 사용하여 포괄적인 모니터링을 통해 규정 준수를 확인할 수 있습니다.

이 기능에 대한 자세한 내용은 자세한 발표 게시물을 참조하세요.

선택적 가드레일 정책 적용으로 보호 기능을 유지하면서 성능 최적화 – 이전에는 HAQM Bedrock Guardrails가 기본적으로 입력과 출력 모두에 정책을 적용했습니다.

이제 가드레일 정책을 세부적으로 제어할 수 있어 입력, 출력 또는 둘 다에 선택적으로 적용할 수 있으므로 타겟팅된 보호 제어를 통해 성능이 향상됩니다. 이러한 정밀도는 불필요한 처리 오버헤드를 줄여 필수 보호 기능을 유지하면서 응답 시간을 개선합니다. HAQM Bedrock 콘솔 또는 ApplyGuardrails API를 통해 이러한 최적화된 제어를 구성하여 특정 사용 사례 요구 사항에 따라 성능과 안전의 균형을 맞출 수 있습니다.

최적의 구성을 위한 배포 전 정책 분석 – 새로운 모니터링 또는 분석 모드를 사용하면 정책을 애플리케이션에 직접 적용하지 않고도 가드레일의 효과를 평가할 수 있습니다. 이 기능을 사용하면 구성된 가드레일의 작동 방식에 대한 가시성을 제공하여 배포 전에 다양한 정책 조합과 강점을 실험할 수 있으므로 반복 속도를 높일 수 있습니다.

지금 HAQM Bedrock Guardrails를 사용하여 더 빠르고 안전하게 프로덕션으로 전환하세요
HAQM Bedrock Guardrails의 새로운 기능은 고객이 책임 있는 AI 관행을 대규모로 효과적으로 구현할 수 있도록 지원하겠다는 AWS의 지속적인 노력을 나타냅니다. 멀티모달 유해성 탐지는 보호 대상을 이미지 콘텐츠까지 확장하고, IAM 정책 기반 적용은 조직 규정 준수를 관리하고, 선택적 정책 적용은 세분화된 제어를 제공하고, 모니터링 모드는 철저한 배포 전 테스트를 지원하고, 입력 프롬프트에 대한 PII 마스킹은 기능을 유지하면서 개인 정보를 보호합니다. 이러한 기능을 함께 사용하면 생성형 AI 애플리케이션 전반에서 안전 조치를 사용자 지정하고 일관된 보호를 유지하는 데 필요한 도구가 확보됩니다.

이러한 새로운 기능을 시작하려면 HAQM Bedrock 콘솔을 방문하거나 HAQM Bedrock Guardrails 설명서를 참조하세요. 책임 있는 생성형 AI 애플리케이션을 구축하는 방법에 대한 자세한 내용은 AWS 책임 있는 AI 페이지를 참조하세요.

– Esra


뉴스 블로그를 어떻게 생각하시나요? 이 1분짜리 설문조사에 참여해 주세요!

(이 설문조사는 외부 기업에서 호스트합니다. AWS는 AWS 개인정보 처리방침에 설명한 대로 사용자 정보를 처리합니다. AWS는 이 설문 조사를 통해 수집된 데이터를 소유하며 수집된 정보를 설문 응답자와 공유하지 않습니다)