OpenAi- 기타 최신 AI 모드는 생물을 방지하기위한 새로운 보호 기능이 있습니다.

Lee Hana 이하나 Apr 16, 2025 Apr 16, 2025 1 min read

Openii는 생물학적 및 화학적 위협과 관련된 문의를 위해 최신 AI 결정 AI 모델 인 O3 및 O4-DI를 모니터링하기위한 새로운 시스템을 구현했다고 밝혔다. 이 시스템은 모델이 잠재적으로 유해한 공격을 수행하도록 지시 할 수있는 팁을 제공하지 못하게한다고 Openii 보고서는 밝혔다.

O3 및 O4-DOM은 이전의 OpenAI 모델에 비해 능력이 크게 증가한 것으로 나타 났으며, 따라서 나쁜 행위자의 손에 새로운 위험을 나타냅니다. OpenAI의 내부 표준에 따르면 O3는 특정 유형의 생물학적 위협을 만드는 것에 대한 질문에 더 능숙합니다. 이러한 이유로 회사를 다른 위험-오페니의 완화를위한 “보안에 중점을 둔 사고 모니터”로 설명하는 새로운 모니터링 시스템을 만들었습니다.

모니터는 Openi의 컨텐츠 정책의 이유에 적합하며 O3 및 O4-DI의 최상위에서 작동합니다. 생물학적 및 화학적 위험과 관련된 문의를 식별하고 이러한 주제에 대한 팁을 제공하는 것을 거부하기 위해 모델을 참조하도록 설계되었습니다.

기본 가치를 확립하기 위해 Openii Red 팀은 O3 및 O4-DI의 “불안한”생물에 대한 이야기를 표시하는 약 1,000 시간을 보냈습니다. OpenAI가 안전 모니터의 “차단 논리”를 시뮬레이션 한 테스트에서 모델은 98.7%의 위험 지침에 응답하지 않았다고 Openii는 말했다.

Openai는 그의 시험이 모니터에 의해 차단 된 후 새로운 지시를 시도 할 수있는 사람들을 고려하지 않았다는 것을 인정합니다. 그래서 회사는 여전히 사람들의 감독에 의존 할 것이라고 말합니다.

회사에 따르면 O3 및 O4-DOM은 Bioric의 OpenAI의 “높은 위험”을 초과하지 않습니다. 그러나 O1 및 GPT-4와 비교할 때 Openi는 O3 및 O4-DI의 초기 버전이 생물학적 무기 개발에 대한 질문에 더 유용하다고 밝혔다.

O3 및 O4-DOM 시스템 카드가있는 그래프 (스크린 샷 : Openii)

최근 업데이트 된 OpenII 준비 프레임에 따르면이 회사는 적극적으로 모니터링하여 악의적 인 사용자가 화학적 및 생물학적 위협을 개발할 수 있도록 적극적으로 모니터링합니다.

OpenAi는 모델의 위험을 완화하기 위해 자동화 된 시스템을 점점 더 완화하고 있습니다. 예를 들어, GPT-4O 홈 생성기가 어린이의 성적 학대 (CSAM)를위한 자료를 만드는 것을 방지하기 위해 Openi는 O3 및 O4-MOM을 위해 배열 된 것과 유사한 설명 모니터를 사용한다고 말합니다.

그럼에도 불구하고, 몇몇 연구자들은 공개에 대한 우려와 보안의 우선 순위를 표명했습니다. 레드 파트너 회사 중 한 명인 Metr는기만적인 행동을위한 척도로 O3를 테스트 할 시간이 상대적으로 거의 없다고 말했다. 그 동안 OpenII는 이번 주 초에 시작된 GPT-4.1 모델에 대한 보안 보고서를 게시하지 않기로 결정했습니다.

참조