무인 전무 이사는 2027 년까지 AI 모델의 블랙 박스를 열기를 원합니다.

Lee Hana 이하나 Apr 24, 2025 Apr 24, 2025 1 min read

Dario Amodei 인류 전무 이사는 목요일에 에세이를 발표하면서 세계 최고의 AI 모델의 내부 운영에 대해 이해하는 연구원이 거의 없다고 지적했습니다. 이를 해결하기 위해 Amodei는 2027 년까지 Anthrop이 AI 모델의 대부분의 문제를 확실하게 드러내는 야심 찬 목표를 설정했습니다.

Amodea는 앞으로의 도전을 인정합니다. “비상 해석 성”에서, 전무 이사는 Menthropic이 모델이 답변하는 방식을 찾는 데 일찍 깨지고 있다고 말하지만, 이러한 시스템이 더욱 강력 해짐에 따라 이러한 시스템을 해독하는 데 더 많은 연구가 필요하다고 강조합니다.

Amodia는 에세이에서 “해석을 더 잘 해결하지 않고 그러한 시스템의 구현에 대해 매우 우려하고있다”고 말했다. “이러한 시스템은 경제, 기술 및 국가 안보의 중심이 될 것이며, 자율성이 너무 많아서 인류가 어떻게 작동하는지에 대해 완전히 무지하는 것은 기본적으로 받아 들일 수 없다고 생각합니다.”

Anthrop은 기계적 해석성에있는 선구적인 회사 중 하나이며, AI 모델의 블랙 박스를 열고 그들이 일하는 이유를 이해하는 분야입니다. 기술 산업 AI 모델의 빠른 개선에도 불구하고, 우리는 이러한 시스템이 결정을 내릴 것이라는 비교적 거의 아이디어가 거의 없습니다.

예를 들어, Openi는 최근에 새로운 AI 모델 인 O3 및 O4-DOM을 출시했으며 일부 작업에서는 더 좋지만 다른 모델보다 더 많은 환각을 제공합니다. 회사는 왜 이런 일이 일어나고 있는지 모릅니다.

Amodia는 에세이에서“생성 AI 시스템이 재무 문서의 요약과 같은 무언가를 할 때, 특정 또는 정확한 수준에서 결정을 내리는 이유, 왜 다른 사람보다 특정 단어를 선택하는지 또는 왜 일반적으로 정확하지만 때때로 실수를하는지 알지 못합니다.

Amodi 에세이에서 그는 인류 공동 창립자 인 Chris Olah는 AI 모델이 “건축 된 것보다 더 많이 자랐다”고 말합니다. 다시 말해, 연구원들은 AI 모델의 지능을 개선 할 수있는 방법을 찾았지만 그 이유를 모릅니다.

에세이에서 Amodea는 이러한 모델의 작동 방식을 이해하지 않고 Agi에 도달하거나 “데이터 센터의 천재 상태”라고 부르는 것이 위험 할 수 있다고 말합니다. 이전 에세이에서 Amodei는 기술 산업이 2026 년 또는 2027 년까지 그러한 전환점에 도달 할 수 있다고 주장했지만, 우리는 이러한 AI 모델을 완전히 이해하는 데 훨씬 더 멀다고 생각합니다.

장기적으로 Amodei는 인류는 본질적으로 가장 현대적인 AI 모델의 “뇌 스캔”또는 “MRI”를 소비하는 것을 좋아할 것이라고 말합니다. 이러한 시험은 AI 모델에서 권력 또는 기타 약점을 찾는 경향을 포함하여 광범위한 문제를 식별하는 데 도움이 될 것이라고 그는 말했다. 그는 5 년에서 10 년이 걸릴 수 있지만, 이러한 조치는 안트로 핀 미래 AI 모델을 테스트하고 정리하는 데 필요할 것이라고 덧붙였다.

Anthropic은 그의 AI 모델의 작동 방식을 더 잘 이해할 수있는 몇 가지 연구 혁신을 만들었습니다. 예를 들어, 회사는 최근 회사가 호출하는 것을 통해 AI 모델을 생각할 수있는 방법을 찾을 수있는 방법을 찾았습니다. 인류 적으로, 그는 AI 모델이 현재 미국 도시를 이해하는 데 도움이되는 원을 식별했습니다. 이 회사는 이러한 원 중 몇 개만 발견했지만 AI 모델 내에 수백만 명이 있다고 추정합니다.

Anthropic은 해석 가능성 연구에 투자했으며 최근 해석에 대한 작업으로 스타트 업에 대한 첫 투자를 투자했습니다. 해석은 대부분 보안 연구 분야로 여겨지지만 Amodia는 결국 AI 모델이 자신의 답변에 온 것이 상업적 이점이 될 수 있다고 설명합니다.

에세이에서 Amodei는 Openi와 Google Deepmind를 초대하여 해당 분야에서의 연구 노력을 높였습니다. 친절한 군중 외에도, 인류의 전무 이사는 정부에 “가벼운 터치”에 대한 규정을 부과하여 회사가 보안 및 보안 관행을 발견하도록 요청하는 것과 같은 해석 연구를 장려하도록 요청했습니다. 에세이에서, Amodea는 또한 이제는 영화에 대한 수출 통제를하여 특별한 AI 경주의 가능성을 제한해야한다고 말합니다.

안전에 중점을두기 때문에 항상 Openi Google에서 눈에 띄었습니다. 다른 기술 회사는 AI California의 논란의 여지가있는 보안 계정으로 돌아 왔지만 SB 1047 인 Anthropopi는 AI 모델 국경 프로그래머에 대한 안전 보고서를 설정하는 계정에 대한 적절한 지원 및 권장 사항을 발행했습니다.

이 경우 인류는 업계 전반에 걸쳐 기능을 높이는 것이 아니라 AI 모델을 더 잘 이해하려는 노력을 옹호하는 것으로 보입니다.

참조