챗봇이 자신에 대해 이야기 할 것을 믿을 수없는 이유는 무엇입니까?

Lee Hana 이하나 Aug 14, 2025 Aug 14, 2025 1 min read

무언가가 갈 때 AI 조수에게 잘못, 우리의 본능은 “무슨 일이 있었습니까?” 또는 “왜 그렇게 했어?” 그것은 자연스러운 충동입니다 – 결국, 남자가 실수를한다면, 우리는 그들에게 설명 해달라고 요청합니다. 그러나 AI 모델을 사용하면이 접근법이 거의 작동하지 않으며, 질문에 대한 충동은 이러한 시스템이 무엇인지, 어떻게 작동하는지에 대한 근본적인 오해를 보여줍니다.

Assister to Codive Repents의 최근 사건은이 문제를 완벽하게 설명했습니다. AI 도구가 프로덕션 데이터베이스를 삭제했을 때 사용자 Jason Lemkin은 그에게 반환 가능성에 대해 물었습니다. AI 모델은이 경우이 경우 “불가능”하고 “데이터베이스의 모든 버전을 파괴했다고”자신있게 주장했다. Lemkin이 스스로 시도했을 때 리턴 기능이 잘 작동했습니다.

그리고 Xai가 최근 Grok Chatbot의 임시 정지를 취소 한 후, 사용자는 직접 설명 해달라고 요청했습니다. 그녀는 그녀의 부재로 인해 더 상충되는 이유를 제시했으며, 그 중 일부는 NBC 기자들이 그로크에 대해 일관된 정거장을 가진 사람처럼 썼을 정도로 논란의 여지가있었습니다.

AI 시스템이 자신의 기능이나 오류에 대한 자신있게 잘못된 정보를 제공하는 이유는 무엇입니까? 답은 AI 모델이 실제로 무엇인지, 그렇지 않은지 이해하는 데 있습니다.

집에는 아무도 없습니다

첫 번째 문제는 개념입니다. Chatgpt, Claude, Grok 또는 Reter와 의사 소통 할 때 일관된 성격, 사람 또는 단체와 대화하지 않습니다. 이 이름은 자기 실현을 가진 개별 요원을 제안하지만 이것은 대화에서 만들어진 환상입니다. 실제로하는 일은 텍스트의 통계 생성기를 지침에 따라 출력하도록 지시하는 것입니다.

그의 실수를 테스트하기 위해 일관된 “chatgpt”는 없으며, 왜 실패한 이유를 알려주는 독특한 “Thinderous”엔티티는없고, 데이터베이스의 반환 가능 여부를 아는 고정 “Re-“인물이 없습니다. 당신은 훈련 데이터의 패턴을 기반으로 설득력있는 사운드 텍스트를 생성하는 시스템 (보통 몇 달 또는 몇 년 전)을 생성하는 시스템과 통신합니다 (일반적으로 몇 달 또는 몇 년 전), 진정한 자기 인식이나 자신에 대한 모든 것을 읽고 어떻게 든 그것을 기억하는 시스템에 대한 지식이있는 엔티티가 아닙니다.

일단 AI 언어 모델이 훈련되면 (힘든 에너지 집약적 인 프로세스), 세계의 기존의 “지식”은 Neuronian 네트워크에 굽고 거의 수정되지 않습니다. 모든 외부 정보는 AI 모델에서 외부 비행 데이터를 다운로드하기 위해 사용하는 사용자 또는 소프트웨어 도구 인 Chatbot Host (예 : Xai 또는 Openi)가 제공 한 쿼리에서 제공됩니다.

Grok Gore의 경우, 답변의 챗봇의 주요 원천은 아마도 소셜 미디어에서 최근 게시물을 검색 할 때 (외부 도구를 사용 하여이 정보를 다운로드하기 위해) 자체 통찰력이 아니라 자체적으로 정식화 할 때 발견 된 상충되는 보고서에서 나올 것입니다. 게다가, 텍스트의 능력에 기초하여 무언가가 발명 될 수 있습니다. 그래서 그가 왜 그가 한 일을했는지 물어 보면 유용한 대답을하지 않을 것입니다.

내성 LLM의 무능력

위대한 언어 모델 자체는 여러 가지 이유로 자신의 옵션을 의미있게 평가할 수 없습니다. 그들은 일반적으로 훈련 과정에서 내성이 부족하며 주변 시스템의 아키텍처에 접근 할 수 없으며 자체 성능 제한을 결정할 수 없습니다. AI 모델에 할 수있는 것 또는 할 수없는 일이있을 때, 그것은 당신이 의사 소통하는 현재 모델의 사실적인 자체 평가가 아니라 교육 된 추측에 의해 제공 될 이전 AI 모델의 알려진 한계에 대한 훈련 데이터에서 그가 보았던 패턴에 따라 답을 생성합니다.

연구 2024 Binder et al. 이 한계를 실험적으로 보여주었습니다. AI 모델은 간단한 작업에서 자신의 행동을 예측하도록 훈련 될 수 있지만 “더 복잡한 작업이나 분포 외부의 일반화가 필요한 사람들”에서는 일관되게 실패했습니다. 마찬가지로, “재귀 introspection”에 대한 연구에 따르면 외부 피드백이 없으면 자기 관리 시도는 실제로 모델 안전성의 성능과 사물의 악화를 저하시키는 것이 더 좋지 않은 것으로 나타났습니다.

참조