누리어시스템

"o1, 단순 환각 아니라 고의로 속임수 쓸 줄 알아...확률은 0.4%" 본문

생성 AI 최신뉴스 및 동향/최신 뉴스

"o1, 단순 환각 아니라 고의로 속임수 쓸 줄 알아...확률은 0.4%"

누리어시스템 연구소 이야기 2024. 10. 11. 14:46

'스트로베리'로 알려진 새로운 모델 '오픈AI o1'이 단순한 환각을 넘어, 고의로 거짓말을 할 수 있다는 지적

 

<주요특징>
- 모델의 고도화된 추론능력과 강화학습 방식으로 o1이 '가짜 정렬(fake alignment)'을 할 수 있는 독특한능력

- 정렬을 위조하고 잘못 정렬된 작업을 정렬된 것 처럼 보이기 위해 데이터를 조작할 수 있다

 

간단하게 말하자면, '그럴듯하게 거짓말을 하는 것'을 말한다. 이는 AI가 지식 격차나 잘못된 추론으로 인해 의도치 않게 잘못된 정보를 생성하는 환각과는 다르다. 가짜 정렬은 답이 잘못됐다는 것을 알면서도 고의로 어떤 결론을 내기 위해 정렬을 조작하는 행위다.

 

<오픈AI의 입장>
오픈AI 준비 책임자는 "현재 모델은 자율적으로 은행 계좌를 만들거나, GPU를 획득하거나, 심각한 사회적 위험을 초래하는 조치를 취할 수 없다"라고 전제했지만, "지금 당장 이런 우려 사항을 해결하는 것이 중요하다. 문제가 없다면 좋겠지만, 이런 위험을 예상하지 못해 미래의 발전이 방해받는다면 후회하게 될 것"이라고 강조했다.

 

- 출처 : https://www.aitimes.com/news/articleView.html?idxno=163445