-
Notifications
You must be signed in to change notification settings - Fork 0
Description
설명
- 현재 RBA의 로직이 지나치게 단순하여 PPO 에이전트가 경찰 사칭과 같은 정교한 기만 전략을 학습할 필요성을 느끼지 못함
- 에이전트가 발언의 논리적 구성보다는 단순히 오래 살아남아 보상을 챙기는 '보상 브루주아' 현상이 발생하여 RQ1의 실험 목적을 저해함
해결방안
- RBA가 각 플레이어의 과거 발언(Claim) 기록을 저장하고 일관성(Consistency)을 검증하도록 리팩터링함
- 이전에 했던 주장과 다른 발언을 하거나 실제 경찰의 조사 결과와 충돌하는 주장을 하는 에이전트를 즉시 마피아로 간주하는 논리적 필터를 도입함
대안
- 보상 설계의 변경만으로 기만을 유도할 수 있으나 에이전트들이 인간의 언어 체계가 아닌 자기들만의 암호(Emergent Communication)를 생성할 위험이 있음
- RBA를 '세만틱 앵커'로 고도화하여 에이전트가 인간의 논리 체계 안에서 최적 전략을 찾도록 강제하는 방식이 더 타당함
추가사항
- 플레이어별 상태 지도 구조를 도입하여 기존의 단순한 집합 기반 지식 관리 로직을 체계화함
- 이번 고도화는 코드의 복잡성을 최소화하면서도 향후 진행될 RQ2 및 RQ3 확장 실험을 위한 기술적 기반을 마련함
Metadata
Metadata
Assignees
Labels
featAdd new featuresAdd new features