Skip to content

[FEAT] Upgrade RBAs for RQ1. #158

@xoxown31

Description

@xoxown31

설명

  • 현재 RBA의 로직이 지나치게 단순하여 PPO 에이전트가 경찰 사칭과 같은 정교한 기만 전략을 학습할 필요성을 느끼지 못함
  • 에이전트가 발언의 논리적 구성보다는 단순히 오래 살아남아 보상을 챙기는 '보상 브루주아' 현상이 발생하여 RQ1의 실험 목적을 저해함

해결방안

  • RBA가 각 플레이어의 과거 발언(Claim) 기록을 저장하고 일관성(Consistency)을 검증하도록 리팩터링함
  • 이전에 했던 주장과 다른 발언을 하거나 실제 경찰의 조사 결과와 충돌하는 주장을 하는 에이전트를 즉시 마피아로 간주하는 논리적 필터를 도입함

대안

  • 보상 설계의 변경만으로 기만을 유도할 수 있으나 에이전트들이 인간의 언어 체계가 아닌 자기들만의 암호(Emergent Communication)를 생성할 위험이 있음
  • RBA를 '세만틱 앵커'로 고도화하여 에이전트가 인간의 논리 체계 안에서 최적 전략을 찾도록 강제하는 방식이 더 타당함

추가사항

  • 플레이어별 상태 지도 구조를 도입하여 기존의 단순한 집합 기반 지식 관리 로직을 체계화함
  • 이번 고도화는 코드의 복잡성을 최소화하면서도 향후 진행될 RQ2 및 RQ3 확장 실험을 위한 기술적 기반을 마련함

Metadata

Metadata

Assignees

Labels

featAdd new features

Projects

No projects

Relationships

None yet

Development

No branches or pull requests

Issue actions