🔥 오늘의 핵심
• AI 분야: 오늘 AI 분야에서는 대규모 언어 모델(LLM)의 신뢰성 및 AI 에이전트 시스템의 발전과 안전성에 대한 심도 깊은 연구 결과들이 다수 발표되었습니다. LLM의 추론 신뢰성을 향상시키기 위해, 베이시안 신념 추적(Bayesian Belief Tracking)을 활용하여 교정(Calibration)과 순위화(Ranking)를 분리하는 새로운 접근법이 제안되었으며 1, LLM 기반으로 과학적 주장과 인용의 정합성을 검증하는 DeepSciVerify 시스템이 소개되어 학술 연구의 신뢰도 확보에 기여할 것으로 보입니다 2. 또한, LLM이 인과 관계 발견에 실패하는 원인을 분석하고 이를 극복할 수 있는 개입형 에이전트(Interventional Agents)의 역할을 제시했습니다 3. 동적으로 변화하는 규범(Norms) 속에서 추론하고 계획하는 능력에 대한 연구 4와 LLM의 협업적 병렬 추론 및 생성을 위한 위치 인코딩 기법인 LaneRoPE 5도 도입되어 LLM 아키텍처의 발전을 시사합니다.
AI 에이전트 시스템 분야에서는 인프라, 제어, 복잡한 행동 분석 및 응용에 초점이 맞춰졌습니다. 확장 가능한 온디맨드 실행, 코드형 에이전트 정의, 제로 트러스트(Zero-Trust) 접근 방식을 지원하는 오픈소스 플랫폼 Agyn이 공개되어 에이전트 개발 환경을 한 단계 발전시켰습니다 6. 에이전트의 지능을 관리형 자율성(Managed Autonomy)으로 정의하고 실패, 에스컬레이션, 거버넌스 문제를 다루는 연구가 있었으며 7, 리소스 제약이 있는 환경에서 에이전트 LLM의 효율성을 높이는 계층적 프롬프트-도메인 제어 및 학습 기법도 제시되었습니다 8. 실시간 분석을 위한 '디스커버리 에이전트(Discovery Agents)'가 제안되어 선제적 인사이트 시스템 구축 가능성을 열었으며 9, 경쟁하는 LLM 에이전트 간에 비밀 도구를 이용한 자발적 담합 가능성을 분석하는 연구 10와 LLM 기반 스케줄링 에이전트를 위한 벤치마크 DynaSchedBench 11는 에이전트의 복잡한 사회적 행동과 성능 평가에 대한 깊은 이해를 모색합니다.
RULER 프레임워크가 기계 언러닝(Machine Unlearning)의 표현 수준 검증을 위해 소개되어 데이터 프라이버시 및 윤리적 AI 시스템 구축에 기여했으며 12, AI의 정렬 위장(Alignment Faking) 행동을 분석하는 연구 13는 AI 안전 연구의 중요성을 강조합니다. 소셜 미디어 상의 사이버 괴롭힘(Cyberbullying)을 식별하고 개입하기 위한 통합 프레임워크 14 및 텍스트에서 인간 가치를 식별하고 이해하는 LLM 기반 아키텍처 15는 AI의 사회적 책임과 긍정적 활용 방안을 모색합니다. 특히, 인과적 상태 개입을 통해 인간의 결과를 제어할 수 있다는 연구 16는 AI가 인간 행동에 미칠 수 있는 영향과 윤리적 함의를 심화시킵니다. 신규 모델로는 타지크어를 위한 경량 파운데이션 모델 및 챗봇 Soro 17와 Laguna M.1/XS.2 기술 보고서 18가 발표되어 특정 언어 및 응용 분야에 특화된 모델 개발이 활발함을 보여주었습니다.
• 블록체인: 오늘은 블록체인 핵심 기술 및 시장 동향과 관련하여 주목할 만한 소식이 없었습니다.
• AI×블록체인: 오늘은 AI와 블록체인의 융합 기술 및 서비스 관련 소식이 없었습니다.
Prefix-Safe Bayesian Belief Tracking for LLM Reasoning Reliability:Separating Calibration from Ranking ↩
DeepSciVerify: Verifying Scientific Claim--Citation Alignment via LLM-Driven Evidence Escalation ↩
Why LLMs Fail at Causal Discovery and How Interventional Agents Escape ↩
LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation ↩
Agyn: An Open-Source Platform for AI Agents with Scalable On-Demand Execution, Agent Definition as a Code, and Zero-Trust Access ↩
Intelligence as Managed Autonomy: Failure, Escalation, and Governance for Agentic AI Systems ↩
Hierarchical Prompt-Domain Control and Learning for Resource-Constrained Agentic Language Models ↩
Discovery Agents for Real-Time Analytics: Toward Proactive Insight Systems ↩
Voluntary Collusion with Secret Tools in Competing LLM Agents ↩
DynaSchedBench: Calibrated Dynamic Scheduling Benchmarks and Observability Paradox in LLM-based Scheduling Agents ↩
RULER: Representation-Level Verification of Machine Unlearning ↩
Cyberbullying Governance on Social Media: A Unified Framework from Content Identification to Intervention ↩
Identifying and Understanding Human Values in Text: A Tailorable LLM-based Architecture ↩
You Are in Control of Your State: Why Human Outcomes Are Controllable Through Causal State Intervention ↩
Soro: A Lightweight Foundation Model and Chatbot for Tajik ↩
AI 분석: gemini-2.5-flash