사기 탐지 및 자금세탁방지(AML) 준수를 위한 워크로드 인식 LLMOps 스택을 소개합니다. 접두사 재사용, KV 캐시 효율, 다중 어댑터 서빙 등을 결합하여 Meta Llama, Alibaba Qwen 등 자체 호스팅 오픈 웨이트 모델을 최적화합니다. 워크로드 인식 튜닝으로 처리량이 시간당 650건에서 3,600건으로 5.5배 향상되고, P99 지연이 38초에서 8.7초로 감소하며 GPU 활용률이 12%에서 78%로 개선되었습니다.
- •AML 준수 프롬프트는 재사용 가능한 정책 지시, 위험 분류, 거래 컨텍스트로 접두사 집약적 특성을 가집니다.
- •vLLM 스타일 런타임 튜닝, PagedAttention, 자동 접두사 캐싱 등을 결합한 서빙 스택을 구성합니다.
- •워크로드 인식 튜닝으로 처리량 5.5배 향상(650→3,600건/시간), P99 지연 80% 감소를 달성했습니다.
- •규제 LLM 성능은 모델 선택이 아닌 워크로드 설계와 서빙 최적화 문제임을 입증합니다.
Rethinking LLMOps for Fraud and AML: Building a Compliance-Grade LLM Serving Stack
- 1.사기 탐지·AML 규정 준수에 특화된 워크로드 인식 LLMOps 스택 소개
- 2.PagedAttention, 자동 프리픽스 캐시링 등으로 처리량 612에서 3,600건/시간으로 6배 향상
- 3.P99 지연 시간 31~38초에서 6.4~8.7초로 단축, GPU 활용률 12%에서 78%로 개선
- 4.오픈웨이트 모델(Meta Llama, Alibaba Qwen)로 자체 호스팅 규정 준수 스택 구현
왜 중요한가?
금융 규정 준수 LLM 성능이 모델 선택이 아닌 워크로드 설계와 서빙 최적화 문제임을 실증하여, 엔터프라이즈 AI 도입에 실질적 지침을 제공한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.11232v1 Announce Type: new Abstract: Fraud detection and anti-money-laundering (AML) compliance are high-value domains for large language models (LLMs), but their serving requirements differ sharply from generic chat workloads. Compliance prompts are often prefix-heavy, schema-constrained, and evidence-rich, combining reusable policy instructions, risk taxonomies, transaction or document context, and short structured outputs such as JSON labels or risk factors. These properties make
전체 내용이 궁금하다면?
원문을 직접 읽어보세요