基本架构问题

在设计反洗钱交易监控系统时，最关键的架构决策之一是实时处理交易还是批量处理交易。这种选择会影响系统的各个方面：基础设施成本、检测功能、操作工作流程和监管合规状况。

传统方法是批处理：全天收集交易，过夜运行检测算法，并在第二天早上向分析师发出警报。但随着技术的发展和洗钱计划变得更加复杂，实时监控变得越来越有吸引力。问题不再是实时监控是否可行，而是它是否是满足您的特定要求的正确选择。

关键见解

实时与批量决策不是二元的。大多数复杂的 AML 系统都使用混合方法，实时处理某些场景，同时对其他场景进行批处理。艺术在于知道哪些交易需要立即关注，哪些交易可以等待。

了解批处理

批处理按计划的时间间隔（通常是每天，但有时每小时或每周分析交易），具体取决于具体情况。这种方法几十年来一直主导着反洗钱系统，并且有充分的理由：

批处理的优点

完整的数据访问：批处理系统可以一起分析一整天的交易，检测整个数据集中出现的模式。当您看到完整的图片时，涉及全天多次交易的结构化方案就会变得显而易见
计算效率：批量处理允许在整个数据集上使用矢量化和并行处理等优化技术。您可以运行昂贵的机器学习模型，这些模型对于每笔交易处理来说太慢
资源可预测性：基础设施成本是可预测的，因为您确切地知道处理何时发生。您可以在云成本较低的非工作时间启动计算资源
更简单的架构：从概念上讲，批处理系统的构建和维护更简单。不需要复杂的流基础设施、状态管理或一次性处理保证
更容易测试：批处理作业具有确定性和可重复性。您可以使用修改后的规则重新运行昨天的批次，以在部署到生产之前测试更改

批处理的缺点

检测延迟：根据定义，批处理会引入延迟。上午 9 点的可疑交易直到第二天才会发出警报，为犯罪分子提供 24 小时以上的先机
干预能力有限：如果您在可疑交易完成后才知道该交易，则无法阻止该交易。对于高风险场景，这种延迟可能是不可接受的
批处理窗口约束：所有处理必须在批处理窗口内完成。随着交易量的增长，您可能很难在下一批到达之前完成处理
资源峰值：批处理作业在处理窗口期间会产生大量基础设施负载，需要超额配置来处理大部分时间闲置的峰值容量

18-36小时

典型的检测延迟

用于批处理系统

60%

降低基础设施成本

与同等实时系统相比

99.9%

批处理可靠性

成熟、经过验证的技术

了解实时处理

实时（或近实时）处理会在每笔交易发生时对其进行分析，并在几秒或几分钟内生成警报。这种方法需要根本不同的架构，但提供独特的功能：

实时处理的优点

立即检测：可疑活动可在几秒钟内识别出来，从而实现快速响应。对于账户接管或骡子账户检测等场景，这个速度至关重要
交易干预：实时系统可以在交易完成之前阻止或延迟交易，从而防止欺诈和洗钱，而不仅仅是事后检测
持续的资源利用：计算资源全天平稳使用，而不是在批处理窗口期间出现峰值。规模化时这可能更具成本效益
更好的客户体验：对于错误标记的合法交易（误报），实时系统可以提供即时反馈，从而快速解决问题，而不是在几天后让客户感到惊讶
增量模式检测：有些模式更容易实时检测。例如，速度检查（“过去一小时内交易过多”）在流式架构中是很自然的

实时处理的缺点

架构复杂性：实时系统需要复杂的流基础设施（Kafka、Flink、Kinesis）、状态管理以及对乱序事件的仔细处理
有限上下文窗口：当处理交易N时，你看不到五分钟后发生的交易N+1。一些在批处理中很明显的模式在流中变得更难检测
计算约束：每个模型都必须在延迟 SLA 内完成（对于内联处理，通常 < 100 毫秒）。复杂的机器学习模型对于每笔交易的执行来说可能太慢
基础设施成本较高：实时系统必须全天候 (24/7) 应对峰值交易量，这可能会显着增加基础设施成本
状态复杂性：跨分布式流系统维护状态具有挑战性。 “本周交易数量”等功能需要仔细的状态管理和窗口

// 示例：流式架构中的实时速度检查
// 使用 Apache Flink 风格的处理

流
  .keyBy(txn => txn.accountId)
  .window(TumblingEventTimeWindows.of(Time.hours(1)))
  .aggregate(新的 VelocityAggregator())
  .filter(速度 => 速度.count > 阈值)
  .map(创建警报)
  .addSink(alertSink);

// 批处理中的逻辑相同：
选择 
  帐户 ID,
  COUNT(*) 作为 txn_count,
  SUM(金额) 作为total_amount
来自交易
WHERE 时间戳 >= NOW() - INTERVAL '1 小时'
按 account_id 分组
HAVING COUNT(*) > 阈值；

混合架构：两全其美

在实践中，大多数复杂的反洗钱系统都使用混合方法，根据场景要求将实时处理和批处理相结合。这种分层架构通过多个层处理事务：

第 1 层：内联实时（< 100ms）

• 简单的基于规则的检查（制裁筛选、金额阈值）
• 使用最近状态检查速度（每小时交易数）
• 已知不良行为者检测（黑名单、以前的欺诈者）
• 通知下游处理的基本异常标志
• 可以在交易完成之前阻止交易

第 2 层：近实时（1-15 分钟）

• 复杂的 ML 模型（内联速度太慢）
• 交易网络图分析
• 跨账户模式检测
• 行为异常检测
• 生成警报以立即调查

第 3 层：批处理（每日/每周）

• 复杂时间模式检测
• 全面的网络分析
• 计算成本高昂的深度学习模型
• 历史比较和趋势
• 监管报告和分析

这种分层方法使您可以将正确的处理模型应用于每个场景。受益于立即干预的高风险场景得到实时处理，而需要完整上下文的复杂模式检测则批量运行。大多数交易都流经所有三个层，每一层都逐渐添加更复杂的分析。

决策框架：何时使用每种方法

在实时处理和批处理之间进行选择需要跨多个维度分析您的具体需求：

在以下情况下使用实时处理：

干预是有价值的：如果阻止或延迟可疑交易具有重要价值，那么实时性至关重要。这包括欺诈预防、制裁合规和高风险客户监控
操作速度很重要：当分析师需要在客户仍在参与时（例如在分支机构或通过电话）调查和解决警报时，实时处理可以提供更好的客户服务
监管要求：某些司法管辖区或场景要求进行实时检查，特别是制裁筛查和预防恐怖主义融资
检测逻辑很简单：如果您的规则和模型可以在 100 毫秒内执行，则无需大量优化即可实现实时处理
每笔交易模式：当在单个交易或最近的历史记录中检测到异常时（速度、地理位置、设备指纹）

在以下情况下使用批处理：

上下文需要完整的数据集：检测结构化、分层或其他复杂方案通常需要查看一整天或一周的交易来识别模式
计算密集型：深度学习模型、图神经网络或综合网络分析可能需要几秒或几分钟的时间完成每笔交易——批量处理是可以接受的，但实时处理是不可能的
追溯分析：监管报告、趋势分析和模型训练自然适合批处理，因为它们分析历史数据
成本限制：当基础设施预算有限时，批处理可以提供更多的检测能力
不需要干预：对于许多 AML 场景，24 小时的检测延迟是可以接受的，因为您正在记录 SAR 归档模式，而不是阻止交易

架构模式

常见的成功模式是从批处理开始以实现全面覆盖，然后在识别特定的高价值场景时逐步将其转移到实时。

• 从所有场景的批处理开始
• 识别速度至关重要的高风险模式
• 针对特定场景实现实时处理
• 维护批处理以实现全面的支持覆盖

技术实施注意事项

成功实施任一架构都需要仔细关注显着影响性能和可靠性的技术细节：

实时实施挑战

构建生产级实时 AML 监控需要解决批处理系统中不存在的多项技术挑战：

状态管理：流系统必须维护分布式工作人员的状态（帐户余额、交易计数、历史模式）。这需要谨慎使用状态存储、窗口和水印
一次性处理：避免系统故障和重新启动时出现重复警报需要幂等处理和仔细的事务处理
迟到数据：交易可能会无序或延迟到达。您的窗口策略必须妥善处理此问题，而不会在检测中造成间隙
背压处理：当下游系统速度减慢时，流式传输管道必须处理背压，而不会丢失事务或产生无限制的内存增长
模型部署：在不停机或重复处理的情况下更新正在运行的流系统中的机器学习模型需要复杂的部署策略

批量实施的挑战

虽然概念上更简单，但批处理系统有其自身的技术复杂性：

批量窗口管理：随着数据量的增长，在可用窗口内完成处理变得具有挑战性。策略包括增量处理、数据分区和渐进优化
依赖管理：批处理作业通常依赖于多个上游数据源。协调这些依赖关系并优雅地处理故障需要 Airflow 或 Dagster 等工具
再处理：当您发现历史处理中的问题时，有效地重新处理大日期范围需要仔细的增量更新架构
数据新鲜度：确保在开始批处理之前所有必需的数据均已到达，需要仔细协调，尤其是跨时区

性能和成本分析

实时处理与批处理的性能和成本特征存在显着差异，最佳选择在很大程度上取决于您的交易量和模式：

3-5倍

基础设施成本增加

实时与批量（典型）

99.5%

计算成本

用于批处理

60%

流媒体基础设施成本

对于实时系统

成本细分：批处理

对于每天处理 1000 万笔交易并进行批量 AML 监控的金融机构：

计算：3,000 美元/月（每晚启动大型集群 4 小时）
存储：800 美元/月（90 天交易历史记录，1 年警报历史记录）
编排：200 美元/月（Airflow 托管服务）
总计：约 4,000 美元/月或每 1,000 笔交易 0.012 美元

成本细分：实时处理

对于同一机构实时监控：

流媒体基础设施：8,000 美元/月（大规模 Kafka 或 Kinesis）
流处理：5,000 美元/月（Flink 集群，永远在线）
State Store：2,500 美元/月（Redis 或 DynamoDB 用于实时状态）
模型服务：3,500 美元/月（低延迟推理基础设施）
总计：约 19,000 美元/月或每 1,000 笔交易 0.057 美元

4-5 倍的成本差异很常见，但价值主张完全取决于实时功能的实现。如果每月阻止 1000 万美元的欺诈交易，投资回报率是显而易见的。如果您只是将警报生成时间从 24 小时缩短为 5 分钟，而不会影响运营，那么这可能是不合理的。

监管和合规考虑因素

不同的监管制度对 AML 监控延迟有不同的期望，这可能会影响您的架构选择：

制裁筛查

大多数司法管辖区都要求在交易完成之前进行实时制裁筛查。这通常是不可协商的，并且必须是您的内联处理的一部分。然而，全面的制裁筛查通常可以分为：

内联：精确名称匹配和高置信度模糊匹配（< 100ms）
近实时：综合模糊匹配、语音算法（1-5 分钟）
批次：基于网络的制裁检测、受益所有权分析（每日）

可疑活动检测

对于一般的反洗钱监控，监管机构通常期望“及时”检测，而不是实时检测。 “及时”的含义因司法管辖区和风险状况而异：

高风险客户：预计近乎实时到每日监控
中风险客户：每日至每周监控可接受
低风险客户：每周到每月的监控通常就足够了

这种基于风险的方法允许采用分层架构，其中高风险场景得到实时处理，而低风险场景则使用批处理，从而优化合规性和成本。

监管角度

监管机构更关心检测的有效性而不是速度，但也有一些例外。检测到 95% 洗钱活动的批处理系统比检测到 60% 洗钱活动的实时系统要好。

• 记录您基于风险的频率监控方法
• 证明检测延迟适合每种场景
• 表明您的架构可以随着交易增长而扩展
• 证明您可以在规定的时间内调查并提交 SAR

迁移策略

许多机构正在考虑从批处理迁移到实时处理，或实施混合架构。根据我们帮助数十家金融机构完成这一转型的经验，以下是经过验证的迁移路径：

第一阶段：建立流媒体基础设施（3-6 个月）

部署流媒体平台（Kafka、Kinesis、Pulsar）
将事务摄取实施到流基础设施中
构建监控、警报和操作手册
对运营团队进行流媒体运营培训
与现有批处理系统并行运行（暂时不要切换）

第 2 阶段：影子模式实施（2-4 个月）

在实时处理中实施选定的场景
生成警报但不发送给分析师（影子模式）
比较相同场景的实时警报和批量警报
进行调整以实现同等或更好的批量性能
验证延迟、准确性和操作特征

第 3 阶段：逐步切换（3-6 个月）

将第一个场景转移到生产实时处理
仔细监控问题，维护批次作为备份
逐步迁移更多场景
保持批处理运行以实现全面覆盖
记录学习内容并迭代完善方法

第四阶段：优化和增强（正在进行）

优化性能并降低成本
添加复杂的实时检测场景
实施干预能力
通过实时 ML 模型更新进行增强
继续进行复杂分析的批处理

案例研究：大型欧洲银行迁移

一家拥有 1500 万客户和每月 5000 万笔交易的大型欧洲银行在 18 个月内成功从纯批量架构迁移到混合架构：

起点：每日批量处理，警报延迟 24-36 小时，警报率 3.2%，真阳性率 8%
第一阶段：实施实时制裁筛查和速度检查（6 个月）
第二阶段：添加了用于账户接管和骡子检测的近实时机器学习模型（6 个月）
第三阶段：维护复杂模式检测的批处理，并通过图神经网络进行增强（6 个月）
结果：平均警报延迟缩短至 4 小时，警报率降低至 1.8%，真阳性率提高至 15%，第一年阻止了 4500 万欧元的欺诈行为

事实证明，混合方法是最佳的：对干预有价值的场景进行实时处理，对需要完整上下文的全面模式检测进行批处理。

未来趋势：融合与进化

AML 监控架构的未来将变得越来越复杂，并出现以下几个趋势：

微批处理：每隔几分钟处理一次小批量数据结合了两种方法的优点——近实时延迟和批处理式完整上下文
自适应处理：根据交易风险评分动态选择处理策略的系统，对于高风险使用实时，对于低风险使用批量
持续学习：机器学习模型从流数据增量更新，而不需要批量重新训练，从而能够更快地适应新模式
统一流/批处理：Apache Beam 等框架允许编写一次处理逻辑并部署到流式或批处理引擎
边缘处理：将一些检测逻辑移至交易发起点以进行超低延迟干预

结论：这不是非此即彼

实时与批量问题不是二元的。最有效的反洗钱系统战略性地使用这两种方法，在其功能提供明确价值的情况下应用实时处理，在需要完整上下文的综合分析中应用批处理。

您的决定应该基于对您的需求的清晰评估：检测速度在哪里很重要？干预的价值在哪里？您的计算和成本限制是什么？您的监管环境需要什么？对于每个机构以及该机构内的每个场景，答案都会有所不同。

在 nerous.ai，我们的平台本身支持实时和批处理，允许机构为每个场景选择正确的方法，而不必局限于单一的架构模式。随着洗钱计划的发展和机构要求随着时间的推移而变化，这种灵活性至关重要。

最好的架构并不是最先进或最昂贵的，而是最符合您的特定运营、监管和业务要求，同时随着您的机构发展而保持可持续性和可扩展性的架构。

实时与批量事务监控：选择正确的架构