扩展安全洞察:我们如何将全球扫描容量提高10倍

Cloudflare Security Insights系统现在每秒处理超过120次扫描,为所有客户提供频繁的见解。通过优化Kafka消费者、Postgres查询和我们的API ,我们在不添加硬件的情况下将吞吐量扩展了10倍。

Security Insights为每个Cloudflare帐户提供可操作的安全建议。为了找到这些见解,我们会定期扫描所有账号、区域和DNS记录,寻找潜在的安全风险和错误配置。然而,出现了两个关键问题。首先,我们的扫描频率太低了。

扫描仅每隔一两周执行一次,因此新引入的安全风险可能在长达两周的时间内未被检测到。其次,自动扫描是许多免费套餐账户的选择,这意味着很多账户根本没有被扫描。不频繁或不存在的扫描的风险正在上升:随着自动攻击的加速,检测安全错误配置的窗口正在缩小。

确保我们为所有客户发现这些问题,对于我们为每个人构建更好的互联网的目标至关重要。我们计算出,要提高扫描频率并启用所有帐户的自动扫描,我们需要将扫描吞吐量平均提高约10倍–从每秒10次扫描提高到每秒100次。

但是我们的系统已经在承受其负载:数以百万计的事件正在填满我们的积压等待处理;我们的API经常超时;我们的流程正在崩溃。我们需要修复我们的系统,我们需要扩大规模。

这就是我们如何将Security Insights的扫描吞吐量提高10倍以上,为数百万客户提供安全洞察,并将所有客户的扫描频率提高一倍的故事。请继续阅读,了解我们如何实现这些改进。在高层次上,我们的自动安全扫描由调度程序触发。