我们于 2023 年创立了 Arroyo,旨在为所有数据工作者提供实时(流)处理功能。现代企业依靠数据管道来支持其应用程序和业务——从用户定制、推荐和反欺诈,到新兴的 AI 代理领域。
但如今,这些管道大多以批量方式运行,每小时、每天甚至每月 英国电报号码数据 运行一次。在 Lyft 和 Splunk 等公司从事流处理多年后,我明白了其中的原因:对于开发人员和数据科学家来说,构建正确、高性能且可靠的管道实在太难了。大型科技公司会聘请流处理专家来构建和运营这些系统,但其他公司则只能苦苦等待批量数据到来。
在我们刚起步时,主流的流式传输管道解决方案——以及我们在 Lyft 和 Splunk 运行的解决方案——是 Apache Flink。Flink 是第一个成功将容错(能够从故障中持续恢复)、分布式(跨多台机器)、有状态(并能记住过去事件的数据)数据流与图构造 API 相结合的系统。这些特性的组合意味着我们最终可以构建强大的实时数据应用程序,并具备窗口、聚合和连接等功能。然而,尽管 Flink 具备必要的功能,但在实践中,其 API 对于非专家用户来说过于复杂且低级,而且最终服务的状态特性需要进行无休止的操作。