统计
  • 建站日期:2016-12-20
  • 运行时间:2282天
  • 文章总数:6099 篇
  • 评论总数:3 条
  • 分类总数:8 个
  • 最后更新:3月21日
文章 精品推荐

创·问 | Databend Labs 张雁飞:易用+极致弹性

烈阳
首页 精品推荐 正文

Q: 华创资本

A: 张雁飞 Databend创始人、CEO

Q1:2021年选择创立 Databend,彼时看到了哪些机遇?

张雁飞: 2020年 Snowflake 上市,上市之初市值高达1000亿美金,Snowflake 是新一代基于存算分离架构的数仓,而当时业界大部分还是传统数仓如 Greenplum、ClickHouse 等,也没有开源版的 “Snowflake”,对于海外用户,会发现 Snowflake 越使用成本越高,对于中小类客户来说,成本依然很高。而在国内,数仓产品都是 PaaS 类产品,尚未有 SaaS 模式的产品。这些都是我们看到的机会。

Q2:如果用一句话描述 Databend,你希望是什么?

张雁飞: Databend 名字渊源于相对论。由于物质的存在,时间和空间会发生弯曲,这就是相对论的 Time Bend。我们期望 Databend 的出现可以让用户重新审视数据,从而挖掘数据中存在的更大价值。Databend 是一个使用 Rust 研发、开源、完全面向云架构的新一代云原生数仓,特点是开源、快、节省成本。我们提供极速的弹性扩展能力,致力于打造按需、按量的 Data Cloud 产品。

Q3:成立之初,Databend就选择开源的考虑是什么?云原生数仓解决了什么问题,有哪些技术挑战?

张雁飞: 如果做 Data Infra,建议从第一天就走开源模式。开源一方面解决了用户的信任问题,另一方面可以快速研发产品,目前我们社区外部活跃贡献者跟公司人数差不多。他们贡献了很多重量级的功能,例如 Hive 的集成等。同时,开源可以帮助提升产品的知名度,我们社区关注者中有一半来自海外,这是跟国内很多开源产品不一样的地方。开源是我们的基因和信仰,我们希望做出世界级的开源产品。

云数仓主要满足用户海量数据的分析和处理需求,进一步可以对接数据湖产品,形成湖仓一体平台,即在一个平台即可以处理结构化、半结构化、非结构化数据。除此之外,Snowflake 还提供数据集市,一份数据可以提供给很多用户使用。例如,一份公开的新冠相关数据,可以供 Snowflake 上多家用户使用。要实现这样的数据集市,必须具备真正的存算分离架构和多租户体系。这对很多传统数仓而言,几乎相当于把现有产品从头再构建一遍。

云原生数仓不仅仅是将数仓部署到云上这么简单,而是一个一体化的方案和生态系统。尽管存算分离是实现云原生数仓的基础,但它只是开始,还有许多其他具有挑战性的功能需要研发。

Databend 定义为云原生的弹性数据库,在设计之初不仅做到计算存储分离,每一层的极致的弹性都是设计主要考量点。Databend 主要分为三层:MetaService Layer、Query Layer、Storage Layer,这三层都是可以弹性扩展的,意味着用户可以为自己的业务选择最适合的集群规模,并且随着业务发展来伸缩集群。

创·问|DatabendLabs张雁飞:易用+极致弹性-烈阳家园-第1张图片

Databend架构图

Q4:Databend已经开始内测使用,目标客户类型和应用场景是?构想的商业化模式是?

张雁飞:我们产品适用的目标客户类型多样,包括金融、电商、医药、广告等行业,主要做日志分析、用户行为分析、趋势分析等大数据业务。

目前构想的商业模式是通过 Databend Cloud 为用户提供SaaS服务,通过Databend 提供支持服务。

Databend 的目标不会改变,始终追求性能和弹性。随着云基础设施越来越完善,大家对按量付费和弹性的需求非常强烈。同时,Databend 既可以云端部署也可以私有化部署。

Databend 会向着 Serverless 方向持续迭代。Serverless 意味着把资源的调度做到更加精细化,云数据库的计算节点可以和一个函数一样,使用的时候拉起,使用完毕后销毁,只需要按照使用付费,资源调度会非常精确。

我们预计2023年1季度正式推出 Cloud 版本,目前已经开启内测,收到了近百家海内外企业和用户的申请。目前,有一些北美初创企业已经接入生产使用。云是 Databend 商业化战略的重要部分,也是 Databend 这个开源项目的重要用户。Databend Cloud 是围绕 Databend 打造的一款易用、低成本、高性能的新一代大数据分析平台,让用户更加专注数据价值的挖掘。Databend Cloud 上线了国际版和国内版两个可用区,欢迎有需要的小伙伴申请试用。

·

·

Q5:目前的种子用户主要来自哪些行业?Databend 解决了它们哪些痛点?

张雁飞: 目前种子用户主要是来自互联网行业,如:微盟这个用户,将系统日志和数据库日志导入到 Databend 中,利用 Databend 来做合规性检查。Databend 还帮助多点解决数据归档的问题,之前多点每个月初将上个月数据归档到一台 MySQL 数据库中,共有20多台服务器存储归档数据,采用 Databend 后,所有数据存储到对象存储中,只需要2台服务器做查询,帮助多点节省了90%以上的成本。还有一个新加坡客户 Digifinex,之前采用 ClickHouse 做日志分析,由于 ClickHouse 维护和扩容都不方便,且成本较高,采用 Databend 后,维护更简便,成本更低。

根据可统计信息,每天约 700TB 数据在使用 Databend 写入到云对象存储并进行分析,用户来自欧洲、北美、东南亚、非洲、中国等地,每月为他们节省数百万美元成本。

Q6:我们注意到 Serverless 技术在海外取得了更进一步的发展,Serverless 对于数据分析领域意味着什么?

张雁飞: Serverless 是一种云计算应用程序开发和执行模型,开发人员能够构建和运行应用程序代码,而无需提供或管理服务器或后端基础设施。Serverless 体现了一种架构思想,对于数据分析型数据仓库,需要基于这种思想去构建,产品需要具备以下特点:第一是弹性伸缩,而为了实现资源的弹性伸缩,就需要将计算资源和存储资源分离开,分别具备弹性伸缩的能力,计算资源无状态,可以随时增加或者减少资源,存储构建在无限量的存储资源池上;第二,用户可以按照资源使用量来付费,即按需付费;第三,运维简便,用户无需关心服务器的状态,只需要关心业务即可。

Q7:Databend 的产品技术在过去一段时间实现了快速的迭代,在你看来,做对了哪些事情?

张雁飞: 首先,我们团队对数据库内核很熟悉,有着丰富的工程经验,目标很明确,技术路径也很清晰。Databend 是从0代码开始研发,没有历史包袱,出现任何问题,团队成员都可以快速定位并解决问题。

其次,Databend 从第一天就是开源的,培育了一批优质的外部开发者为 Databend 贡献代码,通过开源社区的力量促进了产品的迭代,并快速吸引了第一批种子用户使用。

最后,我们选择了一个好的工具——使用 Rust 语言进行开发,提高了 Databend 的研发效率,极大地缩短了一个庞大复杂的数据库的开发周期。目前, Databend 经过一年多的研发,目前已经有一批用户在生产使用并稳定地支撑业务。

数据库内核,尤其是 Cloud Data Warehouse 研发是一个很酷和充满挑战的工作,因为这块目前还是个荒地,我们也是一边探索一边工程实践,正因如此才充满了乐趣。

在组建 Databend 内核研发团队时,我们把眼光放到了全球,现在中国、美国、新加坡都有我们的内核研发人员,未来可能还会有其它国家的同事参与进来。团队现在主要以 ClickHouse 头部贡献者为基础 ,加上阿里、Google 等公司的朋友组建的内核团队,一个不到20人的“特种兵”团队,且都是在数据库领域摸爬滚打多年的实战老手。

Q8:在一些新的数据分析领域,如Web3,Databend是否也可以应用?

张雁飞: 是的,Databend 作为云数仓属于基础设施,基于 Databend 的多租户体系和存算分离架构,结合强大的 Semi-Structured 数据类型处理能力,对这些链上数据进行快速分析,一份数据能够提供给很多用户使用。

Q9:与传统的数据仓库相比,新一代数仓产品有哪些优势?

张雁飞: 优势主要有三点: 首先,整体架构基于云来考虑,传统数仓成立之初,云计算尚不成熟,架构更多是基于传统物理机或者虚拟机进行调度。 新一代云数仓是构建在云计算基础之上,采用 Serverless 架构,利用 k8s 进行微服务调度,实现更快的调度效率,更简单的维护。

其次,传统数仓都是基于本地盘做存储,一旦空间不够,涉及存储的扩容,会很麻烦。即使传统数仓进行改造支持了对象存储,但也仅限于把冷数据归档到对象存储中。新一代数仓架构是基于对象存储的特点而设计,充分发挥对象存储适合高并发的优势。

最后,新一代数仓实现了存算架构的完全分离,计算节点无状态,可以根据计算量按需增加或者减少计算节点。而传统数仓采用存算一体架构,扩容或者减少集群的操作都很复杂。

Q10:从“工具出海”到“全球化 SaaS ”,全球化正在成为软件公司创业的一个趋势。你如何看待?中国团队做全球化 SaaS 有何优势?

张雁飞: 我们可以看到海外特别是北美、欧洲的软件基本都是提供 SaaS 的产品,这个趋势很明显,国内还处于 PaaS 向 SaaS 转化的过程中,需要有一个过程。中国团队在技术积累、应用场景方面有很多经验,虽然相对于欧美,中国团队做 SaaS 产品起步晚,但可以采用最新的技术架构来构建产品,通过最新的技术手段降低产品成本。

Q11:中美不同的云市场格局,对数仓厂商的发展带来何种挑战与机遇?与海外云原生数据库,如 Snowflake 相比,Databend 有哪些差异化优势?

张雁飞: Databend 相对于 Snowflake 来说,还很“年轻”。有利的方面是,Databend 采用了最新的技术栈和系统架构来构建新一代 Data Cloud 平台,在资源精细化调度、资源利用率方面都优于 Snowflake,成本也更低,我们基本做到了 Snowflake 成本的50%,仍然还有着不错的利润空间。这对有数据分析需求的客户来说,多了一种理想的选择。不过,Databend 还很年轻,在产品功能和生态方面还需要进一步完善,更重要的是我们有着一个充满生机的开源社区。

Q12:随着我国信息技术的不断发展,企业数字化转型已经成为必然的趋势。这给数仓企业带来哪些机遇与挑战?

张雁飞: IDC 预测,随着企业数字化转型,到2026年,中国大数据 IT 支出将达到360亿美元,这给数仓带来的巨大的市场机会。越来越多的数据需要分析,带来的直接需求是数仓的性能要求进一步提高,成本需要进一步降低。同时,对数据交换也有了需求,例如各地方政府的大数据交易所。

这些需求对提供数仓产品的企业来说,不仅需要提升和优化性能,在架构层面也需要创新。如果需要具备数据集市的功能,就需要数仓具备多租户体系和数据能共享的功能,为了实现数据共享需要把计算和存储分离,所以在数仓产品的架构方面必须是计算存储分离的架构。

Q13:未来的市场,需要具备哪些特性的分析型数据库软件?

张雁飞: 从海外 Snowflake 和 Databricks 这两个明星产品的发展来看,第一,是湖仓一体,Snowflake 和 Databricks 两家产品边界越来越模糊;第二,是分析型产品的上下游结合,尤其是跟数据抽取、数据治理、数据建模等产品的结合;第三,是数据集市使用者越来越多。

文章来源:https://36kr.com/p/2173806599006724

版权说明
文章采用: 《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权。
版权声明:未标注转载均为本站原创,转载时请以链接形式注明文章出处。如有侵权、不妥之处,请联系站长删除。敬请谅解!

-- 展开阅读全文 --
他是谁第3集剧情介绍 他是谁电视剧第三集剧情是什么
« 上一篇
中消协:电动车公共充电桩统一收费标准呼声高
下一篇 »
为了防止灌水评论,登录后即可评论!

HI ! 请登录
注册会员,享受下载全站资源特权。
社交账号登录

每日一言

最新文章

标签TAG