[StarRocks 2024 年度技术峰会]:1 更快、更高、更强 StarRocks 存算分离最新进展.pdf
更快、更高、更强 存算分离最新进展 丁凯 StarRocksTSCmember,镜舟科技云原生团队负责人01StarRocks存算分离 02存算分离-用户 03存算分离-性能 04存算分离-成本 05存算分离-生态 01StarRocks存算分离 ApplicationCacheAppKV-App…StarRocks API ShardManager StarOS StarletStarletStarlet WorkerGroups Service StarletStarletStarlet WorkerGroups ServiceManagerWorkerManager StarletStarletStarlet StarletStarletStarlet FileStoreManager LogStoreManager ProvisionResource AWS/GCP/WAZ···PrivateCloudStarRocksonStarOS 快速迭代 3.13.23.3 StarRocksStarRocksStarRocks PK支持 PK索引持久化StorageVolume FastSchemaEvolution 自增列支持 StarCacheBatchPublish 并行Scan热数据TTL CloudPKIndex 02用户 腾讯音乐存算分离迁移时间线 选定StarRocks存算分离作为湖仓一体底座 Druid集群数据迁移方案验证成功 正式切换查询服务,服务器成本下降40% 完成ClickHouse、Druid替换 实时集群数据接入验证完成 日接入数据千亿条 实时集群回放线上查询流量,查询性能稳定 Druid迁移70%、原有集群释放50% 开启湖仓一体建设基于Multi-warehouse构建资源隔离,将StarRocks建设成为平台标准组件SepOctNovDecJan Feb MarAprMayJunJulAug京东物流存算分离集群 FE StatefulSet StarRocksK8sOperator CNStatefulSet HPA Client FE Pod1 FE Pod2 FE Pod3 CN Pod1 CN Pod2 CN Pod3 CN Pod4SRProxyFEServiceCNService 依托京东云JDOSK8s部署,双可用区容灾,Proxy灵活切量 配备万兆网卡及SSD的物理机,保证网络和缓存I/O性能 预调优的FE/CNSpecs,开箱即可用03性能FastSchemaEvolution FastSchemaEvolution技术,加减列等常见schema变更时无需重写数据, 实现了秒级DDL(3.3+)Tablet并行Scan 并行Scan技术,通过将大块数据切分并行加载等技术 显著降低查询延迟,在cachemiss场景,效果更加显著(3.3+)BatchPublish BatchPublish技术,可将众多并发事务合并Publish,显著提升高频高并发导入吞吐,存算分离架构下实现10s数据新鲜度(3.2+) MergeCommit:1s实时导入 FlinkPipeline Partition0 KafkaSource0 Forward Transform0(decompress/deserialization) Forward StarRocksSink0 StarRocks •并发高:Transform需要高并发满足CPU消耗Kafka Partition1 KafkaSource1 …… Partition298 KafkaSource298 Partition299 KafkaSource299 Forward Forward Forward Transform1(decompress/deserialization) …… Transform298(decompress/deserialization) Transform299(decompress/deserialization) Forward Forward Forward StarRocksSink1 …… StarRocksSink298 StarRocksSink299 StreamLoad Table0 …… Table99 •一个Pipeline有多个表并且数量动态变化,无法对单表进行调优 •秒级实时,从上游消费到StarRocks数据可见保证秒级MergeCommit:1s实时导入 •300表,300并发,1s写入频率 •总流量92Kevents/s,event10KB+ •表的流量分布符合二八法则MergeCommit:1s实时导入 04成本 价格模型 TCO=Cost(Compute)+Cost(Storage)+Cost(API) Cost(Compute):按需配置,随时弹性 Cost(Storage):存储空间0放大 Cost(API):对象存储的隐性成本≈N(tablet)*C*3存储空间明明白白 垃圾回收一目了然API调用一降再降 05生态 一键式迁移工具 2.diffsourcemetaandtargetmeta 4.submitdata 3.create 1.get meta StarRocksDataMigrationTool replicationjob db、table、partition targetmeta 1.Getsource 6.task FEFE 5.begintransaction10.committransaction6.task 9.ok 7.makesnapshot 9.ok BEBE 8.replicatedatafile 9.ok 6.task 7.makesnapshot BEBE 8.replicatedatafile 7.makesnapshot BEBE 8.replicatedatafile SourceStarRocksClusterTargetStarRocksCluster一键式迁移工具ObjectStorage NativeSparkConnector index data meta log …NativeSparkConnector NativeSparkConnector 01简化链路 02资源隔离 03实时写入 数据加工查询一站式,无需多次搬迁 ETL与数仓资源彻底隔离,互不影响 ETL也拥有数据实时更新能力,秒级可见关注公众号 T感hanky谢ou! 观看!
网址:[StarRocks 2024 年度技术峰会]:1 更快、更高、更强 StarRocks 存算分离最新进展.pdf http://c.mxgxt.com/news/view/1122260
相关内容
[StarRocks 2024 年度技术峰会]:7 京东物流StarRocks Summit 2023 技术交流峰会圆满落幕
StarRocks 2024 数据技术峰会圆满收官,Lakehouse引领数据技术新趋势
StarRocks Summit Asia 2024落幕,Lakehouse引领数据技术新趋势
StarRocks资源调度
StarRocks 相关面试题
StarRocks资源隔离
StarRocks数据同步工具
如何利用 StarRocks 加速 Iceberg 数据湖的查询效率
EMR Serverless StarRocks评测