小红书将业界最大数据湖迁至阿里云
记者获悉,小红经过一年奋战,书将数据小红书已把业界体量最大的业界数据湖0故障迁上阿里云。据统计,最大至该项目共有1500人参与,湖迁迁移数据500PB。小红
作为中国头部互联网公司之一,书将数据小红书月活已过3亿,业界其数据湖存储了过去11年的最大至所有原始数据,包括结构化、湖迁半结构化和非结构化数据。小红近年来,书将数据随着业务的业界高速增长,小红书在线处理数据的最大至需求不断增加,同时离线处理所积累的湖迁历史问题,也会在未来的切换中带来更多成本与风险。
为此,2023年11月,小红书发起迁云项目——计划一年内,把小红书的数据湖搬上阿里云。
迁移至阿里云上后,数据湖可通过多个OSS Bucket支持纳入统一资源池,实现多个Bucket共享资源池内的OSS吞吐及QPS能力。这样的流控能力在面向小红书复杂业务场景,可灵活调配资源,高效利用吞吐性能,降低不同业务租户间的互相影响。阿里云原生HDFS+DLA元数据可实现无缝对接Hadoop EMR体系,支持元数据线性扩展能力,轻松应对小红书数百PB数据下的元数据线性增长。
较于过往业界体量最大的案例,小红书的本次迁移的数据体量更大。
*注:任务=数据处理过程
(图片来自小红书官方公众号)
据介绍,小红书的迁云项目经历了三个阶段。第一步,项目组首先解决标准问题,然后根据标准进行治理;第二步,完成治理后,项目在2024年5月正式进入双跑阶段。把数据拷贝到阿里云上,两边同时跑数,验证正确性与及时性;第三步,2024年8月,项目结束双跑,进入割接阶段。阿里云团队全程在现场保障,顺利完成了割接。
2024年11月,小红书迁云项目正式宣告结束。在0故障的情况下,迁移数据500PB,任务11万,参与人数1500人,涉及部门40多个。项目涉及产品之多和数据体量之大均创下业界记录。
(责任编辑:百科)
- ·保时捷坐不住了!在华新设技术部:任命本土派高管李楠上位
- ·《最终幻想7:重生》《最终幻想16》利润不及预期
- ·哲科谈波黑不敌匈牙利:失误会被惩罚,但犯错才能在下次做得更好
- ·[流言板]控卫布!布克全场13中5,三分8中1得到13分6篮板12助攻
- ·浅野拓磨谈世预赛:不光感受到厚重感,还要做好全力以赴的觉悟
- ·哈曼:沙欣总在为失利找借口,他必须给多特强有力的支持
- ·[流言板]控卫布!布克全场13中5,三分8中1得到13分6篮板12助攻
- ·[流言板]掘金今日首发:默里、布劳恩、小波特、沃特森和约基奇
- ·哈登生涯第12次半场至少砍30分+5记三分 史上仅次于库里和利拉德
- ·女足金球奖得主邦马蒂:我问亚马尔要不要碰下奖杯,他连说三个不
- ·胡梅尔斯上赛季欧冠送出133记突破性传球,中卫球员中最多
- ·津媒:申花并未放弃中超争冠,教练组尽力帮球员走出低落情绪
- ·[流言板]常数!亚历山大中距离跳投打进,雷霆和火箭首节战成31平
- ·[流言板]把握机会!河村勇辉出战24分钟,投篮5中0得到2分8助1断
- ·[流言板]科尔:威金斯预计出战今日对阵火箭的比赛
- ·两位传奇!卡特与乔丹在名人堂典礼现场拥抱交流
- ·[流言板]防守效率榜前10中4人来自勇士:凯尔、卢尼、梅尔顿、希尔德
- ·[流言板]活塞主帅:斯图尔特一直在做脏活累活,他值得赞扬
- ·半导体巨头力挺中国!恩智浦芯片将实现纯“中国制造”
- ·意媒:尤文将在本周末对阵乌迪内斯时,考察引援目标卢卡