灵活且不失高性能,这个 POSIX 共享文件系统值得一用
项目名称:JuiceFS
项目作者:Juicedata
开源许可协议:AGPL-3.0
项目地址:https://gitee.com/juicedata/JuiceFS
项目简介
JuiceFS 是一个建立在 Redis 和 S3 等对象存储之上的开源 POSIX 文件系统。它是为云原生环境设计,通过把元数据和数据分别持久化到 Redis 和对象存储中,它相当于一个无状态的中间件,帮助各种应用通过标准的文件系统接口来共享数据。
项目特性
- 完整 POSIX 兼容:已有应用可以无缝对接;
- 极致的性能:毫秒级的延迟,近乎无限的吞吐量(取决于对象存储规模);
- 云原生:完全弹性,很容易实现存储和计算分离架构;
- 共享:可以被多个客户端同时读写;
- 文件锁:支持 BSD 锁(flock)及 POSIX 锁(fcntl);
- 数据压缩:默认使用 LZ4 压缩数据,节省存储空间。
项目架构
JuiceFS 使用 Redis 来存储文件系统的元数据。Redis 是一个开源的内存数据库,可以保障元数据的高性能访问。所有文件的数据会通过客户端存储到对象存储中,以下是它的架构图:
JuiceFS 中的文件格式,如下图所示。一个文件首先被拆分成固定大小的 'Chunk',默认 64 MiB。每个 Chunk 可以由一个或者多个 'Slice' 组成,它们是变长的。对于每一个 Slice,又会被拆分成固定大小的 'Block',默认为 4 MiB(格式化后就不可以修改)。最后,这些 Block 会被压缩和加密保存到对象存储中。压缩和加密都是可选的。
性能测试
顺序读写性能
使用 fio 测试了 JuiceFS、EFS 和 S3FS 的顺序读写性能,结果如下:
上图显示 JuiceFS 可以比其他两者提供 10 倍以上的吞吐。
元数据性能
使用 mdtest 测试了 JuiceFS、EFS 和 S3FS 的元数据性能,结果如下:
上图显示 JuiceFS 的元数据性能显著优于其他两个。
开发者说
JuiceFS 的创新架构更符合云原生的发展趋势,我们一开始就以 SaaS 的形式将它提供给公有云的客户,让客户分钟级就可以获得 PB 级企业文件存储服务。同时,我们也和行业领先的对象存储厂商一起服务私有云客户。
我们坚信文件系统是最好的管理非结构化数据的方式,对象存储只适用于某些简单场景。分布式文件系统一直是基础软件中难啃的骨头,JuiceFS 通过对文件系统中元数据和数据的独立抽象,大大减低了系统复杂度,使得文件系统能够借助这些年来对象存储和分布式数据库的进展,管理超大规模的数据。同时,复杂度的降低可以让更多的开发者参与进来,未来更多的应用也会建立在文件系统接口之上。