一个比传统数据库快 100-1000 倍的数据库

2024-05-17 11:41:33

一、ClickHouse 是什么？

ClickHouse：是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)

我们首先理清一些基础概念

OLTP：是传统的关系型数据库，主要操作增删改查，强调事务一致性，比如银行系统、电商系统
OLAP：是仓库型数据库，主要是读取数据，做复杂数据分析，侧重技术决策支持，提供直观简单的结果

接着我们用图示，来理解一下列式数据库 和行式数据库 区别

在传统的行式数据库系统中（MySQL、Postgres和MS SQL Server），数据按如下顺序存储：

在列式数据库系统中（ClickHouse），数据按如下的顺序存储：

两者在存储方式上对比：

以上是ClickHouse基本介绍，更多可以查阅官方手册

推荐下自己做的 Spring Boot 的实战项目：

https://github.com/YunaiV/ruoyi-vue-pro

二、业务问题

业务端现有存储在Mysql中，5000万数据量的大表及两个辅表，单次联表查询开销在3min+，执行效率极低。经过索引优化、水平分表、逻辑优化，成效较低，因此决定借助ClickHouse来解决此问题

最终通过优化，查询时间降低至1s内，查询效率提升200倍！

希望通过本文，可以帮助大家快速掌握这一利器，并能在实践中少走弯路。

推荐下自己做的 Spring Cloud 的实战项目：

https://github.com/YunaiV/onemall

三、ClickHouse实践

1.Mac下的Clickhouse安装

我是通过docker安装，查看教程。也可以下载CK编译安装，相对麻烦一些。

2.数据迁移：从Mysql到ClickHouse

ClickHouse支持Mysql大多数语法，迁移成本低，目前有五种迁移方案：

create table engin mysql，映射方案数据还是在Mysql
insert into select from，先建表，在导入
create table as select from，建表同时导入
csv离线导入
streamsets

选择第三种方案做数据迁移：

CREATE TABLE [IF NOT EXISTS] [db.]table_name ENGINE = Mergetree AS SELECT * FROM mysql('host:port', 'db', 'database', 'user', 'password')

3.性能测试对比

类型	数据量	表大小	查询速度
Mysql	5000万	10G	205s
ClickHouse	5000万	600MB	1s内

4.数据同步方案

临时表

图片来源：携程新建temp中间表，将Mysql数据全量同步到ClickHouse内temp表，再替换原ClickHouse中的表，适用数据量适度，增量和变量频繁的场景

synch

开源的同步软件推荐：synch 原理是通过Mysql的binlog日志，获取sql语句，再通过消息队列消费task

5.ClickHouse为什么快？

只需要读取要计算的列数据，而非行式的整行数据读取，降低IO cost
同列同类型，有十倍压缩提升，进一步降低IO
clickhouse根据不同存储场景，做个性化搜索算法

四、遇到的坑

1.ClickHouse与mysql数据类型差异性

用Mysql的语句查询，发现报错：

解决方案 ：LEFT JOIN B b ON toUInt32(h.id) = toUInt32(ec.post_id)，中转一下，统一无符号类型关联

2.删除或更新是异步执行，只保证最终一致性

查询CK手册发现，即便对数据一致性支持最好的Mergetree，也只是保证最终一致性：

如果对数据一致性要求较高，推荐大家做全量同步来解决

五、总结

通过ClickHouse实践，完美的解决了Mysql查询瓶颈，20亿行以下数据量级查询，90%都可以在1s内给到结果，随着数据量增加，ClickHouse同样也支持集群，大家如果感兴趣，可以积极尝试 : )

- END -

MySQL数据库：数据的概念

基本定义数据:是数据库总存储的基本对象定义:描述客观事物的符号记录种类:数字.文字.图形.图像.声音等数据库:DB 存储数据的集合数据库管理系统:DBMS 用户和操作系统之间的一层数据管理软 ...
MySQL数据库是什么？Linux数据库运维

Mysq|是目前流行的关系型数据库管理系统.MySQL是WEB应用中较好的应用软件之一.数据库技术是管理信息系统.办公自动化系统.决策支持系统等各类信息系统的核心部分,对于互联网发展起着重要的作用.现 ...
mysql百万级数据快速去重

最近在处理项目组的一个数据集,数据量每张表在百万级,由于数据量较大在数据下载和处理方面都可以说是旷日持久,这篇记录一下相关的经验. 数据下载拿到的数据是在远程数据库里面,原先打算直接从远程库里下载c ...
基于 Flink ClickHouse 打造轻量级点击流实时数仓

Flink 和 ClickHouse 分别是实时计算和(近实时)OLAP 领域的翘楚,也是近些年非常火爆的开源框架,很多大厂都在将两者结合使用来构建各种用途的实时平台,效果很好.关于两者的优点就不再赘 ...
一个比 MySQL 快 800 多倍的数据库“ClickHouse”

原文链接: https://mp.weixin.qq.com/s/GV7QLroUJFbVAvKkSnnG8w 原作者:JavaGuide 大家好呀!这里是爱学习的Guide!今天给大家科普一个速度快 ...
MySQL的存储方式有哪些？Linux运维工程师学习

MySQL的存储方式有哪些?数据库是Linux运维人员都会接触到的工作内容.那么对于数据库知识,运维人员是必须要掌握的.那么MySQL的存储方式都有哪些? 程序文件随数据目录一起存储在服务器安装目录下 ...
ClickHouse常用命令，基本数据类型

一.建库建表基本命令二.基本数据类型整型浮点型布尔型字符串枚举类型数据组元组日期时间戳三.表引擎一.建库建表基本命令查看库 show databases; 使用库 use d ...
一个比传统数据库快 100-1000 倍的数据库，来看一看？

ClickHouse 是 Yandex(俄罗斯最大的搜索引擎)开源的一个用于实时数据分析的基于列存储的数据库,其处理数据的速度比传统方法快 100-1000 倍.ClickHouse 的性能超过了目前 ...
内蒙古牙克石市小升初数学真题及答案在小数的乘法中，一个因数的小数点向左移动一位，另一个因数的小数点向右移动两位，则乘积扩大至原来的（　　）A．2倍B．10倍C．100倍D．1000倍

内蒙古牙克石市小升初数学真题及答案在小数的乘法中,一个因数的小数点向左移动一位,另一个因数的小数点向右移动两位,则乘积扩大至原来的( )A．2倍B．10倍C．100倍D．1000倍难度系数:较易( ...
中国传统文化常识100条，快来提高自己吧！

中国传统文化常识100条，快来提高自己吧！
一个比 Spring Boot 快 44 倍的 Java 框架

light-java是内置了undertow http服务器的REST微服务轻量Java框架,它比Spring Boot内嵌Tomcat这样流行的微服务平台要快44倍,与Go语言fast-http性能 ...
未来，光子计算机的运算速度，将比目前传统的电子计算机快一千倍

一提起最快最大的计算机,我们往往会想到超级计算机. 很多人都认为它已经足够强大了,因为其拥有极大的数据储存容量和极快速的数据处理速度. 但是人们想干的事情太多了,超级计算机还是不够快. 不管它有多&q ...
比传统庭院美100倍的下沉式庭院，到底能不能买？有哪些利弊？（附解决方案）

有一种庭院,它巧妙利用空间高度差来分隔空间,比传统庭院美得更"含而不露",而且性价比更高,这就是下沉式庭院,正在受到越来越多年轻人的追捧. 但是也有不少朋友担心,下沉式庭院本来地势 ...
Python因为有它运行速度比C 快100倍成了编程界一哥

前言众所周知,Python 是动态语言,有全局解释器锁,比其他静态语言要慢,也正是这个原因,你也许会转向其他语言如 Java.C++,不过先等等,今天分享一个可以让 Python 比 C++ 还要快 ...
时间可以缩短1000倍中国再获技术突破，西方直呼快停下

科学技术无疑是新时代的"超级武器",随着时代的进步,人们越来越意识到科技才是第一生产力.自从我国改革开放以来,就对教育和科技发展投入了很大的心血,基于国家的支持和国内人才的培养,我 ...

一个比传统数据库快 100-1000 倍的数据库

相关推荐