Python工具箱系列(二十六)

ClickHouse(Click Stream,Data WareHouse)是俄罗斯的 Yandex于2016年开源的用于在线分析处理查询(OLAP:Online Analytical Processing)MPP架构的列式存储数据库(DBMS:Database Management System),能够使用 SQL 查询实时生成分析数据报告。特别值得称道的是Clickhouse没有走hadoop生态,采用 Local attached storage 作为存储,而hadoop目前已经发展的臃肿不堪了。

Clickhouse的特点有:

  • 列式存储,在特定场景下,能够获得很高的访问效率,并且节省空间

  • DBMS功能。几乎覆盖了标准SQL的大部分语法,为传统数据库使用者提供熟悉的操控体验

  • 多样化引擎

  • 高吞吐写入能力

  • 数据分区分片

  • 单表查询性能优异,多表JOIN查询较差

  • 适合于OLAP应用场景

  • Clickhouse社区活跃度高、版本迭代非常快,几乎几天到十几天更新一个小版本,我们非常看好它以后的发展。

Clickhouse之所以速度超快,在于其优良的系统架构设计,以及多个方向的优化。

主要包括:

  • 底层C++可以充分利用硬件优势

  • 摒弃了hadoop生态

  • 数据底层以列式存储

  • 利用单节点的多核并行处理

  • 为数据建立索引一级、二级、稀疏索引

  • 使用大量的算法处理数据

  • 支持向量化处理

  • 预先设计运算模型-预先计算

  • 分布式处理数据

一、安装

Clickhouse能够运行在linux/macos上,对于windows仍然支持不够,不建议在windows上尝试安装,但可以在windows上安装它的客户端。与Clickhouse官网提供的安装方式不同,我们选择使用apt安装。

 

主要原因是:

 

  • 虽然可以一键安装,但对于网络连接的要求高,稍有错误则前功尽弃

  • 大规模安装时,无法控制进度与验证

  • 无法利用缓冲机制,因此不可能在离线环境下完成安装

 

在ubuntu bionic上的安装过程如下所示:

sudo apt-get update
sudo apt-get -y install apt-transport-https ca-certificates dirmngr
sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv E0C56BD4
echo "deb https://repo.clickhouse.tech/deb/stable/ main/" | sudo tee /etc/apt/sources.list.d/clickhouse.list
sudo apt-get update
sudo apt-get install -y clickhouse-server clickhouse-client

# 安装成功后以服务方式启动
sudo service clickhouse-server start

# 使用客户端连接
clickhouse-client --password

服务器配置文件位于/etc/clickhouse-server/config.xml。默认绑定在回环地址(127.0.0.1)上,可以使用下述方式改变为远程访问支持。

vi /etc/clickhouse-server/config.xml
# <listen_host>::</listen_host>
sed -i 's/127.0.0.1/::/g' /etc/clickhouse-server/config.xml
cat /etc/clickhouse-server/config.xml |grep listen_host

二、python访问

 

Clickhouse官网列出了python对应的库:

 

  • infi.clickhouse_orm

  • clickhouse-driver

  • clickhouse-client

  • aiochclient

  • asynch

国内应用较为广泛的是Clickhouse-driver,安装过程如下:

 

pip install clickhouse-driver

 

访问的示范代码如下:

from clickhouse_driver import Client

ch_host = '192.168.0.66'
user = 'default'
password = '8848is8848'
dbname = 'default'
tbname = 'pm25'

# 连接并且查询
client = Client(host=ch_host,user=user,password=password)

def query(sqlstr):
    result = client.execute(sqlstr)
    print(result)

query('show databases')
query(f"DROP TABLE IF EXISTS {tbname}")
query(f"CREATE TABLE {tbname} (x Int32) ENGINE = Memory")
query('show tables')
client.execute(f'insert into {tbname} values',((x,) for x in range(100)))
query(f'SELECT * FROM {tbname} where x > 49 LIMIT 5')

以上代码与普通的数据库操作类似,还没有体现出Clickhouse的优势。后续文章将以海量测量数据为例,对Clickhouse与正宗的关系数据库进行比较。

 

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python工具箱系列(二十六) - Python技术站

(0)
上一篇 2023年3月31日
下一篇 2023年3月31日

相关文章

  • Python工具箱系列(六)

    相比较于windows下安装python,在Linux下安装python实际上是一个非常困难的选择。首先要解决的就是选择哪个发行版本的问题。Linux的内核掌握在技术团队中,但是Linux发行版本则掌握在不同的公司手中。不同的公司出于不同的考虑,在Linux内核的基础上,打包了不同的应用程序,安装了不同的包管理器,实现了不同的发布策略,这就导致了数以百计的发…

    Python开发 2023年4月2日
    00
  • Python工具箱系列(二十)

    数据库操作应是所有合格程序员的基本功,写的一手好SQL对于数据分析师而言更是安身立命之本。大部分软件开发人员使用的数据库都是MySql/MariaDB,毕竟LAMP(linux+apache+mysql+php)曾经风靡一时。但开发人员真正的瑞士小军刀却是SQLite,它是世界上装机量第一的嵌入式数据库。 SQLite最初的构思是在一条军舰上进行的。当时在通…

    2023年4月2日
    00
  • Python工具箱系列(三十)

    PostgreSQL MySQL的口号是“世界上最流行的开源关系型数据库”,而PostgreSQL的Slogan则是“世界上最先进的开源关系型数据库(PostgreSQL: The World’s Most Advanced Open Source Relational Database)”,一看这就是一对老冤家了。这两个口号很好的反映出了两者的形象特质:P…

    python 2023年5月8日
    00
  • Python工具箱系列(二十三)

    基于游标得操作 游标是数据库操作的相对底层的能力。简单的操作如下: import mysql.connector import random host = ‘localhost’ user = ‘root’ password = ‘8848is8848’ dbname = ‘demodb’ def fakedata(maxtimes): # 连接数据库 de…

    2023年3月31日
    00
  • Python工具箱系列(十九)

    有了非对称密钥、摘要、对称密钥等现代密码学算法与技术,是不是就能够保证通信的安全无虞呢,并不是。 密码学在互联网应用的四个目标:机密性、完整性、身份验证、防抵赖。到目前为止,我们讨论的技术中,其中防抵赖的目标并没有达到。 假设A、B、C三个人共享一个对称加密算法密钥,现在A和B互相通信,A和B一直认为是双方在发送消息。由于C也有同样的密钥,它可以拦截A发往B…

    Python开发 2023年4月2日
    00
  • Python工具箱系列(八)

    前面我们提到过,有以下工具都可以开发Python代码: 直接使用Python解释器。运行Python就可以得到一个交互式命令行界面,可以简单的测试代码。作为Python入门,写代码不超过10行,完全可用。如果想开发大型代码,这个真心很难用。 使用IPython,也是命令行界面,但内置非常方便的各种宏与功能。比单纯的Python交互界面强太多。在某些情况下,例…

    2023年4月2日
    00
  • Python工具箱系列(二十五)

    Redis是一个开源的使用ANSIC语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。从2010年3月15日起,Redis的开发工作由VMware主持。从2013年5月开始,Redis的开发由Pivotal赞助。Redis是一个nosql数据库。nosql是not-only sql的意思,泛指非关系型数据库。…

    Python开发 2023年3月31日
    00
  • Python工具箱系列(十八)

    非对称加解密应用广泛,它的存在是致力于解决密钥通过公共信道传输这一经典难题。对称加密有一个天然的缺点,就是加密方和解密方都要持有同样的密钥,而这个密钥在传递过程中有可能会被截获,从而使加解密失效。难不成还要为密钥的传输再做一次加密?这样不就陷入了死循环?或许有人在想,密钥即使被盗取,不还有加密算法保证信息安全吗?但任何算法最终都会被破译,所以不能依赖算法的复…

    Python开发 2023年4月2日
    00
合作推广
合作推广
分享本页
返回顶部