Python工具箱系列(二十六)

ClickHouse(Click Stream,Data WareHouse)是俄罗斯的 Yandex于2016年开源的用于在线分析处理查询(OLAP:Online Analytical Processing)MPP架构的列式存储数据库(DBMS:Database Management System),能够使用 SQL 查询实时生成分析数据报告。特别值得称道的是Clickhouse没有走hadoop生态,采用 Local attached storage 作为存储,而hadoop目前已经发展的臃肿不堪了。

Clickhouse的特点有:

  • 列式存储,在特定场景下,能够获得很高的访问效率,并且节省空间

  • DBMS功能。几乎覆盖了标准SQL的大部分语法,为传统数据库使用者提供熟悉的操控体验

  • 多样化引擎

  • 高吞吐写入能力

  • 数据分区分片

  • 单表查询性能优异,多表JOIN查询较差

  • 适合于OLAP应用场景

  • Clickhouse社区活跃度高、版本迭代非常快,几乎几天到十几天更新一个小版本,我们非常看好它以后的发展。

Clickhouse之所以速度超快,在于其优良的系统架构设计,以及多个方向的优化。

主要包括:

  • 底层C++可以充分利用硬件优势

  • 摒弃了hadoop生态

  • 数据底层以列式存储

  • 利用单节点的多核并行处理

  • 为数据建立索引一级、二级、稀疏索引

  • 使用大量的算法处理数据

  • 支持向量化处理

  • 预先设计运算模型-预先计算

  • 分布式处理数据

一、安装

Clickhouse能够运行在linux/macos上,对于windows仍然支持不够,不建议在windows上尝试安装,但可以在windows上安装它的客户端。与Clickhouse官网提供的安装方式不同,我们选择使用apt安装。

 

主要原因是:

 

  • 虽然可以一键安装,但对于网络连接的要求高,稍有错误则前功尽弃

  • 大规模安装时,无法控制进度与验证

  • 无法利用缓冲机制,因此不可能在离线环境下完成安装

 

在ubuntu bionic上的安装过程如下所示:

sudo apt-get update
sudo apt-get -y install apt-transport-https ca-certificates dirmngr
sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv E0C56BD4
echo "deb https://repo.clickhouse.tech/deb/stable/ main/" | sudo tee /etc/apt/sources.list.d/clickhouse.list
sudo apt-get update
sudo apt-get install -y clickhouse-server clickhouse-client

# 安装成功后以服务方式启动
sudo service clickhouse-server start

# 使用客户端连接
clickhouse-client --password

服务器配置文件位于/etc/clickhouse-server/config.xml。默认绑定在回环地址(127.0.0.1)上,可以使用下述方式改变为远程访问支持。

vi /etc/clickhouse-server/config.xml
# <listen_host>::</listen_host>
sed -i 's/127.0.0.1/::/g' /etc/clickhouse-server/config.xml
cat /etc/clickhouse-server/config.xml |grep listen_host

二、python访问

 

Clickhouse官网列出了python对应的库:

 

  • infi.clickhouse_orm

  • clickhouse-driver

  • clickhouse-client

  • aiochclient

  • asynch

国内应用较为广泛的是Clickhouse-driver,安装过程如下:

 

pip install clickhouse-driver

 

访问的示范代码如下:

from clickhouse_driver import Client

ch_host = '192.168.0.66'
user = 'default'
password = '8848is8848'
dbname = 'default'
tbname = 'pm25'

# 连接并且查询
client = Client(host=ch_host,user=user,password=password)

def query(sqlstr):
    result = client.execute(sqlstr)
    print(result)

query('show databases')
query(f"DROP TABLE IF EXISTS {tbname}")
query(f"CREATE TABLE {tbname} (x Int32) ENGINE = Memory")
query('show tables')
client.execute(f'insert into {tbname} values',((x,) for x in range(100)))
query(f'SELECT * FROM {tbname} where x > 49 LIMIT 5')

以上代码与普通的数据库操作类似,还没有体现出Clickhouse的优势。后续文章将以海量测量数据为例,对Clickhouse与正宗的关系数据库进行比较。

 

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python工具箱系列(二十六) - Python技术站

(0)
上一篇 2023年3月31日
下一篇 2023年3月31日

相关文章

  • Python工具箱系列(十九)

    有了非对称密钥、摘要、对称密钥等现代密码学算法与技术,是不是就能够保证通信的安全无虞呢,并不是。 密码学在互联网应用的四个目标:机密性、完整性、身份验证、防抵赖。到目前为止,我们讨论的技术中,其中防抵赖的目标并没有达到。 假设A、B、C三个人共享一个对称加密算法密钥,现在A和B互相通信,A和B一直认为是双方在发送消息。由于C也有同样的密钥,它可以拦截A发往B…

    Python开发 2023年4月2日
    00
  • Python工具箱系列(三十一)

    Neo4j是一个高性能的开源的,使用Java语言实现的NoSQL图数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。现实中很多数据都是用图来表达的,比如社交…

    python 2023年5月11日
    00
  • Python工具箱系列(三十)

    PostgreSQL MySQL的口号是“世界上最流行的开源关系型数据库”,而PostgreSQL的Slogan则是“世界上最先进的开源关系型数据库(PostgreSQL: The World’s Most Advanced Open Source Relational Database)”,一看这就是一对老冤家了。这两个口号很好的反映出了两者的形象特质:P…

    python 2023年5月8日
    00
  • Python工具箱系列(六)

    相比较于windows下安装python,在Linux下安装python实际上是一个非常困难的选择。首先要解决的就是选择哪个发行版本的问题。Linux的内核掌握在技术团队中,但是Linux发行版本则掌握在不同的公司手中。不同的公司出于不同的考虑,在Linux内核的基础上,打包了不同的应用程序,安装了不同的包管理器,实现了不同的发布策略,这就导致了数以百计的发…

    Python开发 2023年4月2日
    00
  • Python工具箱系列(二十五)

    Redis是一个开源的使用ANSIC语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。从2010年3月15日起,Redis的开发工作由VMware主持。从2013年5月开始,Redis的开发由Pivotal赞助。Redis是一个nosql数据库。nosql是not-only sql的意思,泛指非关系型数据库。…

    Python开发 2023年3月31日
    00
  • Python工具箱系列(二十一)

    准备数据 为了方便准备试验用的数据,建议使用Faker这个库来模拟。Faker是一个Python软件包,可生成伪造数据。无论是需要引导数据库,创建美观的XML文档,填充持久性以进行压力测试,还是匿名化来自生产服务的数据,Faker都能完美实现。 pip install faker 以下代码生成姓名、性别这类最常用的试验数据。 from faker impor…

    Python开发 2023年3月31日
    00
  • Python工具箱系列(十七)

    很多软件工程师都认为MD5是一种加密算法,然而这种观点是不对的。作为一个 1992 年第一次被公开的算法,到今天为止已经被发现了一些致命的漏洞。本文讨论MD5在密码保存方面的一些问题。 假设下面一个场景:   软件产品让用户输入用户名与口令,随即使用MD5算法将口令(明文)转变成为摘要值。 用户登录时,用户输入的口令,也使用MD5进行计算,然后与存储的MD5…

    2023年4月2日
    00
  • Python工具箱系列(十四)

    上文介绍了命令行方式来对文件进行加解密操作。本文将继续在此基础上,实现一个快速简易的GUI界面方便操作,先上代码看效果。 import argparse import configparser import json import os import struct import sys from configparser import ConfigParse…

    2023年4月2日
    00
合作推广
合作推广
分享本页
返回顶部