Python工具箱系列(三十一)

Neo4j是一个高性能的开源的,使用Java语言实现的NoSQL图数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。现实中很多数据都是用图来表达的,比如社交网络中人与人的关系、地图数据、或是基因信息等等。RDBMS并不适合表达这类数据,而且由于海量数据的存在,让其显得捉襟见肘。NoSQL数据库的兴起,很好地解决了海量数据的存放问题,图数据库也是NoSQL的一个分支,相比于NoSQL中的其他分支,它很适合用来原生表达图结构的数据。图数据库存储的结构就如同计算机科学中的数据结构中所论述的图,由顶点和边组成。

Neo4j适用于图形一类数据,例如:社会关系,公共交通网络,地图及网络拓扑。Neo4j并为此专门进行了算法优化,也开发了相关的查询语言。这是Neo4j与其他NoSQL数据库的最显著区别。Neo4j不适用于:

◆记录大量基于事件的数据(例如日志条目或传感器数据)

◆对大规模分布式数据进行处理,类似于Hadoop

◆二进制数据存储

◆适合于保存在关系型数据库中的结构化数据

Neo4j提供了免费的社区版本,在数据量不大的情况下,可以用于开发。大规模部署与应用建议购买企业版。在ubuntu bionic下的安装过程如下所示:

wget -O - https://debian.neo4j.com/neotechnology.gpg.key | sudo apt-key add -
echo 'deb https://debian.neo4j.com stable latest' | sudo tee /etc/apt/sources.list.d/neo4j.list
sudo apt-get update

# 安装社区版本
sudo apt-get install -y neo4j

# 安装企业版本
sudo apt-get install -y neo4j-enterprise

systemctl status neo4j
systemctl start neo4j
systemctl enable neo4j

# 直接在本地检测是否安装成功
curl http://localhost:7474/

同样的,缺省情况下是只接受本地访问要求,可以编辑/etc/neo4j/neo4j.conf文件增加"dbms.default_listen_address=0.0.0.0"这一行,随后重新启动服务即可远程访问:

sed -i '$adbms.default_listen_address=0.0.0.0' /etc/neo4j/neo4j.conf
systemctl restart neo4j

以上使用sed命令增加了绑定地址,随后使用主流的浏览器(Edge,firefox,chrome)就可以访问数据库,如下图所示:

Python工具箱系列(三十一)

第一次访问时的缺省用户名与口令均是Neo4j,登录后需要修改。随后就进入到工作界面如下:

Python工具箱系列(三十一)

也可以使用传统的数据库客户端如DBeaver来访问Neo4j数据库。此时的连接属性设置如下图所示:

Python工具箱系列(三十一)

与SQL类似,Neo4j推出了专用于图的声明性文本查询语言Cypher。Cypher包含语句、关键词和表达式,比如谓词、函数等,其中很多大家都很熟悉(如WHERE,ORDER BY,SKIP LIMIT,AND,p.unitPrice > 10)。与SQL不同,Cypher完全是表达图模式的。添加了一个特殊子句MATCH来匹配数据中的这些模式。使用圆括号表示节点实体的圆,比如:(p:Product)。而关系的箭头使用-->来表达。Cypher语言在其它方面的重点是图概念,例如路径、可变长度路径、最短路径函数;列表上许多功能,操作和谓词的支持以及链接查询的功能。使用Cypher可以更新图结构和数据,甚至导入大量的CSV数据。通过用户定义的过程能够扩展语言。通过openCypher项目,Cypher已经成为一种现代图查询语言的开放标准,并且得到了多家数据库公司的支持。其语法可以参考[语法卡](https://neo4j.com/docs/cypher-refcard/current/)。

可以通过多种方式来访问Neo4j数据库:

◆ 使用命令行工具如Cypher shell等

◆使用主流的浏览器访问,Neo4j称为Neo4j browser

◆其它第三方工具软件

模仿movie graph,我们建立一个中文的图数据库。相关创建内容如下:

CREATE (Jiangshuying:Person {name:'江疏影', born:1986})
CREATE (胡哥:Person {name:'胡哥', born:1982})
CREATE (Jindong:Person {name:'靳东', born:1976})
CREATE (万莤:Person {name:'万莤', born:1982})
CREATE (Gentlemen:Teleplay {title:"恋爱先生", released:2017})
CREATE (NothingButThirty:Teleplay {title:'三十而已', released:2020})
CREATE (外科风云:Teleplay {title:'外科风云', released:2017})
CREATE (伪装者:Teleplay {title:'伪装者', released:2015})
CREATE (好先生:Teleplay {title:'好先生', released:2016})
CREATE (县委大院:Teleplay {title:'县委大院', released:2022})
CREATE (Jiangshuying)-[:ACTED_IN {roles:['江莱']}]->(好先生)
CREATE (Jiangshuying)-[:ACTED_IN {roles:['罗钥']}]->(Gentlemen)
CREATE (Jiangshuying)-[:ACTED_IN {roles:['王漫妮']}]->(NothingButThirty)
CREATE (Jindong)-[:ACTED_IN {roles:['庄恕']}]->(外科风云)
CREATE (Jindong)-[:ACTED_IN {roles:['明楼']}]->(伪装者)
CREATE (Jindong)-[:ACTED_IN {roles:['Boss']}]->(Gentlemen)
CREATE (胡哥)-[:ACTED_IN {roles:['明台']}]->(伪装者)
CREATE (胡哥)-[:ACTED_IN {roles:['梅晓哥']}]->(县委大院)
CREATE (万莤)-[:ACTED_IN {roles:['徐丽']}]->(好先生)

此时形成的知识图谱如下所示:

Python工具箱系列(三十一)

由此可见Neo4j对中文的支持非常好,可以混合用中英文来建立自己的知识图谱。下面的代码显示了,寻找万莤与胡哥间相互认识的最短路径。

match p=shortestpath((:Person {name:'江疏影'})-[*]-(:Person {name:'胡哥'})) return p

查询结果如下图所示:

Python工具箱系列(三十一)

当然这只是一个示例,因为并没有真正梳理每个人的关系,仅仅是从现有的知识中计算出来的。对于知识图谱来说,信息越充分,威力越巨大。

需要注意的是,以上命令必须一次性输入执行完成,否则就会出现看起来是一样的节点,但Neo4j会认为是不同的对象,从而形成意料之外的节点与关系。

Python操作知识图谱

安装了Py2neo就可以使用Python操作Neo4j了。我们也就可以在线处理大规模的数据,实现知识图谱的自动构建了。安装方法非常简单,直接在cmd中输入下列命令即可:

pip install py2neo

以下代码创建了一个极简的知识图谱,如下图所示:

Python工具箱系列(三十一)

示例代码如下所示:

from py2neo import Node, Relationship, Graph, NodeMatcher, RelationshipMatcher

# 远端NEO4J服务器
test_graph = Graph('http://172.20.103.169:7474',auth=('neo4j','88488848'))

A = Node("员工", name="张三", PID = 100)
B = Node("员工", name="李四", PID = 100)
C = Node("公司", name="西安衍舆",  CID = 99)
test_graph.create(A)
test_graph.create(B)
test_graph.create(C)
test_graph.create(Relationship(A, "工作于", C))
test_graph.create(Relationship(B, "工作于", C))

print(test_graph.nodes.match('员工').all())

从图中可以看出,Neo4j对于中文的支持是非常好的。能够以非常符合中文习惯的方式写出相关知识。真正能够实用的知识图谱必须是日积月累的过程,有了称手的工具后,知识本身的正确性才是重点。

原文链接:https://www.cnblogs.com/shanxihualu/p/17391082.html

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python工具箱系列(三十一) - Python技术站

(0)
上一篇 2023年5月11日
下一篇 2023年5月11日

相关文章

  • Python Web框架之Django框架文件上传功能详解

    在Django框架中,文件上传是一个常见的功能。以下是PythonWeb框架之Django框架文件上传功能详解的详细攻略: 创建文件上传表单 要创建文件上传表单,可以使用forms模块。以下是创建文件上传表单的示例: from django import forms class UploadFileForm(forms.Form): title = form…

    python 2023年5月14日
    00
  • 关于Django框架的关系模型序列化和一对多关系中的序列化解析

    首先我们来讲解Django框架中的关系模型序列化。 关系模型序列化 关系模型指的是模型中的外键关系,比如一个Blog模型有多个Article模型,我们把Article模型作为Blog模型的外键,用ForeignKey字段来表示,这就构成了一个一对多的关系模型。在Django中,我们可以通过使用序列化器对关系模型进行序列化。 我们先定义一个Blog模型和一个A…

    python 2023年6月6日
    00
  • python安装包出现Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None))问题解决

    当我们在安装Python或Python的包时,有时会遇到“Retrying(Retry(total=4,connect=None,read=None,redirect=None,status=None))”这样的错误信息。 这是由于连接服务器时网络断开或服务器响应超时导致的。在此,我将分享如何解决这个问题,步骤如下: 步骤一:更新pip 首先,你需要先更新p…

    python 2023年5月13日
    00
  • python中list*n生成多维数组与for循环生成多维数组的区别说明

    以下是“python中list*n生成多维数组与for循环生成多维数组的区别说明”的完整攻略。 1.list*n生成多维数组 在Python中,可以使用list*n的方式生成多维数组。示例如下: my_list = [[0] * 3] * 3 print(my_list) # 输出[[0, 0, 0], [0, 0, 0], [0, 0, 0]] 在上面的示…

    python 2023年5月13日
    00
  • Python语法学习之正则表达式的量词汇总

    以下是“Python语法学习之正则表达式的量词汇总”的完整攻略: 一、问题描述 在Python中,正则表达式是一种用于匹配和提取文本数据的强大工具。正则表达式中的量词用于指定匹配的次数,包括匹配0次、1次、多次等情况。本文将详细讲解Python中正则表达式的量词,包括匹配0次、1次、多次等情况,并提供两个示例说明。 二、解决方案 2.1 匹配0次 在正则表达…

    python 2023年5月14日
    00
  • Python中AI图像识别实现身份证识别

    首先我们要介绍一下Python中的图像识别库——OpenCV。OpenCV是一个开源的计算机视觉库,它具有一系列丰富而强大的图像处理和计算机视觉算法,能够帮助我们实现图像识别的功能。 接下来,我们就可以使用OpenCV来实现身份证识别的功能了。具体步骤如下: 首先,我们需要安装OpenCV库。可以使用pip命令进行安装,命令如下: pip install o…

    python 2023年5月18日
    00
  • Python中的模块是什么?如何导入和使用模块?

    Python模块是什么? Python模块是一个包含了定义变量、函数、类等的可重用代码的文件,它允许我们在一个程序中分解代码成多个代码块。模块使得我们的代码更加的清晰、组织好,同时也方便其他开发者阅读和使用我们的代码。 Python中有两种类型的模块——内置模块和外部模块。内置模块是Python自带的,可以直接使用。外部模块则需要通过pip等包管理工具进行安…

    python 2023年4月19日
    00
  • 对Python新手编程过程中如何规避一些常见问题的建议

    当Python新手开始编写代码时,常常会遇到一些困难和问题。以下是几条建议和技巧,可以帮助新手规避一些常见的问题,顺利完成编程过程。 熟悉Python的基础语法和常用函数 在开始编写代码之前,新手需要熟悉Python的基础语法和常用函数。例如,了解Python的变量、条件语句、循环语句等基本语法,以及一些常用的内置函数(如print、type、len等),可…

    python 2023年5月13日
    00
合作推广
合作推广
分享本页
返回顶部