生物医学领域中的关系抽取其实就是多分类任务,利用有监督的深度学习模型进行训练并给出最终的实体关系;这是目前研究生自然语言处理领域中所研究的重要问题,也是一个科研硕果容易出的点,因为模型之间的合理组合就可以收获意料之外的效果,虽然效果有好有坏,发论文还是有一定困难的,还是对于那么想寻找一些新的idea想毕业的学生,这也是一个不错的研究方向。
在这里本博主将简单给出该模型的一种实现方式,并给出该模型的实现代码和结果语料,python实现环境为:
Python SciPy环境,Python 3以上版本。你必须使用tensorflow1.4.0。并已经安装了scikit-learn,Pandas,NumPy和Matplotlib等各种库。
目的:SemEval-2010任务(即有监督的多分类任务)
例:
“ 碗里有苹果,梨和橘子。” → CONTENT-CONTAINER(梨,碗)
“杯中盛着干人参茶。” → ENTITY-ORIGIN(茶,人参)
语义关系清单
原因 - 效应(CE):事件或对象导致效应(这些癌症是由辐射暴露引起的)
仪器 - 代理(IA):代理使用仪器(电话运营商)
产品 - 生产者(PP):生产者使产品存在(工厂生产西装)
内容容器(CC):一个物体被物理存储在空间划分的区域(一个充满蜂蜜的瓶子被称重)Hendrickx,Kim,Kozareva,Nakov,OS’eaghdha,Pad’o,'Pennacchiotti,Romano,Szpakowicz Task概述数据创建竞争结果和讨论语义关系清单(III)
实体原产地(EO):实体来自或源自原产地,例如,位置或材料(来自国外的信函)
实体 - 目的地(ED):实体正朝着目的地移动(男孩去睡觉)
组件 - 整体(CW):一个物体是一个较大整体的组成部分(我的公寓有一个大厨房)
成员集合(MC):成员构成集合的非功能部分(森林中有许多树)
消息主题(CT):一种书面或口头交流行为是关于一个话题的(讲座是关于语义的)
其他:如果上述九种关系都不适合。
数据集的分配
模型结构图:
双向RNN(Bi-RNN)用于实现左右上下文向量。
通过移位Bi-RNN的输出并连接指示上下文的开始的零状态来创建每个上下文向量
核心代码实现
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:生物医学领域的关系抽取(多分类)利用循环神经网络加最大池组合模型 - Python技术站