Spark-数据源及机器学习算法部署

2023年4月10日下午9:58 • 机器学习

1、数据源读取

使用的时候，需要加载驱动 --jars 或者添加到classpath中或scaddjar

Spark对Oracle数据库读取，代码如下：

conf = SparkConf().setAppName(string_test)
sc = SparkContext(conf=conf)

ctx = SQLContext(sc)
sqltext = "(select dbms_lob.substr(title,500) as title,id,content,country,languages,time as publishDate,source,subject,source_url from news t where id <= 24) news"
news =ctx.read \
    .format("jdbc") \
    .option("url", "jdbc:oracle:thin:username/password@//ip:port/sid") \
    .option("dbtable", sql) \
    .option("user", "user") \
    .option("password", "password") \
    .option("driver", "oracle.jdbc.driver.OracleDriver") \
    .load()

news.registerTempTable("news")

Spark 对Mongo读数据

ctx = SQLContext(sc)
mongourl = "mongodb://username:password@ip:port"
mongoDB = "dbname"
mongoCollection = "collectionName"
mongoRows = ctx.read.format("com.mongodb.spark.sql").options(uri=mongourl,database=mongoDB, collection=mongoCollection).load()
mongoResultRdd = mongoRows.rdd

2、机器学习算法转换

机器学习算法有两类不能直接添加到spark中：

1) 包中含有复杂依赖关系的，如scipy、numpy等，scipy.special.beta函数在spark中不可以使用的。

2) 包不是.py结尾的，而是有第三方编译包的，不可以添加到spark中

解决办法：

在spark改写的代码中使用到上述相关的程序，阔以用subprocess调用python程序，以进行数据处理，然后得到程序返回结果。如下：

test= subprocess.getoutput("python /home/pytest.py \""+content.replace("\'","’")+"\"")
re= test[test.index("::")+2:len(test)].replace(" ","")

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Spark-数据源及机器学习算法部署 - Python技术站

人工智能机器学习

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

《机器学习实战》笔记——决策树（ID3）

上一篇 2023年4月10日

机器学习基石6-泛化理论

下一篇 2023年4月10日

循环神经网络

生物医学领域的关系抽取（多分类）利用循环神经网络加最大池组合模型

生物医学领域中的关系抽取其实就是多分类任务，利用有监督的深度学习模型进行训练并给出最终的实体关系；这是目前研究生自然语言处理领域中所研究的重要问题，也是一个科研硕果容易出的点，因为模型之间的合理组合就可以收获意料之外的效果，虽然效果有好有坏，发论文还是有一定困难的，还是对于那么想寻找一些新的idea想毕业的学生，这也是一个不错的研究方向。在这里本博主将简单给…

2023年4月5日
000
caffe源码分析 vector*>& bottom

Blob：4个维度 n x c x h x w； bottom[0] 、bottom[1]代表该层有几个输入。 bottom[0]->count(): 输入中，元素的总维数（个数） bottom[0]->nums(): 输入中，块（block）的个数，该参数还对应batch_size,即同时输入了几张图片 c：是卷积核（filter）的个数，每个…

Caffe 2023年4月6日
000
卷积神经网络

CNN卷积神经网络_深度残差网络 ResNet——解决神经网络过深反而引起误差增加的根本问题，Highway NetWork 则允许保留一定比例的原始输入 x。（这种思想在inception模型也有，例如卷积是concat并行，而不是串行）这样前面一层的信息，有一定比例可以不经过矩阵乘法和非线性变换，直接传输到下一层，仿佛一条信息高速公路，因此得名Highway Network

from:https://blog.csdn.net/diamonjoy_zone/article/details/70904212 环境：Win8.1 TensorFlow1.0.1 软件：Anaconda3 （集成Python3及开发环境） TensorFlow安装：pip install tensorflow (CPU版) pip install te…

2023年4月8日
000
caffe cifar10试跑问题总结

caffe cifar10试跑问题总结 [daniel] 写了一个脚本可以直接用来添加环境变量：/Users/songdanzju/daniel_script/export_for_ananconda.sh #! /bin/bash export PATH=~/ananconda/bin:$PATH export DYLD_FALLBACK_LIBRARY…

Caffe 2023年4月6日
000
目标检测之圆形检测—-霍夫检测

http://blog.csdn.net/wuyou_365/article/details/8124664 http://blog.csdn.net/jinshengtao/article/details/23122269

目标检测 2023年4月6日
000
机器学习实践之决策树算法学习

关于本文说明，本人原博客地址位于http://blog.csdn.net/qq_37608890，本文来自笔者于2017年12月06日 18:06:30所撰写内容（http://blog.csdn.net/qq_37608890/article/details/78731169）。本文根据最近学习机器学习书籍网络文章的情况,特将一些学习思路做了归…

机器学习 2023年4月11日
000
pytorch矩阵乘法

torch.mm(mat1, mat2) performs a matrix multiplication of mat1 and mat2 a = torch.randint(0, 5, (2, 3)) # tensor([[3, 3, 2], # [2, 2, 2]]) b = torch.randint(0, 6, (3, 1)) # tensor([…

PyTorch 2023年4月7日
000
目标检测

目标检测学习（2）map计算

一、前言本篇主要介绍Map的计算，主要参考以下两篇文章 https://blog.csdn.net/hsqyc/article/details/81702437 https://blog.csdn.net/zhou4411781/article/details/105839357 二、TP、TN、FP、FN 这4个值由以下图就很好理解了 TP：实际…

2023年4月8日
000

合作推广

合作推广

返回顶部