PAI-STUDIO在支持OSS数据源的基础上,增加了对MaxCompute表的数据支持。用户可以直接使用PAI-STUDIO的Tensorflow组件读写MaxCompute数据,本教程将提供完整数据和代码供大家测试。
详细流程
为了方便用户快速上手,本文档将以训练iris数据集为例,介绍如何跑通实验。
1.读数据表组件
为了方便大家,我们提供了一份公共读的数据供大家测试,只要拖出读数据表组件,输入:
即可获取数据,
数据格式如图:
2.Tensorflow组件说明
3个输入桩从左到右分别是OSS输入、MaxCompute输入、模型输入。2个输出桩分别是模型输出、MaxCompute输出。如果输入是一个MaxCompute表,输出也是一个MaxCompute表,需要按下图方法连接。
读写MaxCompute表需要配置数据源、代码文件、输出模型路径、建表等操作。
- Python代码文件:需要把执行代码放到OSS路径下(注意OSS需要与当前项目在同一区域),本文提供的代码可以在下方连接下载(代码需要按照下方代码说明文案调整):http://docs-aliyun.cn-hangzhou.oss.aliyun-inc.com/assets/attach/129749/cn_zh/1565333220966/iristest.py?spm=a2c4g.11186623.2.10.50c46b36PlNwcq&file=iristest.py
- Checkpoint输出目录/模型输入目录:选择自己的OSS路径用来存放模型
- MaxCompute输出表:写MaxCompute表要求输出表是已经存在的表,并且输出的表名需要跟代码中的输出表名一致。在本案例中需要填写“iris_output”
- 建表SQL语句:如果代码中的输出表并不存在,可以通过这个输入框输入建表语句自动建表。本案例中建表语句“create table iris_output(f1 DOUBLE,f2 DOUBLE,f3 DOUBLE,f4 DOUBLE,f5 STRING);”
组件PAI命令
上述命令中的${}需要替换成用户真实数据
3.代码说明
- 读数据表
tables = [FLAGS.tables]
filename_queue = tf.train.string_input_producer(tables, num_epochs=1)
reader = tf.TableRecordReader()
key, value = reader.read(filename_queue)
record_defaults = [[1.0], [1.0], [1.0], [1.0], ["Iris-virginica"]]
其中FLAGS.tables是前端配置的输入表名的传参变量,对应组件的MaxCompute输入桩:
- 写数据表
writer = tf.TableRecordWriter("odps://pai_bj_test2/tables/iris_output")
write_to_table = writer.write([0, 1, 2, 3, 4], [col1, col2, col3, col4, col5])
TableRecordWriter中的格式为odps://当前项目名/tables/输出表名
本文作者:傲海
本文为云栖社区原创内容,未经允许不得转载。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:PAI-STUDIO通过Tensorflow处理MaxCompute表数据 - Python技术站