Hadoop Streaming简单作业失败错误python

2023年4月5日下午10:51 • Python开发

【问题标题】：Hadoop Streaming simple job fails error pythonHadoop Streaming简单作业失败错误python
【发布时间】：2023-04-05 17:21:02
【问题描述】：

我是 hadoop 和 mapreduce 的新手，我正在尝试编写一个 mapreduce 来计算字数 txt 文件的前 10 个字数。

我的 txt 文件 'q2_result.txt' 看起来像：

yourself        268
yourselves      73
yoursnot        1
youst   1
youth   270
youthat 1
youthful        31
youths  9
youtli  1
youwell 1
youwondrous     1
youyou  1
zanies  1
zany    1
zeal    32
zealous 6
zeals   1

映射器：

#!/usr/bin/env python

import sys

for line in sys.stdin:
    line = line.strip()
    word, count = line.split()
    print "%s\t%s" % (word, count)

减速机：

#!usr/bin/env/ python

import sys

top_n = 0
for line in sys.stdin:
    line = line.strip()
    word, count = line.split()

    top_n += 1
    if top_n == 11:
        break
    print '%s\t%s' % (word, count)

我知道你可以在 Hadoop jar 命令中将标志传递给 -D 选项，以便它按你想要的键排序（在我的情况下，计数是 k2,2），这里我只是先使用一个简单的命令：

hadoop jar /usr/hdp/2.5.0.0-1245/hadoop-mapreduce/hadoop-streaming-2.7.3.2.5.0.0-1245.jar -file /root/LAB3/mapper.py -mapper mapper.py -file /root/LAB3/reducer.py -reducer reducer.py -input /user/root/lab3/q2_result.txt -output /user/root/lab3/test_out

所以我认为这样简单的映射器和减速器不应该给我错误，但它确实给了我错误，我不知道为什么，错误在这里：http://pastebin.com/PvY4d89c

（我在 Ubuntu16.04 的 virtualBox 上使用 Horton works HDP Sandbox）

【问题讨论】：

请查看stackoverflow.com/questions/4339788/…

标签：
java
python
hadoop
mapreduce
streaming

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Hadoop Streaming简单作业失败错误python - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

如何使用python检查句子中的拼写错误

上一篇 2023年4月5日

如何从python中的timedelta对象获取分钟和秒（mm：ss）

下一篇 2023年4月5日

对python中的try、except、finally 执行顺序详解

对Python中的try、except、finally 执行顺序详解在Python中，try、except和finally是我们常用的异常处理方式，有一个清晰的执行顺序很重要。在这篇攻略中，我们将详细探讨这些关键字的执行顺序，以便更有效地处理异常。 try、except和finally 先回顾一下这些关键字的含义和用途： try：执行可能会抛出异常的代码块…

python 2023年5月13日
000
python实现k均值算法示例(k均值聚类算法)

下面是详细讲解“Python实现K均值算法示例(K均值聚类算法)”的完整攻略，包含两个示例说明。 K均值算法简介 K均值算法是一种基于距离的聚类算法，它的基本思想是将数据分成K个簇，使得同一簇内的数据距离尽可能小，不同簇之间的数据距离尽可能大。K均值算法的优点是简单易用，适用于大模数据，但是需要预先指定簇的数量K。 Python实现K均值算法下面是Pyth…

python 2023年5月14日
000
Python中删除文件的几种方法实例

Python中删除文件的几种方法实例在Python中，我们可以使用多种方法来删除文件。本文将为大家介绍Python中删除文件的几种方法实例。 1. 使用os模块中的remove函数 os模块中提供了remove函数，可以用来删除文件。示例代码如下： import os file_path = ‘test.txt’ if os.path.exists(fi…

python 2023年6月2日
000
Python函数中*args和**kwargs来传递变长参数的用法

当我们要传递一个变长参数列表时，通常常用两种方式实现：使用*args *args是用来传递一个可变长度的非关键字参数列表，它会把所以传入的参数全部封装成一个元组，我们可以在函数内部通过遍历这个元组实现对传参的操作。 def foo(*args): for arg in args: print(arg) foo(1, 2, 3) 上述代码的输出结果为： 1 …

python 2023年6月5日
000
Python callable()函数用法实例分析

Python callable()函数用法实例分析 Python的callable()函数用于判断一个对象是否可以被调用，即是否为可调用对象。可调用对象包括函数、方法、类（），以及定义了__call__()方法的对象。 callable()函数语法 callable(object) object：被检查的对象。返回值：如果对象object可以被调用，返回T…

python 2023年5月19日
000
python matplotlib库的基本使用

下面我将为你详细讲解Python Matplotlib库的基本使用攻略，希望对你有所帮助。 Matplotlib库简介 Matplotlib是Python中最著名的数据可视化库之一。利用Matplotlib，开发者可以在Python程序中来创建各种图形，包括线图、条形图、散点图和多种复杂图形。Matplotlib具有丰富的配置选项，使得开发者能够定制化绘图，…

python 2023年5月18日
000
基于Python实现文件的压缩与解压缩

基于Python实现文件的压缩与解压缩文件压缩和解压缩是日常工作中常见的操作，Python提供了多种压缩和解压缩的库，如zipfile、gzip、tarfile等。本文将介绍如何使用Python实现文件的压缩和解压缩，包括使用zipfile库进行zip格式文件的压缩和解压缩，及使用gzip库进行gzip格式文件的压缩和解压缩。使用zipfile库进行zi…

python 2023年5月14日
000
python文件和目录操作方法大全（含实例）

Python文件和目录操作方法大全（含实例）这篇文章将介绍使用Python进行文件和目录操作的方法，包括查看、创建、复制、删除文件和目录等操作。同时我们也会提供示例代码，帮助你更好地理解。查看文件和目录要查看文件或目录，可以使用Python的os模块。os模块提供了许多函数和常量来访问操作系统功能。获取当前工作目录使用os.getcwd()函数可以…

python 2023年5月30日
000

合作推广

合作推广

返回顶部