Hadoop Streaming简单作业失败错误python

2023年4月5日下午10:51 • Python开发

yizhihongxing

【问题标题】：Hadoop Streaming simple job fails error pythonHadoop Streaming简单作业失败错误python
【发布时间】：2023-04-05 17:21:02
【问题描述】：

我是 hadoop 和 mapreduce 的新手，我正在尝试编写一个 mapreduce 来计算字数 txt 文件的前 10 个字数。

我的 txt 文件 'q2_result.txt' 看起来像：

yourself        268
yourselves      73
yoursnot        1
youst   1
youth   270
youthat 1
youthful        31
youths  9
youtli  1
youwell 1
youwondrous     1
youyou  1
zanies  1
zany    1
zeal    32
zealous 6
zeals   1

映射器：

#!/usr/bin/env python

import sys

for line in sys.stdin:
    line = line.strip()
    word, count = line.split()
    print "%s\t%s" % (word, count)

减速机：

#!usr/bin/env/ python

import sys

top_n = 0
for line in sys.stdin:
    line = line.strip()
    word, count = line.split()

    top_n += 1
    if top_n == 11:
        break
    print '%s\t%s' % (word, count)

我知道你可以在 Hadoop jar 命令中将标志传递给 -D 选项，以便它按你想要的键排序（在我的情况下，计数是 k2,2），这里我只是先使用一个简单的命令：

hadoop jar /usr/hdp/2.5.0.0-1245/hadoop-mapreduce/hadoop-streaming-2.7.3.2.5.0.0-1245.jar -file /root/LAB3/mapper.py -mapper mapper.py -file /root/LAB3/reducer.py -reducer reducer.py -input /user/root/lab3/q2_result.txt -output /user/root/lab3/test_out

所以我认为这样简单的映射器和减速器不应该给我错误，但它确实给了我错误，我不知道为什么，错误在这里：http://pastebin.com/PvY4d89c

（我在 Ubuntu16.04 的 virtualBox 上使用 Horton works HDP Sandbox）

【问题讨论】：

请查看stackoverflow.com/questions/4339788/…

标签：
java
python
hadoop
mapreduce
streaming

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Hadoop Streaming简单作业失败错误python - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

如何使用python检查句子中的拼写错误

上一篇 2023年4月5日

如何从python中的timedelta对象获取分钟和秒（mm：ss）

下一篇 2023年4月5日

Python+xlwings制作天气预报表

下面是关于 “Python+xlwings制作天气预报表”的完整实例教程。介绍 Python 是一种广泛应用于数据处理、数据分析和机器学习的高级编程语言，而 xlwings 是一个用于在 Excel 中使用 Python 的工具。本教程将向你展示如何使用 Python 和 xlwings 制作一个天气预报表。前置条件在开始之前，你需要事先安装好 Pyt…

python 2023年5月13日
000
几款好用的python工具库(小结)

接下来让我来详细讲解一下“几款好用的Python工具库(小结)”的攻略。一、前言 Python是一门广泛应用于编程开发、数据处理、人工智能等领域的动态语言，因其简洁易学、方便高效的特性，逐渐被越来越多的人所熟悉和喜爱。而在Python编程中，工具库是一个不可或缺的组成部分，它可以帮助我们大大提高开发效率，让我们的程序更加健壮、高效。在这篇文章中，我将为大…

python 2023年5月14日
000
如何在python中找到离线串最近的点？

【问题标题】：How to find closest point to a linestring in python?如何在python中找到离线串最近的点？【发布时间】：2023-04-05 14:04:02 【问题描述】：我有 2 个数据框，第一个有线串，第二个有很多点。我想找到最接近线串的点。我尝试了一些东西，但我想它不起作用。我该怎么做？这是我…

Python开发 2023年4月5日
000
Python 给下载文件显示进度条和下载时间的实现

使用urllib库下载文件并显示进度条和下载时间首先，我们需要导入必要的库：urllib.request、tqdm、time。 import urllib.request from tqdm import tqdm import time 然后，我们定义一个函数来下载文件。这个函数需要传入两个参数：文件的url和保存路径。 def download_fil…

python 2023年6月2日
000
修改xml文件再也不用重启项目mybatis-xmlreload方法

很高兴为您讲解“修改xml文件再也不用重启项目mybatis-xmlreload方法”的完整攻略。背景在使用MyBatis进行开发时，我们常常需要修改mapper.xml文件。然而每次修改完毕后，为了让这些修改生效，我们都需要重启应用程序。这对于频繁修改mapper.xml文件的场景来说，无疑是非常麻烦的。本文将介绍如何使用mybatis-xmlrel…

python 2023年6月3日
000
python_mask_array的用法

Python中mask_array的用法 mask_array是numpy中的一个函数，可以用来创建布尔掩码数组，其中每个元素都会被随机地选择是否被屏蔽（即赋值为False），从而创建一个与原始数组相同形状的数组，其中部分值被屏蔽。这个函数的主要参数是输入的数组和被屏蔽的比例，默认情况下，比例为50%。例如： import numpy as np arr …

python 2023年6月5日
000
Python之random库的常用函数有哪些

接下来我会详细讲解“Python之random库的常用函数有哪些”的完整攻略。一、背景介绍 Python之random库是Python标准库中的一个模块，主要用来生成随机数。它提供了各种生成随机数的函数，包括生成整数、浮点数、随机序列等。其中，常用的函数包括：二、常用函数介绍 1. random() random()函数用于生成0到1之间的随机浮点数。示…

python 2023年6月3日
001
浅谈Python协程

浅谈Python协程什么是协程协程是一种非常轻量级的线程，也称为微线程或者用户空间线程。协程与线程不同的是，线程由操作系统进行调度，而协程是程序员自行调度，因此切换的代价更低。协程中包含多个协程对象，每个协程对象都应该包含一个状态机，也就是说，协程只有在切换时才会保存和恢复状态。 Python中的协程是通过asyncio库来实现的，asyncio是Py…

python 2023年5月18日
000

合作推广

合作推广

返回顶部