让python在hadoop上跑起来

让我们来详细讲解如何让Python在Hadoop上能够运行。这个过程分为以下几个步骤：

安装Hadoop

首先需要安装Hadoop，可以从官网下载并按照说明进行安装。具体安装步骤可参考Hadoop官方文档。

Hadoop开启伪分布式模式

为了简化操作，我们可以选择在本地使用Hadoop的伪分布式模式，即将Hadoop运行在单台机器上，模拟分布式的环境。

具体操作步骤是先修改Hadoop配置文件core-site.xml和hdfs-site.xml，然后格式化Hadoop文件系统：

$ hdfs namenode -format

接着启动Hadoop：

$ start-dfs.sh
$ start-yarn.sh

安装Python包

为了让Python能够在Hadoop上运行，需要安装一个Python包mrjob，这个包就是为了方便Python程序员在Hadoop上运行MapReduce任务而开发的。

使用pip安装mrjob:

$ pip install mrjob

运行Python程序

现在可以开始在Hadoop上运行Python程序了，具体的操作步骤是编写MapReduce程序和运行脚本。这里举两个示例说明：

示例1：Word Count

先编写Python程序，这里用Word Count为例：

from mrjob.job import MRJob

class MRWordCount(MRJob):

    def mapper(self, _, line):
        words = line.split()
        for word in words:
            yield word, 1

    def reducer(self, key, values):
        yield key, sum(values)

if __name__ == '__main__':
    MRWordCount.run()

然后编写运行脚本，在脚本中指定使用Hadoop模式运行：

from mrjob.job import MRJob

class MRWordCount(MRJob):

    def mapper(self, _, line):
        words = line.split()
        for word in words:
            yield word, 1

    def reducer(self, key, values):
        yield key, sum(values)

if __name__ == '__main__':
    MRWordCount.run()

执行脚本：

$ python wordcount.py -r hadoop hdfs:///path/to/input hdfs:///path/to/output

示例2：统计每个单词的出现次数

from mrjob.job import MRJob
import re

WORD_RE = re.compile(r"[\w']+")

class MRMostUsedWord(MRJob):

    def mapper(self, _, line):
        for word in WORD_RE.findall(line):
            yield word.lower(), 1

    def reducer(self, word, counts):
        yield word, sum(counts)

    def mapper_find_max_word(self, word, count):
        yield None, (count, word)

    def reducer_find_max_word(self, _, word_count_pairs):
        # each item of word_count_pairs is (count, word),
        # so yielding one results in key=counts, value=word
        yield max(word_count_pairs)

if __name__ == '__main__':
    MRMostUsedWord.run()

然后编写运行脚本，指定使用Hadoop模式运行。

执行脚本：

$ python most_used_word.py -r hadoop hdfs:///path/to/input hdfs:///path/to/output

以上就是让Python在Hadoop上跑起来的完整攻略，希望对你有所帮助。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：让python在hadoop上跑起来 - Python技术站

让python在hadoop上跑起来

相关文章