阿里云大数据利器之-使用sql实现流计算做实时展现业务（ flume故障转移版）

2023年4月10日下午9:13 • 云计算

摘要：实时业务处理的需求越来越多，也有各种处理方案，比如storm，spark等都可以。那以数据流的方向可以总结成数据源-数据搜集-缓存队列-实时处理计算-数据展现。本文就用阿里云产品简单实现了一个实时处理的方案。

实时业务处理的需求越来越多，也有各种处理方案，比如storm，spark等都可以。那以数据流的方向可以总结成数据源-数据搜集-缓存队列-实时处理计算-数据展现。本文就用阿里云产品简单实现了一个实时处理的方案。

一，总体架构

按照数据流向
数据采集：flume（配置故障转移）
缓存队列：datahub
https://help.aliyun.com/document_detail/26092.html?spm=5176.7841871.6.539.9FTjxU

二，搭建过程

1，flume配置搭建
flume在数据采集的开源框架中还是比较常用的，但是在采集输送到datahub中有可能网络断了或者服务器挂了。那这里配置了故障转移，如图，其中sink1和sink2为上面架构中的agentA和agentB.把agentA和agentB分别部署在两台服务器上。

在搭建flume时需要安装DatahubSink插件，参考https://help.aliyun.com/knowledge_detail/42843.html
那看下配置文件


# Name the components on this agent
a1.sources = r1
a1.sinks = k1 k2
a1.channels = c1

# Describe/configure the source这里监控一个文件变化，写了一个定时脚本每秒插入一条
a1.sources.r1.type = exec
a1.sources.r1.channels=c1
a1.sources.r1.command=tail -F /usr/local/shangdan/test.txt

#define sinkgroups，在这里配置故障转移的sink组
a1.sinkgroups=g1
a1.sinkgroups.g1.sinks=k1 k2
a1.sinkgroups.g1.processor.type=failover
a1.sinkgroups.g1.processor.priority.k1=10／／这里设置sink的优先级，优先发送到级别高的sink里
a1.sinkgroups.g1.processor.priority.k2=5
a1.sinkgroups.g1.processor.maxpenalty=10000

#define the sink 1，发送到agentA
a1.sinks.k1.type=avro
a1.sinks.k1.hostname=agentA的ip
a1.sinks.k1.port=5555

#define the sink 2 ，发送到agentB
a1.sinks.k2.type=avro
a1.sinks.k2.hostname=agentB的ip
a1.sinks.k2.port=5555


# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
a1.sinks.k2.channel=c1
~

agentA和agentB的配置文件出了ip地址不一样，其他完全一致，这里贴其中一个

A single-node Flume configuration for Datahub
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = avro
a1.sources.r1.channels=c1
a1.sources.r1.bind= agentA的ip
a1.sources.r1.port= 5555
# Describe the sink
a1.sinks.k1.type = com.aliyun.datahub.flume.sink.DatahubSink
a1.sinks.k1.datahub.accessID = ******
a1.sinks.k1.datahub.accessKey = **********
a1.sinks.k1.datahub.endPoint = http://dh-cn-hangzhou.aliyun-inc.com
a1.sinks.k1.datahub.project = shangdantest
a1.sinks.k1.datahub.topic = databubtest
a1.sinks.k1.serializer = DELIMITED
a1.sinks.k1.serializer.delimiter = ,／／这里配置数据的分隔符
a1.sinks.k1.serializer.fieldnames = line／／配置数据的字段
a1.sinks.k1.batchSize = 1
a1.sinks.k1.serializer.charset = UTF-8
a1.sinks.k1.shard.number = 1
a1.sinks.k1.shard.maxTimeOut = 60
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 1000
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

三台服务配置完成后启动flume（先启动agentA和agentB）预期结果是agent1发送数据到agentA（优先级高的），如果停止agentA服务，会自动转换发送到agentB。重启agegtA的服务后，再次切回到agentA。
如图：正常启动数据正常传输经过agent1-agentB-datahub

此时，停掉agentA服务，日志报错，故障转移。

重启agentA服务，恢复到之前状态，切回到sink1

2，datahub创建，
在datahub控制台创建项目和topic，
设置分片和生命周期，具体方法见链接

3，配置阿里流计算
登录阿里流计算控制台
注册数据源datahub／rds（也支持阿里其他类型数据源）-编写流计算脚本-调试-上线-启动

如图先注册数据源供脚本使用。必须要有数据来源表和数据结果表。

在编写脚本时，可以直接引用表，会自动插入表结构和配置信息，非常方便

那开始编写脚本必须包括三部分
1，创建数据来源表，这里是datahub表
2，创建数据结果表，这里是rds表
3，将来源表数据写入结果表，并进行计算

如图

 然后可以看到监控状态，计算延迟，数据是否倾斜等指标，也有更详细的链路可以查看

原文链接

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：阿里云大数据利器之-使用sql实现流计算做实时展现业务（ flume故障转移版） - Python技术站

云计算

0 0 打赏

微信扫一扫

支付宝扫一扫

IBM智慧的云计算——白皮书、行业解决方案资料集

上一篇 2023年4月10日

什么是云计算？

下一篇 2023年4月10日

jQuery中ajax和post处理json的不同示例对比

jQuery中ajax和post处理json的不同示例对比在jQuery中，我们可以使用ajax和post方法来处理JSON数据。虽然它们都可以用于发送JSON数据，但它们之间有一些不同之处。本文将提供一个完整的攻略，包括如何使用ajax和post方法来处理JSON数据，并对它们之间的不同之处进行比较。示例1：使用ajax方法处理JSON数据以下是一个…

云计算 2023年5月16日
000
云计算平台(检索篇)-Elasticsearch

前段时间为公司基于Elasticsearch(下面简称ES)做了一套检索平台，下面将这段时间积累的一些知识与大家分享，如有不对之处，欢迎大家多多批评与建议。针对Elasticsearch由于东西还是比较多的，我会做成一个系列。下面是这个系统的目录：环境准备本系列文章以Centos6.3系统为基础，以ElasticSearch0.9.10为搜索平…

云计算 2023年4月10日
000
云算力是什么?云算力挖矿APP推荐

云算力是什么？云算力是指通过云计算技术，将多台计算机的计算能力整合起来，形成一个强大的计算资源池，供用户使用。用户可以通过云算力服务，租用这些计算资源，以完成各种计算密集型任务，例如数据分析、科学计算、人工智能等。云算力的优势在于可以快速、灵活地扩展计算资源，以满足不同的需求。云算力挖矿APP推荐云算力挖矿是一种利用云算力来进行数字货币挖矿的方式。用户…

云计算 2023年5月16日
000
asp.net基于JWT的web api身份验证及跨域调用实践

ASP.NET基于JWT的Web API身份验证及跨域调用实践本文将详细讲解 ASP.NET 基于 JWT 的 Web API 身份验证及跨域调用实践，帮助读者理解如何构建一个基于 JWT 的 API 并使用跨域调用这个 API。什么是JWT JWT （JSON Web Token）是一个开放标准（RFC 7519），用于在各方之间安全地传输信息。它可以…

云计算 2023年5月17日
000
python的json中方法及jsonpath模块用法分析

Python的JSON中方法及JSONPath模块用法分析什么是JSON JSON全称JavaScript Object Notation，是一种轻量级的数据交换格式。其特点是易于理解、易于编写、易于解析，同时也易于机器生成和解析。在Web应用程序中，JSON数据格式使用非常广泛，被用于前后端数据交互。 Python处理JSON数据的方法 Python标准…

云计算 2023年5月18日
000
Intel CPU 曝致命漏洞，Linux、Windows 面临重新设计，云计算厂商全受影响

TPU 称，亚马逊、微软和谷歌是三个受影响最深的云计算厂商，如果漏洞被利用，那么在同一物理空间的虚拟用户 A 可以任意访问到另一个虚拟用户B的数据，包括受保护的密码、应用程序密匙等。– John Leyden, Chris Williams 本文导航◈ 影响范围19%◈ 这个安全漏洞怎么会被滥用？38%◈ 共享系统（云服务）78%◈ 更新92%编译自　|　…

云计算 2023年4月12日
000
如何选择最省心的云服务器？

如何选择最省心的云服务器？选择一台最省心的云服务器，可以让你在运维过程中省去很多麻烦。下面是一些选择最省心的云服务器的攻略。 1. 选择可靠的云服务提供商选择可靠的云服务提供商是选择最省心的云服务器的第一步。可靠的云服务提供商可以提供高质量的服务和技术支持，以确保你的云服务器始终处于最佳状态。在选择云服务提供商时，可以考虑以下因素：服务质量：包括网络速…

云计算 2023年5月16日
000
云计算虚拟化实验（一）——虚拟机软件VMware的安装以及虚拟机系统的安装（Windows7+CentOS7）

主要内容： 1、虚拟机软件的安装（以VMware为例） 2、虚拟机系统的安装（Window7 + CentOS7） 3、虚拟主机网络互访 4、不同局域网内的虚拟主机互访（软路由——海蜘蛛） 0 ——首先介绍一下什么是虚拟化？虚拟化，是指通过虚拟化技术将一台计算机虚拟为多台逻辑计算机。在一台计算机上同时运行多个逻辑计算机，每个逻辑计算机可运行不同的操作系统，…

云计算 2023年4月12日
000

阿里云大数据利器之-使用sql实现流计算做实时展现业务（ flume故障转移版 ）

相关文章

阿里云大数据利器之-使用sql实现流计算做实时展现业务（ flume故障转移版）