学习大数据DAY57 新的接口配置

作业

完成 API 接口和文件的接入, 并部署到生产调度平台, 每个任务最后至少
要有两条 不报错 的日志, 报错就驳回作业
作业不需要复制日志
API = Appliation Program Interface 应用程序接口 => JSON 的地址
客户需求: 把
https://zhiyun.pub:9099/site/c-class?page=1 所有数据定 时同步到 Hive 数仓
分析 分页数据
https://zhiyun.pub:9099/site/c-class?page=1
https://zhiyun.pub:9099/site/c-class?page=2
...
https://zhiyun.pub:9099/site/c-class?page=20
技术: Python + requests 请求库
需要的依赖包
pip install requests hdfs
c_org_busi.py:
#!/bin/python3
import requests
from hdfs import *
import os
# *客户需求: 把 https://zhiyun.pub:9099/site/c-class?page=1 所有
数据定时同步到 Hive 数仓
lines = []
page = 1
pages = 1
def get_data(page=1):
global pages
print(f"正在抽取第{page}页的数据")
url = f"https://zhiyun.pub:9099/site/c-class?page={page}"
r = requests.get(url)
data = r.json()
if data["status"] == 1:
page_data = data["data"]
# 更新页数
pages = data["pages"]
# print(f"pages: {pages}")
# print(page_data)
for item in page_data:
# {'id': '1', 'levels': '1', 'classcode': '01',
'classname': '中西成药', 'saletax': '0.00', 'createtime':
'1900-01-20 11:16:47', 'createuser': '1002', 'notes': 'null',
'stamp': '562664386'}
# 字典 => Hive 数据格式# A B C D ...
values = item.values()
# print(values)
# dict_values(['1', '1', '01', '中西成药', '0.00',
'1900-01-20 11:16:47', '1002', 'null', '562664386'])
# 把所有元素转换成字符串
str_list = []
for value in values:
str_list.append(f"{value}")
# print(str_list)
# ['1', '1', '01', '中西成药', '0.00', '1900-01-20
11:16:47', '1002', 'null', '562664386']
# 字符串的 join 方法, 把列表的所有元素拼接起来
line = "\t".join(str_list)
# print(line)
# 1
1
01
中西成
药
0.00
1900-01-20
11:16:47
1002
null
562664386
lines.append(line)
# print(lines)
def do_get_data():
global page, pages
while page <= pages:
# print(f"pages: {pages}")
get_data(page)
# print(f"pages: {pages}")
page = page + 1
# 写入到数据文件
with
open("/zhiyun/shihaihong/data/c_class.data","w",encoding="utf-
8") as f:
content = "\n".join(lines)
f.write(content)
print("文件写入成功")
# 上传到 HDFSdef upload_data_hdfs():
# 创建 HDFS 目录
client = Client("http://192.168.200.100:9870")
client.makedirs("/zhiyun/shihaihong/ods/c_class")
# 上传
# 注意再次上传会报已存在错误
client.upload("/zhiyun/shihaihong/ods/c_class",
"/zhiyun/shihaihong/data/c_class.data");
print("上传成功")
# Hive 建表
def craete_hive_table():
os.system('''
hive -e '
create database if not exists ods_shihaihong location
"/zhiyun/shihaihong/ods";
create external table if not exists ods_shihaihong.c_class(
id int,
levels int,
classcode string,
classname string,
saletax decimal(10,2),
createtime timestamp,
createuser string,
notes string,
stamp int
) row format delimited fields terminated by "\t"
lines terminated by "\n"
stored as textfile
location "/zhiyun/shihaihong/ods/c_class";
'
''')
# 验证数据
def check_data():
os.system('''
hive -e '
select count(1) from ods_shihaihong.c_class;
select * from ods_shihaihong.c_class limit 5;
'
''')# 爬取数据
do_get_data()
upload_data_hdfs()
craete_hive_table()
check_data()
运行后验证:
部署到调度平台:
执行前,要现在 hdfs 建立文件:
hadoop fs -mkdir -p /zhiyun/lijinquan/ods/c_class
把之前上传的数据清空,然后用任务调度再执行一遍。
执行一次,查看执行日志:
文件接入:
需求: 定时下载
https://zhiyun.pub:9099/设备清单.xlsx
, 然后上传到
HDFS 建表,更新
c_tools.py:
#!/bin/python3
import requests
from hdfs import *
import os
import pandas
# *客户需求: 定时下载 https://zhiyun.pub:9099/设备清单.xlsx , 然后
上传到 HDFS 建表,更新
def get_data():
print(f"正在抽取数据")
url = f"https://zhiyun.pub:9099/设备清单.xlsx"
r = requests.get(url)
if r.status_code == 200:
with open("/zhiyun/shihaihong/data/download_设备清
单.xlsx","wb") as f:
f.write(r.content)
df=pandas.read_excel("/zhiyun/shihaihong/data/downl
oad_设备清单.xlsx")df.to_csv("/zhiyun/shihaihong/data/download_设备清
单.csv",index=False,header=False)
print("文件下载成功")
f.close()
else:
print("文件下载失败")
# 上传到 HDFS
def upload_data_hdfs():
# 创建 HDFS 目录
client = Client("http://192.168.200.100:9870")
client.makedirs("/zhiyun/shihaihong/ods/c_tools")
# 上传
# 注意再次上传会报已存在错误
client.upload("/zhiyun/shihaihong/ods/c_tools",
"/zhiyun/shihaihong/data/download_设备清单.csv");
print("上传成功")
# Hive 建表
def create_hive_table():
os.system('''
hive -e '
create database if not exists ods_shihaihong location
"/zhiyun/shihaihong/ods";
create external table if not exists ods_shihaihong.c_tools(
id int,
hospital string,
tool_name string,
manufacturer string,
produce_date string,
administrative_officer string,
picture string
) row format delimited fields terminated by ","
lines terminated by "\n"
stored as textfile
location "/zhiyun/shihaihong/ods/c_tools";
'
''')
# 验证数据
# def check_data():#
os.system('''
#
hive -e '
#
select count(1) from ods_shihaihong.c_class;
#
select * from ods_shihaihong.c_class limit 5;
# '
#
''')
# 爬取数据
get_data()
upload_data_hdfs()
create_hive_table()
# check_data()
运行结束后验证:
检查 HDFS 是否有上传文件:
检查 Hive 数据库中是否有此库:
任务定时调度:
登录老师的任务调度中心:
编辑 GLUE IDE
跟前面差不多,就是生产调度的 HDFS 路径需要注意修改
client = Client("http://cdh02:9870")
执行日志:
把上一个脚本的代码也写入生产调度中心:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/141554.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【QT】定时器使用

文章目录 关于 Qt 定时器使用的注意细节总结实例-检查工具使用周期时间是否合理UI设计头文件 remind.h源文件 remind.cpp实现效果 关于 Qt 定时器使用的注意细节总结 一、创建与初始化 使用 QTimer 类来创建定时器。可以在构造函数中指定父对象&#xff0c;确保定时器在正确的…

电子电气架构——中央计算的软件定义汽车架构

我是穿拖鞋的汉子&#xff0c;魔都中坚持长期主义的汽车电子工程师。 老规矩&#xff0c;分享一段喜欢的文字&#xff0c;避免自己成为高知识低文化的工程师&#xff1a; 屏蔽力是信息过载时代一个人的特殊竞争力&#xff0c;任何消耗你的人和事&#xff0c;多看一眼都是你的不…

台风,也称为热带气旋,是一种在热带海洋上形成的强烈风暴系统。台风的形成需要满足以下几个条件:

台风&#xff0c;也称为热带气旋&#xff0c;是一种在热带海洋上形成的强烈风暴系统。台风的形成需要满足以下几个条件&#xff1a; 1. **温暖的海水**&#xff1a;台风通常在海面温度至少达到26.5C&#xff08;79.7F&#xff09;的海域形成&#xff0c;因为温暖的海水能够提供…

XShell快速连接虚拟机(Ubuntu系统)

目录 前言 一 (XShell)(虚拟机 )(Ubuntu)下载 二 虚拟机的ip查找 三 虚拟机中安装连接环境 四 开启ssh-server服务 五 验证是Ubuntu是否开启ssh-server服务 六 连接XShell软件 前言 对于刚开始探索 Linux 世界的新手来说&#xff0c;拥有一台自己的服务器可能并不现实。幸运的…

学习大数据DAY58 增量抽取数据表

作业 1 SQL 优化的常见写法有哪些 - 面试经常被问 使用索引&#xff1a;合理创建和使用索引是提高查询效率的关键。索引可以加速数据的检 索速度&#xff0c;但是索引也会占用额外的存储空间&#xff0c;并且在插入、删除和更新操作时会 有额外的开销。 避免全表扫描&…

【ARM】中断术语介绍

外设产生中断给到gic&#xff0c;gic通过内部判断此中断是FIQ还是IRQ&#xff0c;这个过程就称为assert&#xff08;断言&#xff09; 此中断被发到哪里面去叫target cpu跳转到此中断的中断向量表中叫做taken 整个过程就做routing distribute决定将中断发给哪个cpu&#xff08…

【STM32】DAC数字模拟转换

本篇博客重点在于标准库函数的理解与使用&#xff0c;搭建一个框架便于快速开发 目录 前言 DAC简介 DAC配置 DAC时钟使能 GPIO初始化 DAC配置 DAC使能 读写DAC值 驱动代码 MyDAC.h MyDAC.c main.c 前言 大容量的STM32F101xx和STM32F103xx产品才有DAC外设 大容量…

基于SpringBoot的在线考试系统【附源码】

基于SpringBoot的在线考试系统&#xff08;源码L文说明文档&#xff09; 目录 4 系统设计 4.1 系统概述 4.2系统功能结构设计 4.3.2 数据库表结构设计 5 系统实现 5.1管理员功能介绍 5.1.1管理员登录 5.1.2 试卷管理 5.1.3 公告信息管理 5.1.…

_Array类,类似于Vector,其实就是_string

例子&#xff1a; using namespace lf; using namespace std;int main() {_Array<int> a(10, -1);_Array<_string> s { _t("one"), _t("two") };_pcn(a);_pcn(s);} 结果&#xff1a; 源代码_Array.h&#xff1a; /***********************…

基础物理-直线运动2

2-1 位置、位移和平均速度 位置与位移 为了确定物体的位置&#xff0c;通常需要相对于某个参考点来测量&#xff0c;这个参考点通常是某个坐标轴的原点&#xff08;或零点&#xff09;&#xff0c;如图 2-1 中的 x 轴。坐标轴的正方向是坐标增大的方向&#xff0c;在图 2-1 中…

掌握远程管理的艺术:揭秘Python的pywinrm库

文章目录 &#x1f525; 掌握远程管理的艺术&#xff1a;揭秘Python的pywinrm库 &#x1f525;背景&#xff1a;为何选择pywinrm&#xff1f;pywinrm库简介安装pywinrm库简单库函数使用方法场景应用常见问题与解决方案总结 &#x1f525; 掌握远程管理的艺术&#xff1a;揭秘Py…

【ARM】Cache深度解读

Cache的基本概念和使用场景 不同的Master硬件共享数据时—invalid cache 外设和DDR之间没有cache&#xff0c;所以外设直接把数据写入DDR中&#xff0c;但是cpu和DDR之间有cache&#xff0c;cpu会首先访问cache&#xff0c;如果命中直接从cache中拿数据&#xff0c;但是此时的…

浪潮信息首推3秒智能控温!告别服务器开机噪音

在当前的数据中心运维实践中&#xff0c;运维人员在部署服务器时常被“飞机起飞”般的开机噪音所困扰。服务器刚刚接通电源&#xff0c;其内部元件尚处于预热待命状态&#xff0c;而风扇却已全速运转&#xff0c;这不仅加剧了噪音污染&#xff0c;还拖慢了启动速度&#xff0c;…

[数据集][目标检测]智慧交通铁路人员危险行为躺站坐检测数据集VOC+YOLO格式3766张4类别

图片数量(jpg文件个数)&#xff1a;3766 标注数量(xml文件个数)&#xff1a;3766 标注数量(txt文件个数)&#xff1a;3766 标注类别数&#xff1a;4 标注类别名称:["sitting","sleeping","standing","track"] 每个类别标注的框数&…

OpenCore Legacy Patcher 2.0.0 发布,83 款不受支持的 Mac 机型将能运行最新的 macOS Sequoia

在不受支持的 Mac 上安装 macOS Sequoia (OpenCore Legacy Patcher v2.0.0) Install macOS on unsupported Macs 请访问原文链接&#xff1a;https://sysin.org/blog/install-macos-on-unsupported-mac/&#xff0c;查看最新版。原创作品&#xff0c;转载请保留出处。 作者主…

《深度学习》PyTorch 手写数字识别 案例解析及实现 <下>

目录 一、回顾神经网络框架 1、单层神经网络 2、多层神经网络 二、手写数字识别 1、续接上节课代码&#xff0c;如下所示 2、建立神经网络模型 输出结果&#xff1a; 3、设置训练集 4、设置测试集 5、创建损失函数、优化器 参数解析&#xff1a; 1&#xff09;para…

一篇文章带你入门机器学习 Part1 -->Machine Learning from Scratch

学习网站&#xff1a;Machine Learning from Scratch Machine Learning from Scratch (Part1神经网络&#xff09; 神经网络——Neural Networks神经网络是如何工作的&#xff1f;训练神经网络 神经网络——Neural Networks 在人工神经网络的背景下&#xff1a;一个神经元是一…

全面理解tensor编程中矩阵的行和列

经常会在编程中遇到理解矩阵行和列的事情。 1、要明确无论这个张量有多少维度&#xff0c;它的矩阵乘法都只能作用于最后两个维度。 例如&#xff1a; import torcha torch.rand([64, 32, 3, 4]) b torch.rand([64, 32, 3, 4])c torch.matmul(a, b.transpose(2, 3)) # 交…

备战软考Day02-数据结构与算法

1.基本概念与三要素 1.什么是数据 数据是信息的载体&#xff0c;是描述客观事物属性的数、字符及所有能输入到计算机中并被计算机程序识别和处理的符号的集合。数据是计算机程序加工的原料。 2.数据元素、数据项 数据元素是数据的基本单位&#xff0c;通常作为一个整体进行…

18062 二维数组每行中的最大值

### 思路 1. 使用指针变量遍历二维数组的每一行。 2. 对于每一行&#xff0c;找到该行的最大值。 3. 输出每一行的最大值。 ### 伪代码 1. 定义一个指向二维数组的指针变量 p。 2. 遍历二维数组的每一行&#xff1a; - 将 p 指向当前行。 - 初始化 max 为当前行的第一个…