PySpark3：Row对象常见操作以及Row、RDD、DataFrame互相转换

一、Row对象常见操作

二、Row、RDD、DataFrame互相转换

1、RDD—>DataFrame

2、DataFrame—>RDD

3、DataFrame—>Row

4、Row—>DataFrame

一、Row对象常见操作

from pyspark.sql import Row# 创建一个Row对象
row = Row(name="张三", age=25)# 使用索引、字段名访问字段
print(row[0], row.name)  # 修改Row对象（通过转换为字典的方式进行修改）
dict_ = row.asDict()
dict_['age'] = 26 
del dict_['name']
dict_['姓名'] = "李四"
new_row = Row(**dict_)# 值迭代
for field in row:print(field)#判断是否包含某个字段
print("name" in row)# 获取字段数量
len(row)

二、Row、RDD、DataFrame互相转换

1、RDD—>DataFrame

from pyspark.sql import SparkSession
from pyspark.sql import Row# 初始化SparkSession
spark = SparkSession.builder.appName("test").getOrCreate()# 创建一个RDD
rdd = sc.parallelize([("Alice", 25), ("Bob", 30)])# 将RDD的元素转换为Row对象
row_rdd = rdd.map(lambda x: Row(name=x[0], age=x[1]))# 将Row RDD转换为DataFrame
df = spark.createDataFrame(row_rdd)
df.show()

2、DataFrame—>RDD

# 从DataFrame获取RDD
rdd_from_df = df.rdd# 进一步将RDD的元素转换为元组或其他格式
rdd_as_tuples = rdd_from_df.map(lambda row: (row.name, row.age))
rdd_as_tuples.collect()

3、DataFrame—>Row

DataFrame的每一行都是一个Row对象。

# 迭代DataFrame获取Row
for row in df.collect():print(f"name:{row.name} age:{row.age}")# 以下都会生成Row对象
df.limit(1)
df.first

4、Row—>DataFrame

# Row对象列表
rows = [Row(name="Alice", age=25), Row(name="Bob", age=30)]# 创建DataFrame
df = spark.createDataFrame(rows)
df.show()

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.xdnf.cn/news/16796.html

如若内容造成侵权/违法违规/事实不符，请联系一条长河网进行投诉反馈，一经查实，立即删除！

PySpark3：Row对象常见操作以及Row、RDD、DataFrame互相转换

一、Row对象常见操作

二、Row、RDD、DataFrame互相转换

1、RDD—>DataFrame

2、DataFrame—>RDD

3、DataFrame—>Row

4、Row—>DataFrame

相关文章

计算机提示mfc140u.dll丢失的五种解决方法，了解mfc140u.dll错误的几种修复方法

【SSL-RL】自监督强化学习：好奇心驱动探索 (CDE)算法

Windows系统 ElasticSearch，Kibana安装

《Probing the 3D Awareness of Visual Foundation Models》论文解析——单图像表面重建

P3-4.【结构化程序设计】第四节——知识要点：break、continue和goto辅助循环设计语句

灵神DAY3 KMP算法

MySQL5.7.37安装配置

基于单片机的手持金属探测仪设计

P1197 星球大战（并查集+逆向思维）

深度学习驱动的蛋白质设计技术与前沿实践-从基础到尖端应用

Linux 进程信号初识

SpringBoot（二十五）SpringBoot集成JRebel实现热更新

MATLAB中的绘图技巧

java八股-AQS，Reentrantlock

python——模块迭代器正则

STL之mapset|AVL树

使用阿里云快速搭建 DataLight 平台

OceanBase 分区表详解

代码随想录算法训练营第三十八天 | 322.零钱兑换 279.完全平方数 139.单词拆分多重背包以及背包总结

计算机网络WebSocket——针对实习面试