详解Python中的json库

目录

  • 1. json简介
  • 2. dumps/loads
  • 3. dump/load
  • 4. jsonl格式

1. json简介

JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,用于在不同应用程序之间传递数据。它是一种文本格式,易于阅读和编写,同时也易于解析和生成。JSON最初是由Douglas Crockford于2001年提出的,它基于JavaScript对象字面量语法,但已经成为一种独立于编程语言的数据格式。

乍一看json对象和python中的字典长得差不多,但前者是一种数据格式,而后者是一种数据结构。

具体来讲,json对象由一个大括号 {} 组成,大括号里保存的是若干个key-value对,其中key必须是字符串,且必须由双引号括起来(python的字典可以是单引号)。value可以是字符串,数值(整数/浮点数),布尔值,null,数组,json对象。key和value使用冒号 : 进行分隔,每个key-value对使用逗号 , 进行分隔。

json对象通常存储在以 .json 为扩展名的文本文件中,一个可能的例子:

{"k1": "a","k2": 1,"k3": 1.1,"k4": true,"k5": false,"k6": null,"k7": [1,1.1,false,"b"],"k8": {"c": 2,"d": 3}
}

以上列出了value所有可能的数据类型。当然,json文件中可以包含多个json对象,通常由一个大列表括起来,每个json对象间用逗号分隔:

[{"k1": 1,"k2": 2},{"k3": 3,"k4": 4}
]

事实上,json文件能存储的有:

  • 单个简单值:例如数值,字符串,布尔值,null。
  • 单个数组:数组的内容可以是简单值,其他数组以及json对象。
  • 单个json对象:包含一系列key-value对。

对于数组和json对象,其中的最后一个元素后面不能有逗号

json 库是python的标准库,它主要有四个函数:dumpdumpsloadloads,接下来也只讲解这四个函数。

2. dumps/loads

dumps用于将一个python对象转化成json格式的字符串,其中python对象必须是json可序列化的,即上面提到的三种。dumps这一过程又被称为序列化。

不严谨地来讲,dumps的函数签名如下:

def dumps(obj: Union[None, int, float, str, bool, list, dict], *args) -> str:pass

一些示例:

print(json.dumps(None))
# null
print(json.dumps(1))
# 1
print(json.dumps(3.3))
# 3.3
print(json.dumps("abc"))
# "abc"print(json.dumps([1, 2, 3, 4]))
# [1, 2, 3, 4]
print(json.dumps({"a": 1, "b": 2}))
# {"a": 1, "b": 2}

loads的作用与dumps相反,loads过程又被称为反序列化,即将一个json格式的字符串转化为相应的python对象。

不严谨地来讲,loads的函数签名如下:

def loads(s: str, *args) -> Union[None, int, float, str, bool, list, dict]:pass

📝 s 还可以是bytes或bytearray,这超出了本文的讨论范围。

一些示例:

print(json.loads("null"))
# None
print(json.loads("1"))
# 1
print(json.loads("3.3"))
# 3.3
print(json.loads("\"abc\""))
# abcprint(json.loads("[1, 2, 3, 4]"))
# [1, 2, 3, 4]
print(json.loads("{\"a\": 1, \"b\": 2}"))
# {'a': 1, 'b': 2}

在使用dumps时有一个小细节,如下:

print(json.dumps("abc你好"))
# "abc\u4f60\u597d"

默认情况下,所有非 ASCII 字符(即那些无法用标准 ASCII 表示的字符)都被转义为 Unicode 转义序列。这样做的目的是为了确保生成的 JSON 字符串是 ASCII 编码的,因为一些旧系统或处理 JSON 数据的应用程序可能不支持非 ASCII 字符。

如果要防止对非ASCII字符进行转义,可以设置 ensure_ascii = False,如下:

print(json.dumps("abc你好", ensure_ascii=False))
# "abc你好"

3. dump/load

dump用于将一个python对象(需要是json可序列化的)保存到相应的json文件中,dump没有返回值。

with open('1.json', 'w') as f:json.dump([1, 2, 3], f)

load用于从一个json文件中读取并转化为相应的python对象:

with open('1.json') as f:print(json.load(f))
# [1, 2, 3]

4. jsonl格式

JSONL(JSON Lines)中的每一行都是一个json对象,如下:

{"name": "John", "age": 30, "city": "New York"}
{"name": "Alice", "age": 25, "city": "Los Angeles"}
{"name": "Bob", "age": 35, "city": "Chicago"}

JSONL 更适合处理大型数据集,特别是日志文件和行格式数据。它可以逐行处理,而不需要一次性加载整个文件到内存中。这使得它在处理大型数据文件时更具效率。

使用json库对jsonl文件进行读写:

# 读取
with open('1.jsonl') as r:for line in r:print(json.loads(line))# 写入
content = ...  # 预定义
with open('1.jsonl', 'w') as w:for line in content:w.write(json.dumps(line, ensure_ascii=False) + '\n')

使用 jsonlines 库,我们可以更高效的处理jsonl文件:

import jsonlines# 读取
with jsonlines.open('1.jsonl') as r:for line in r:print(type(line), line)
# <class 'dict'> {'name': 'John', 'age': 30, 'city': 'New York'}
# <class 'dict'> {'name': 'Alice', 'age': 25, 'city': 'Los Angeles'}
# <class 'dict'> {'name': 'Bob', 'age': 35, 'city': 'Chicago'}# 写入
dic = {"a": 1, "b": 2}with jsonlines.open('1.jsonl', 'w') as w:w.write(dic)  # 会自动加换行符# 写入多个
dic = [{"a": 1, "b": 2}, {"c": 3, "d": 4}]with jsonlines.open('1.jsonl', 'w') as w:w.write_all(dic)

可以看到我们能够直接对 dict 对象进行操作,而不需要进行 dict <-> str 的转化。

📝 write() 有返回值,即当前行的字符总数(包括换行符)。write_all() 是所有行的字符总数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/140746.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【从0学习Solidity】35. 荷兰拍卖

【从0学习Solidity】35. 荷兰拍卖 博主简介&#xff1a;不写代码没饭吃&#xff0c;一名全栈领域的创作者&#xff0c;专注于研究互联网产品的解决方案和技术。熟悉云原生、微服务架构&#xff0c;分享一些项目实战经验以及前沿技术的见解。关注我们的主页&#xff0c;探索全栈…

黑马JVM总结(十四)

&#xff08;1&#xff09;分代回收_1 Java虚拟机都是结合前面几种算法&#xff0c;让他们协同工作&#xff0c;具体实现是虚拟机里面一个叫做分代的垃圾回收机制&#xff0c;把我们堆内存大的区域划分为两块新生代、老年代 新生代有划分为伊甸园、幸存区Form、幸存区To 为什…

ARMv8 cache的包含策略inclusive 和 exclusive之间的区别以及Cortex-A55示例详解

Inclusive 和 Exclusive 一&#xff0c; 什么是cache的inclusive 和 exclusive二&#xff0c;Inclusive 和 Exclusive cache示例2.1 Inclusive cache2.2 Exclusive cache 三&#xff0c; inclusive cache和 exclusive cache的比较3.1 cache coherency3.2 miss rate3.3 cache ca…

使用 Docker 安装 Elasticsearch (本地环境 M1 Mac)

Elasticsearchkibana下载安装 docker pull elasticsearch:7.16.2docker run --name es -d -e ES_JAVA_OPTS“-Xms512m -Xmx512m” -e “discovery.typesingle-node” -p 9200:9200 -p 9300:9300 elasticsearch:7.16.2docker pull kibana:7.16.2docker run --name kibana -e EL…

最频繁被问到的SQL面试题

面试感叹失败的原因可能有很多&#xff0c;而做成的道路只有⼀条&#xff0c;那就是不断积累。纯手工的8291字的SQL面试题总结分享给初学者&#xff0c;俗称八股文&#xff0c;期待对新手有所帮助。 窗口函数题 窗口函数其实就是根据当前数据, 计算其在所在的组中的统计数据。…

网工基础知识——以太网

1972年Bob Metcalfe“以太网之父”被Xerox雇佣为网络专家&#xff0c;Bob Metcalfe 来到Xerox公司的Palo Alto研究中心&#xff08;PARC&#xff09;的第一个任务是把Palo Alto的计算机连接到ARPANET&#xff08;Internet的前身&#xff09;上。1972年底Bob Metcalfe以ALOHA系统…

嵌入式开发笔记:STM32的外设GPIO知识学习

GPIO简介&#xff1a; • GPIO &#xff08; General Purpose Input Output &#xff09;通用输入输出口 • 可配置为 8 种输入输出模式 • 引脚电平&#xff1a; 0V~3.3V &#xff0c;部分引脚可容忍 5V &#xff08;如舵机和驱动直流电机&#xff09; • 输出模式下可控制端口…

机器学习 day35(决策树)

决策树 上图的数据集是一个特征值X采用分类值&#xff0c;即只取几个离散值&#xff0c;同时也是一个二元分类任务&#xff0c;即标签Y只有两个值 上图为之前数据集对应的决策树&#xff0c;最顶层的节点称为根节点&#xff0c;椭圆形节点称为决策节点&#xff0c;矩形节点称…

springboot整合返回数据统一封装

1、MagCode&#xff0c;错误码枚举类 package com.mgx.common.enums;import lombok.*; import lombok.extern.slf4j.Slf4j;/*** 错误码* author mgx*/ Slf4j NoArgsConstructor AllArgsConstructor public enum MsgCode {/*** 枚举标识&#xff0c;根据业务类型进行添加*/Code…

阻塞队列-生产者消费者模型

阻塞队列介绍标准库阻塞队列使用基于阻塞队列的简单生产者消费者模型。实现一个简单型阻塞队列 &#xff08;基于数组实现&#xff09; 阻塞队列介绍 不要和之前学多线程的就绪队列搞混&#xff1b; 阻塞队列&#xff1a;也是一个队列&#xff0c;先进先出。带有特殊的功能 &…

Learn Prompt-提供示例

目前我们与 ChatGPT 交流的主要形式是文字。提示除了指令问题的形式外&#xff0c;还可以包含例子。特别是当我们需要具体的输出时&#xff0c;提供例子可以省去我们对具体任务的解释&#xff0c;帮助ChatGPT更好地理解我们的确切需求&#xff0c;从而提供更准确&#xff0c;更…

【数据结构】哈希应用——位图、布隆过滤器

文章目录 一、位图1.基本概念2.基本实现3.基本应用3.1 找100亿个整数只出现一次的数3.2 两个文件分别有100亿整数&#xff0c;1G内存&#xff0c;求交集 二、布隆过滤器1、基本实现2、基本应用2.1过滤一部分的数据2.2 两个文件&#xff0c;分别100亿个查询&#xff0c;1G内存&a…

[Linux入门]---管理者操作系统

文章目录 1.操作系统概念2.设计操作系统的目的3.操作系统如何进行管理系统调用和库函数概念 1.操作系统概念 任何计算机系统都包含一个基本的程序集合&#xff0c;称为操作系统(OS)。笼统的理解&#xff0c;操作系统包括&#xff1a; 内核&#xff08;进程管理&#xff0c;内存…

C# OpenCvSharp Yolov8 Detect 目标检测

效果 项目 代码 using OpenCvSharp; using OpenCvSharp.Dnn; using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Windows.Forms;namespace Open…

索引(含B树、B+树)

1、索引&#xff08;index&#xff09; 索引是在数据库表的字段上添加的&#xff0c;是为了提高查询效率存在的一种机制。 一张表的一个字段可以添加一个索引&#xff0c;当然&#xff0c;多个字段联合起来也可以添加索引。 索引相当于一本书的目录&#xff0c;是为了缩小扫描…

Avl树(有详细图解)

目录 介绍 引入 概念 特点 模拟实现 思路 插入 旋转 左旋 无子树 有子树 右旋 无子树 有子树 左右旋 引入(也就是有子树版本的抽象图解) 解决方法(也就是左右旋) 总结 无子树(也就是curright的位置就是newnode) 有子树 模型高度解释 旋转 更新三个…

深度学习修炼(二)全连接神经网络 | Softmax,交叉熵损失函数 优化AdaGrad,RMSProp等 对抗过拟合 全攻略

文章目录 1 多层感知机&#xff08;全连接神经网络&#xff09;1.1 表示1.2 基本概念1.3 必要组成—激活函数1.4 网络结构设计 2 损失函数2.1 SOFTMAX操作2.2 交叉熵损失函数 3 优化3.1 求导计算过于复杂&#xff1f;3.2 链式法则导致的问题&#xff1f;3.3 梯度下降算法的改进…

八大排序(二)快速排序

一、快速排序的思想 快速排序是Hoare于1962年提出的一种二叉树结构的交换排序方法&#xff0c;其基本思想为&#xff1a;任取待排序元素序列中的某元素作为基准值&#xff0c;按照该排序码将待排序集合分割成两子序列&#xff0c;左子序列中所有元素均小于基准值&#xff0c;右…

免费的AI写作软件-智能AI写作工具

我们要谈的话题是AI写作&#xff0c;尤其是免费AI写作&#xff0c;以及147SEOAI写作免费工具。您是否曾经为了创作文章而感到煞费苦心&#xff1f;是否一直在寻找一种能够轻松生成高质量文章的方法&#xff1f; 147GPT批量文章生成工具​www.147seo.com/post/2801.html​编辑ht…

Flink TaskManger 内存计算实战

Flink TaskManager内存计算图 计算实例 案例一、假设Task Process内存4GB。 taskmanager.memory.process.size4096m 先排减JVM内存。 JVM Metaspace 固定内存 256mJVM Overhead 固定比例 process * 0.1 4096 * 0.1 410m 得到 Total Flink Memory 4096-256-410 3430m 计…