27 C 语言标准库＜stdio.h＞中的两个字符串函数：sprintf、sscanf，不同编码方式的中文字符长度

1 sprintf

1.1 函数原型

1.2 功能说明

1.3 案例演示

1.4 注意事项

2 sscanf

2.1 函数原型

2.2 功能说明

2.3 案例演示

2.4 使用 %s 解析字符串的易错点

2.4.1 空白符问题

2.4.2 顺序问题

2.4.3 中文字符长度问题

2.5 注意事项

1 sprintf

1.1 函数原型

sprintf 函数是 C 语言标准库中的一个函数，用于将格式化的数据写入字符串。其函数原型定义在 <stdio.h> 头文件中。

#include <stdio.h>  
int sprintf(char *str, const char *format, ...);

参数：
- char *str：指向一个字符数组的指针，该数组足够大以存储生成的格式化字符串。这个数组必须已经分配了足够的空间来容纳结果字符串，包括结尾的空字符（\0）。
- const char *format：一个格式字符串，用于指定后续参数如何被格式化和插入到结果字符串中。这个字符串可以包含文本、格式说明符（如 %d、%s、%f 等），以及转义序列（如 \n、\t 等），同 printf 函数的使用。
- ...：可变数量的参数，其类型和数量由 format 字符串中的格式说明符决定，同 printf 函数的使用。这些参数将被格式化为字符串，并插入到 str 指向的数组中。
返回值：成功时，sprintf 返回写入的字符数（不包括结尾的空字符）。如果发生错误，则可能返回负值，但这种情况在实际应用中较为罕见。

1.2 功能说明

sprintf 函数的主要功能是将格式化的数据写入到字符串中，而不是像 printf 那样输出到标准输出设备（通常是屏幕）。这使得 sprintf 非常适用于需要生成格式化字符串并存储在变量中的场景。

与 printf 相比，sprintf 多了一个参数，即第一个参数是要写入的目标字符串，而后面的参数与 printf 保持一致。

简而言之，sprintf 是将内容写入字符串而不是直接输出。

1.3 案例演示

#include <stdio.h>int main()
{char buffer[256]; // 分配一个足够大的缓冲区来存储结果字符串int num1 = 123;float num2 = 456.78f;char ch = 'A';char str[] = "Hello, World!";int result;// 使用 sprintf 将格式化的数据写入 buffer// 注意：返回值是写入的字符数（不包括'\0'）result = sprintf(buffer, "Integer: %d, Float: %.2f, Character: %c, String: %s.\n", num1, num2, ch, str);// 输出生成的字符串printf("使用 sprintf 生成的字符串:\n%s", buffer);// 输出 sprintf 的返回值printf("sprintf 的返回值（一般不适用它）: %d\n", result);return 0;
}

输出结果如下所示：

1.4 注意事项

缓冲区溢出：在使用 sprintf 时，必须确保目标字符串数组 str 有足够的空间来存储生成的字符串，包括末尾的空字符 '\0'。否则，可能会导致缓冲区溢出，这是一个严重的安全问题。

返回值检查：虽然 sprintf 的返回值（写入的字符数）在大多数情况下可能不是必需的，但在某些情况下，检查返回值可以帮助识别潜在的错误或溢出情况。

性能考虑：在性能敏感的应用中，频繁使用 sprintf 可能会引入不必要的开销，因为它涉及到字符串的复制和格式化操作。在这种情况下，可能需要考虑使用更高效的字符串处理函数或方法。

2 sscanf

2.1 函数原型

sscanf 函数是 C 语言标准库中的一个函数，用于从字符串中读取格式化的输入。它的函数原型定义在 <stdio.h> 头文件中。函数原型如下：

#include <stdio.h>  
int sscanf(const char *str, const char *format, ...);

参数：
- const char *str：指向要扫描的字符串的指针。
- const char *format：一个格式字符串，指定了后续参数应该如何从 str 中被解析。这个字符串可以包含文本、格式说明符（如 %d、%s、%f 等）以及空白符（空格、制表符等），用于分隔输入项。
- ...：可变数量的参数，这些参数指向变量的地址。sscanf 将根据 format 字符串中的格式说明符，从 str 中解析出数据，并存储到这些变量中。
返回值：
- 成功时，sscanf 返回成功匹配并赋值的输入项的数量。
- 如果遇到输入结束或遇到格式错误前没有匹配任何输入项，则返回 0。
- 如果发生读取错误，则返回 EOF。

2.2 功能说明

sscanf 函数模仿了 scanf 的行为，不过它是从字符串而非标准输入中读取数据，这使其特别适合解析具有特定格式的字符串内容。sscanf 支持多种数据类型，例如整数、浮点数和字符串，通过格式化字符串来指导数据的解析方式。

相较于 scanf，sscanf 额外需要一个参数，即要从中提取数据的字符串，而其余参数则与 scanf 相同。

简而言之，sscanf 的功能是从字符串中按照指定格式提取数据。

2.3 案例演示

#include <stdio.h>int main()
{char input[] = "整数:123,浮点数:456.78,字符串:Hello,World!";int intValue;float floatValue;char stringValue[50];// 尝试从 input 中解析一个整数、一个浮点数和一个字符串// 如果使用下面这行代码，sscanf 不会成功读取，因为指定格式不对！！！// int numItemsRead = sscanf(input, "%d %f %s", &intValue, &floatValue, stringValue);// 格式要严格匹配！！！int numItemsRead = sscanf(input, "整数:%d,浮点数:%f,字符串:%s", &intValue, &floatValue, stringValue);// 检查是否成功读取了三个项if (numItemsRead == 3){printf("成功解析:\n");printf("整数: %d\n", intValue);printf("浮点数: %.2f\n", floatValue);printf("字符串: %s\n", stringValue);}else{// 如果未成功读取三个项，则输出错误信息printf("解析失败或格式不匹配，读取的项数: %d\n", numItemsRead);}return 0;
}

输出结果如下所示：

2.4 使用 %s 解析字符串的易错点

2.4.1 空白符问题

在 C 语言中使用 sscanf 函数解析字符串时，%s 格式化符会读取直到遇到第一个空白字符（如空格、制表符、换行符等）为止的字符序列，并将其存储到指定的字符数组中。因此所解析的字符串中不能含有空白符，不然只会读取到第一个空白符之前的数据，如下所示：

#include <stdio.h>int main()
{char input[] = "整数:123,浮点数:456.78,字符串:Hello    World!";int intValue;float floatValue;char stringValue[50];// 尝试从 input 中解析一个整数、一个浮点数和一个字符串// 注意，这里的字符串中有空白符:Hello    World!int numItemsRead = sscanf(input, "整数:%d,浮点数:%f,字符串:%s", &intValue, &floatValue, stringValue);// 检查是否成功读取了三个项if (numItemsRead == 3){printf("成功解析:\n");printf("整数: %d\n", intValue);printf("浮点数: %.2f\n", floatValue);printf("字符串: %s\n", stringValue);}else{// 如果未成功读取三个项，则输出错误信息printf("解析失败或格式不匹配，读取的项数: %d\n", numItemsRead);}return 0;
}

输出结果如下所示：

2.4.2 顺序问题

由于 %s 格式化符会读取直到遇到第一个空白字符（如空格、制表符、换行符等）为止的字符序列，并将其存储到指定的字符数组中。这可能导致在解析后续数据（如整数和浮点数）时出现问题，直接将后面所有的（第一个空白符之前）的数据当做一个字符串整体。

#include <stdio.h>int main()
{char input[] = "字符串:Hello,World!,整数:123,浮点数:456.78";int intValue;float floatValue;char stringValue[50];// 尝试从 input 中先解析一个字符串，再解析一个整数和一个浮点数// 注意，这里首先解析的是字符串，%s 会把后面所有的（第一个空白符之前）的数据当做一个字符串整体int numItemsRead = sscanf(input, "字符串:%s,整数:%d,浮点数:%f", stringValue, &intValue, &floatValue);// 检查是否成功读取了三个项if (numItemsRead == 3){printf("成功解析:\n");printf("整数: %d\n", intValue);printf("浮点数: %.2f\n", floatValue);printf("字符串: %s\n", stringValue);}else{// 如果未成功读取三个项，则输出错误信息printf("解析失败或格式不匹配，读取的项数: %d\n", numItemsRead);printf("读取到的字符串是：%s\n", stringValue);}return 0;
}

输出结果如下所示：

解决办法：

如果知道字符串的最大可能长度，可以使用指定宽度的 %s 读取固定数量的字符。但是，这要求确切知道字符串的最大长度（但是，1 个中文字符所占大小不是 1 个字节），并且输入数据不会超过这个长度。

#include <stdio.h>int main()
{char input[] = "字符串:Hello,World!,整数:123,浮点数:456.78";int intValue;float floatValue;char stringValue[50];// 尝试从 input 中先解析一个字符串，再解析一个整数和一个浮点数// 注意，这里首先解析的是字符串，%s 会把后面所有的（第一个空白符之前）的数据当做一个字符串整体// 解决办法：如果知道字符串的最大可能长度，可以使用指定宽度的 %s 读取固定数量的字符，如下面：%12sint numItemsRead = sscanf(input, "字符串:%12s,整数:%d,浮点数:%f", stringValue, &intValue, &floatValue);// 检查是否成功读取了三个项if (numItemsRead == 3){printf("成功解析:\n");printf("整数: %d\n", intValue);printf("浮点数: %.2f\n", floatValue);printf("字符串: %s\n", stringValue);}else{// 如果未成功读取三个项，则输出错误信息printf("解析失败或格式不匹配，读取的项数: %d\n", numItemsRead);printf("读取到的字符串是：%s\n", stringValue);}return 0;
}

输出结果如下所示：

2.4.3 中文字符长度问题

GBK 编码是在 GB2312 编码的基础上扩展而来的，它包含了 GB2312 字符集中的全部 6763 个汉字，并增加了 14240 个汉字、生僻字等，总共包含了 21886 个字符。由于这些字符的数量仍然远小于 2^16（即 65536），因此 GBK 编码采用两个字节来表示一个中文字符。

然而，在 UTF-8 编码中，一个中文字符的字节数并不是固定的。UTF-8 是一种针对 Unicode 的可变长度字符编码，它可以用 1 到 4 个字节表示一个符号，根据不同的符号而变化字节长度。对于常用的汉字，UTF-8 编码通常使用 3 个字节来表示，但也有一些扩展区的汉字可能需要 4 个字节。具体来说，UTF-8 编码中的汉字字节数取决于该汉字在 Unicode 编码中的位置。

在 VS Code 中，我们可以通过，将对应的中文字符串存放到字符数组中，然后使用 strlen 方法计算其长度（不包括空字符），或者通过鼠标悬浮的方式直接查看字符串字节数（字符串长度 + 1），如下所示：

知道了字符串的长度，就可以通过 %s 指定宽度，进行字符串的解析：

#include <stdio.h>
#include <string.h>int main()
{char input[] = "字符串:第一个解析字符串,但是不知道我的长度大小!,整数:123,浮点数:456.78";int intValue;float floatValue;char stringValue[100];char chinese[] = "第一个解析字符串,但是不知道我的长度大小!";int chineseLen = strlen(chinese);printf("这个中文字符串的长度为：%d\n", chineseLen); // 59(不包括结尾的空字符)char chinese2[] = "鼠标悬浮看我多长";// 尝试从 input 中先解析一个字符串，再解析一个整数和一个浮点数// 注意，这里首先解析的是字符串，%s 会把后面所有的（第一个空白符之前）的数据当做一个字符串整体// 解决办法：如果知道字符串的最大可能长度，可以使用指定宽度的 %s 读取固定数量的字符，如下面：%59sint numItemsRead = sscanf(input, "字符串:%59s,整数:%d,浮点数:%f", stringValue, &intValue, &floatValue);// 检查是否成功读取了三个项if (numItemsRead == 3){printf("成功解析:\n");printf("整数: %d\n", intValue);printf("浮点数: %.2f\n", floatValue);printf("字符串: %s\n", stringValue);}else{// 如果未成功读取三个项，则输出错误信息printf("解析失败或格式不匹配，读取的项数: %d\n", numItemsRead);printf("读取到的字符串是：%s\n", stringValue);}return 0;
}

输出结果如下所示：