CCF认证-202403-02 | 相似度计算

题目内容:

两个集合的 Jaccard 相似度定义为:

Sim(A,B)=|A∩B||A∪B|

即交集的大小除以并集的大小。

当集合 A 和 B 完全相同时,Sim(A,B)=1 取得最大值;当二者交集为空时,Sim(A,B)=0 取得最小值。

除了进行简单的词频统计,小 P 还希望使用 Jaccard 相似度来评估两篇文章的相似性。

具体来说,每篇文章均由若干个英文单词组成,且英文单词仅包含“大小写英文字母”。

对于给定的两篇文章,小 P 首先需要提取出两者的单词集合 A 和 B,即去掉各自重复的单词。

然后计算出:

  • |A∩B|,即有多少个不同的单词同时出现在两篇文章中;
  • |A∪B|,即两篇文章一共包含了多少个不同的单词。

最后再将两者相除即可算出相似度。

需要注意,在整个计算过程中应当忽略英文字母大小写的区别,比如 theThe 和 THE 三者都应被视作同一个单词。

试编写程序帮助小 PP 完成前两步,计算出 |A∩B| 和 |A∪B|;小 P 将亲自完成最后一步的除法运算。

输入格式

输入共三行。

输入的第一行包含两个正整数 n 和 m,分别表示两篇文章的单词个数。

第二行包含空格分隔的 n 个单词,表示第一篇文章;

第三行包含空格分隔的 m 个单词,表示第二篇文章。

输出格式

输出共两行。

第一行输出一个整数 |A∩B|,即有多少个不同的单词同时出现在两篇文章中;

第二行输出一个整数 |A∪B|,即两篇文章一共包含了多少个不同的单词。

数据范围

全部的测试数据满足:1≤n,m≤1041≤n,m≤104 且每个单词最多包含 1010 个字母。

输入样例1:
3 2
The tHe thE
the THE
输出样例1:
1
1
样例1解释

A=B=A∩B=A∪B={the}

输入样例2:
9 7
Par les soirs bleus dete jirai dans les sentiers
PICOTE PAR LES BLES FOULER LHERBE MENUE
输出样例2:
2
13
样例2解释

A={bleus, dans, dete, jirai, les, par, sentiers, soirs}|A|=8

B={bles, fouler, les, lherbe, menue, par, picote}|B|=7

A∩B={les, par}|A∩B|=2

输入样例3:
15 15
Thou that art now the worlds fresh ornament And only herald to the gaudy spring
Shall I compare thee to a summers day Thou art more lovely and more temperate
输出样例3:
4
24

题解:

        首先是数据处理问题,输入的string必须先经过遍历,全部转换成小写再进行操作。

        第二个问题比较简单,使用set数据结构来去重,因为题目不要求顺序,则set操作也比较简单。

        关于第一个问题,思路是,将第一本书里的内容进行去重放进st1,在第二本书输入数据的时候进行比对,如果string s没在第二本书出现并且在第一本书出现则计数++。

代码:

#include<iostream>
#include<cstdio>
#include<cmath>
#include<cstdlib>
#include<cstring>
#include<algorithm>
#include<iomanip>
#include<queue>
#include<stack>
#include<vector>
#include<set>
#include<map>
#include <functional>
using namespace std;
typedef long long int ll;int n=0,m=0,i,j,cnt=0;
set<string> st1;
set<string> st2;
set<string> st;
string s;main()
{cin >> n >> m;for(i=0;i<n;i++){cin >> s;for(j=0;j<s.size();j++){if(s[j]>='A' && s[j]<='Z'){s[j]+=32;}}st1.insert(s);st.insert(s);}for(i=0;i<m;i++){cin >> s;for(j=0;j<s.size();j++){if(s[j]>='A' && s[j]<='Z'){s[j]+=32;}}if(st2.find(s)==st2.end()){if(st1.find(s)!=st1.end()){cnt++;}st2.insert(s);}st.insert(s);}cout << cnt << "\n";cout << st.size() << "\n";
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/15345.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Jdbc学习笔记(四)--PreparedStatement对象、sql攻击(安全问题)

目录 &#xff08;一&#xff09;使用PreparedStatement对象的原因&#xff1a; 使用Statement对象编写sql语句会遇到的问题 ​编辑 &#xff08;二&#xff09;sql攻击 1.什么是sql攻击 2.演示sql攻击 &#xff08;三&#xff09;防止SQL攻击 1.PreparedStatement是什么 …

前端开发必备!2024年最全工具和框架资源大汇总

在前端开发的过程中&#xff0c;我们会使用各种工具、框架和库来提升开发效率和用户体验。随着技术的不断发展&#xff0c;前端生态系统逐渐丰富&#xff0c;开发者面临着越来越多的选择。本文将分享一些常见的前端资源&#xff0c;帮助开发者根据项目需求选择合适的工具。 1.…

备份可以起到什么作用?

在数字化时代&#xff0c;数据已经成为企业最宝贵的资产。然而&#xff0c;数据丢失和系统故障可能给企业带来巨大的损失。华为云备份服务作为一款全面的数据保护解决方案&#xff0c;致力于帮助企业保障数据安全&#xff0c;确保业务的连续性。九河云来给大家说一下华为云备份…

labview实现导出excel表格

有些项目数据读写在数据库里&#xff0c;有时客户会要求读写出来&#xff0c;这样就用到了labview把数据导出来&#xff0c;一般在测试程序界面&#xff0c;我们会把测试数据放在多列列表框里&#xff0c;这里我们需要对多列列表框进行操作。把多列列表框中的项名拆分出来。 接…

深度解读AI在数字档案馆中的创新应用:高效识别与智能档案管理

一、项目背景介绍 在信息化浪潮推动下&#xff0c;基于OCR技术的纸质档案电子化方案成为解决档案管理难题的有效途径。该方案通过先进的OCR技术&#xff0c;能够统一采集各类档案数据&#xff0c;无论是手写文件、打印文件、复古文档还是照片或扫描的历史资料&#xff0c;都能实…

vue3 vant4 NumberKeyboard 根据焦点输入

说明&#xff1a; 使用该组件时焦点在最后&#xff0c;客户要求可更改前面输错信息 实现逻辑 1.获取输入框焦点位置&#xff0c;此次采用的是ref&#xff0c;也可使用document相关 const inputElement numberKeyboardRef.value;if (inputElement) {cursorPosition.value i…

DHT22温湿度传感器(Espressif驱动)

DHT22&#xff1a; 温度范围&#xff1a;-40-80C温度精度&#xff1a;0.5C湿度范围&#xff1a;0-100%RH湿度精度&#xff1a;2-5%RH分辨率&#xff1a;0.1C / 0.1%RH #define LOG_LOCAL_LEVEL ESP_LOG_VERBOSE#include <stdio.h> #include <freertos/FreeRTOS.h>…

数据结构——排序(续集)

♥♥♥~~~~~~欢迎光临知星小度博客空间~~~~~~♥♥♥ ♥♥♥零星地变得优秀~也能拼凑出星河~♥♥♥ ♥♥♥我们一起努力成为更好的自己~♥♥♥ ♥♥♥如果这一篇博客对你有帮助~别忘了点赞分享哦~♥♥♥ ♥♥♥如果有什么问题可以评论区留言或者私信我哦~♥♥♥ ✨✨✨✨✨✨ 个…

MySQL主从复制

主节点 server id 1. 更改server id 指定二进制日志文件目录 [rootmaster ~]#vim /etc/my.cnf.d/mariadb-server.cnf [mysqld] server-id8 log-bin 2. 新建目录并赋予权限 mkdir -p /data/mysql/logbin/chowm -R mysql.mysql /data/mysql/ 3. 重新启动 systemctl enabl…

酥皮点心,味蕾上的享受

甘肃酥皮点心承载着悠久的历史与深厚的文化底蕴。它起源于古老的丝绸之路&#xff0c;在岁月的长河中&#xff0c;经过一代又一代甘肃人的传承与创新&#xff0c;成为了如今令人陶醉的美食。每一块酥皮点心都仿佛在诉说着过去的故事&#xff0c;见证着甘肃大地的变迁与发展。食…

SpringCloud核心组件(三)

文章目录 Nacos 注册中心1. 简介功能1.服务发现和服务健康监测2.动态配置服务3. 动态 DNS 服务4. 服务及其元数据管理 优势设计理念易于使用面向标准高可用方便扩展 部署模式单机模式集群模式 Nacos 生态&#xff1a; 2. 安装 Nacos第一步&#xff1a;拉取镜像第二步&#xff1…

反射、枚举以及lambda表达式

反射、枚举以及lambda表达式 反射定义用途反射基本信息反射相关的类Class类(反射机制的起源)Class类中的相关方法 反射示例获得Class对象的三种方式反射的使用 反射优点和缺点重点总结 枚举的使用背景及定义使用枚举优点缺点枚举和反射总结单例模式 Lambda表达式背景Lambda表达…

Java学习Day60:回家!(ElasticStatic)

1.what is ElasticStatic The Elastic Stack, 包括 Elasticsearch、 Kibana、 Beats 和 Logstash&#xff08;也称为 ELK Stack&#xff09;。能够安全可靠地获取任何来源、任何格式的数据&#xff0c;然后实时地对数据进行搜索、分析和可视化。 Elaticsearch&#xff0c;简称…

java八股-jvm入门-程序计数器,堆,元空间,虚拟机栈,本地方法栈,类加载器,双亲委派,类加载执行过程

文章目录 PC Register堆虚拟机栈方法区(Metaspace元空间双亲委派机制类加载器 类装载的执行过程 PC Register 程序计数器&#xff08;Program Counter Register&#xff09;是 Java 虚拟机&#xff08;JVM&#xff09;中的一个组件&#xff0c;它在 JVM 的内存模型中扮演着非常…

Docker 篇-Docker 详细安装、了解和使用 Docker 核心功能(数据卷、自定义镜像 Dockerfile、网络)

&#x1f525;博客主页&#xff1a; 【小扳_-CSDN博客】 ❤感谢大家点赞&#x1f44d;收藏⭐评论✍ 文章目录 1.0 Docker 概述 1.1 Docker 主要组成部分 1.2 Docker 安装 2.0 Docker 常见命令 2.1 常见的命令介绍 2.2 常见的命令演示 3.0 数据卷 3.1 数据卷常见的命令 3.2 常见…

恶意PDF文档分析记录

0x1 PDF是什么 PDF&#xff08;便携式文件格式&#xff0c;Portable Document Format&#xff09;是由Adobe Systems在1993年用於文件交换所发展出的文件格式。 因为PDF的文件格式性质广泛用于商业办公&#xff0c;引起众多攻击者对其开展技术研究&#xff0c;在一些APT&#…

SpringBoot集成itext导出PDF

添加依赖 <!-- PDF导出 --><dependency><groupId>com.itextpdf</groupId><artifactId>itextpdf</artifactId><version>5.5.11</version></dependency><dependency><groupId>com.itextpdf</groupId>&l…

不想后悔,混动车这样买

文 | AUTO芯球 作者 | 雷慢 不买一辆混动车&#xff0c; 你永远不知道自己有多抠&#xff01; 我有个跑滴滴的小伙伴&#xff0c; 他说近10年来最后悔的事&#xff0c; 就是没买个纯电续航长点的混动车&#xff0c; 怎么回事呢&#xff0c; 这个小伙伴今年买了辆纯电续航…

第一个C语言程序,带领我们进入C语言的大门!

第一个C语言程序&#xff0c;带领我们进入C语言的大门&#xff01; 我们有两种方式从计算机获得信息&#xff1a;一是看屏幕上的文字、图片、视频等&#xff0c;二是听从喇叭发出来的声音。让喇叭发出声音目前还比较麻烦&#xff0c;我们先来看看如何在屏幕上显示一些文字吧。p…

大模型到底是什么?小白也能看懂的科普贴,让你从大模型入门到大模型精通

&#xff08;图源网络&#xff09; 从去年到今年&#xff0c;大模型、chatGPT等概念和技术越来越火&#xff0c;但是像笔者一样的技术小白一直对大模型是一种似懂非懂的状态。鉴于最近在做基于大模型和Agent的上层AI应用&#xff0c;如若不了解底层概念&#xff0c;始终还是会…