【拥抱AI】如何使用BERT等预训练模型计算语义相似度

使用BERT等预训练模型计算语义相似度是一种非常有效的方法，可以捕捉句子之间的深层次语义关系。下面是一个详细的步骤指南，介绍如何使用BERT和Sentence-BERT来计算语义相似度。
在这里插入图片描述

1. 环境准备

1.1 安装必要的库

首先，确保你已经安装了必要的Python库。这里我们使用transformers库来加载BERT模型，使用sentence-transformers库来加载Sentence-BERT模型。

pip install transformers sentence-transformers

2. 加载预训练模型

2.1 加载BERT模型

BERT模型可以将输入文本编码为向量表示，但默认情况下，BERT模型的输出是每个token的向量表示，而不是整个句子的向量表示。为了得到句子级别的向量表示，我们可以使用池化操作（如取平均值或使用CLS标记）。

from transformers import BertTokenizer, BertModel
import torch# 加载预训练的BERT模型和分词器
model_name = 'bert-base-uncased'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)# 输入文本
reference = "This is a test."
candidate = "This is a test."# 编码为token IDs
input_ids = tokenizer([reference, candidate], padding=True, truncation=True, return_tensors='pt')# 获取模型的输出
with torch.no_grad():outputs = model(**input_ids)# 获取最后一层的隐藏状态
last_hidden_states = outputs.last_hidden_state# 使用CLS标记的向量作为句子表示
cls_embeddings = last_hidden_states[:, 0, :]# 计算余弦相似度
cosine_similarity = torch.nn.functional.cosine_similarity(cls_embeddings[0], cls_embeddings[1], dim=0)
print(f"BERT Semantic Similarity: {cosine_similarity.item()}")

2.2 加载Sentence-BERT模型

Sentence-BERT是BERT的一个变种，专门用于生成句子级别的向量表示。Sentence-BERT通过微调BERT模型，使其能够更有效地生成句子级别的向量表示。

from sentence_transformers import SentenceTransformer, util# 加载预训练的Sentence-BERT模型
model = SentenceTransformer('paraphrase-MiniLM-L6-v2')# 输入文本
reference = "This is a test."
candidate = "This is a test."# 编码为向量
reference_embedding = model.encode(reference, convert_to_tensor=True)
candidate_embedding = model.encode(candidate, convert_to_tensor=True)# 计算余弦相似度
similarity = util.pytorch_cos_sim(reference_embedding, candidate_embedding).item()
print(f"Sentence-BERT Semantic Similarity: {similarity}")

3. 详细步骤

3.1 数据预处理

分词：将输入文本分词为token序列。
编码：将token序列转换为模型可以接受的输入格式（如token IDs）。

# 输入文本
reference = "This is a test."
candidate = "This is a test."# 编码为token IDs
input_ids = tokenizer([reference, candidate], padding=True, truncation=True, return_tensors='pt')

3.2 模型推理

前向传播：将输入传递给模型，获取模型的输出。
提取向量：从模型的输出中提取句子级别的向量表示。

# 获取模型的输出
with torch.no_grad():outputs = model(**input_ids)# 获取最后一层的隐藏状态
last_hidden_states = outputs.last_hidden_state# 使用CLS标记的向量作为句子表示
cls_embeddings = last_hidden_states[:, 0, :]

3.3 计算相似度

余弦相似度：计算两个向量之间的余弦相似度，范围从-1到1，值越接近1表示相似度越高。

# 计算余弦相似度
cosine_similarity = torch.nn.functional.cosine_similarity(cls_embeddings[0], cls_embeddings[1], dim=0)
print(f"BERT Semantic Similarity: {cosine_similarity.item()}")

4. 示例代码

以下是一个完整的示例代码，展示了如何使用BERT和Sentence-BERT计算两个句子的语义相似度。

from transformers import BertTokenizer, BertModel
import torch
from sentence_transformers import SentenceTransformer, util# 加载预训练的BERT模型和分词器
model_name = 'bert-base-uncased'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)# 输入文本
reference = "This is a test."
candidate = "This is a test."# 编码为token IDs
input_ids = tokenizer([reference, candidate], padding=True, truncation=True, return_tensors='pt')# 获取模型的输出
with torch.no_grad():outputs = model(**input_ids)# 获取最后一层的隐藏状态
last_hidden_states = outputs.last_hidden_state# 使用CLS标记的向量作为句子表示
cls_embeddings = last_hidden_states[:, 0, :]# 计算余弦相似度
cosine_similarity_bert = torch.nn.functional.cosine_similarity(cls_embeddings[0], cls_embeddings[1], dim=0)
print(f"BERT Semantic Similarity: {cosine_similarity_bert.item()}")# 加载预训练的Sentence-BERT模型
model = SentenceTransformer('paraphrase-MiniLM-L6-v2')# 编码为向量
reference_embedding = model.encode(reference, convert_to_tensor=True)
candidate_embedding = model.encode(candidate, convert_to_tensor=True)# 计算余弦相似度
similarity_sentence_bert = util.pytorch_cos_sim(reference_embedding, candidate_embedding).item()
print(f"Sentence-BERT Semantic Similarity: {similarity_sentence_bert}")

5. 结果解释

BERT Semantic Similarity：使用BERT模型计算的余弦相似度。
Sentence-BERT Semantic Similarity：使用Sentence-BERT模型计算的余弦相似度。

6. 注意事项

模型选择：根据任务需求选择合适的模型。Sentence-BERT在句子级别的任务上表现更好，而BERT在更细粒度的任务上可能更适用。
数据预处理：确保输入文本的预处理步骤一致，以避免因数据格式不一致导致的误差。
计算资源：BERT和Sentence-BERT模型计算量较大，需要足够的计算资源，特别是在处理大规模数据时。

通过以上步骤，你可以使用BERT和Sentence-BERT模型有效地计算句子之间的语义相似度，从而评估生成文本的质量。

BERT和Sentence-BERT模型不仅在计算语义相似度方面表现出色，还可以应用于多种自然语言处理任务。以下是一些常见的任务及其使用BERT和Sentence-BERT的详细说明：

1. 文本分类

1.1 任务描述

文本分类任务的目标是将文本归类到预定义的类别中，例如情感分类、垃圾邮件检测、新闻分类等。

1.2 使用BERT

from transformers import BertTokenizer, BertForSequenceClassification
import torch# 加载预训练的BERT模型和分词器
model_name = 'bert-base-uncased'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForSequenceClassification.from_pretrained(model_name, num_labels=2)  # 二分类任务# 输入文本
text = "This is a positive review."# 编码为token IDs
input_ids = tokenizer(text, padding=True, truncation=True, return_tensors='pt')# 获取模型的输出
with torch.no_grad():outputs = model(**input_ids)# 获取预测标签
logits = outputs.logits
predicted_label = torch.argmax(logits, dim=1).item()
print(f"Predicted Label: {predicted_label}")

1.3 使用Sentence-BERT

from sentence_transformers import SentenceTransformer, models# 加载预训练的Sentence-BERT模型
model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')# 输入文本
text = "This is a positive review."# 编码为向量
embedding = model.encode(text, convert_to_tensor=True)# 假设有一个预训练的分类器
classifier = torch.nn.Linear(embedding.size(-1), 2)  # 二分类任务# 获取模型的输出
with torch.no_grad():logits = classifier(embedding.unsqueeze(0))# 获取预测标签
predicted_label = torch.argmax(logits, dim=1).item()
print(f"Predicted Label: {predicted_label}")

2. 情感分析

2.1 任务描述

情感分析任务的目标是判断文本的情感倾向，通常是正面、负面或中立。

2.2 使用BERT

from transformers import BertTokenizer, BertForSequenceClassification
import torch# 加载预训练的BERT模型和分词器
model_name = 'bert-base-uncased'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForSequenceClassification.from_pretrained(model_name, num_labels=3)  # 三分类任务# 输入文本
text = "I love this product!"# 编码为token IDs
input_ids = tokenizer(text, padding=True, truncation=True, return_tensors='pt')# 获取模型的输出
with torch.no_grad():outputs = model(**input_ids)# 获取预测标签
logits = outputs.logits
predicted_label = torch.argmax(logits, dim=1).item()
print(f"Predicted Label: {predicted_label}")

2.3 使用Sentence-BERT

from sentence_transformers import SentenceTransformer, models# 加载预训练的Sentence-BERT模型
model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')# 输入文本
text = "I love this product!"# 编码为向量
embedding = model.encode(text, convert_to_tensor=True)# 假设有一个预训练的分类器
classifier = torch.nn.Linear(embedding.size(-1), 3)  # 三分类任务# 获取模型的输出
with torch.no_grad():logits = classifier(embedding.unsqueeze(0))# 获取预测标签
predicted_label = torch.argmax(logits, dim=1).item()
print(f"Predicted Label: {predicted_label}")

3. 命名实体识别 (NER)

3.1 任务描述

命名实体识别任务的目标是从文本中识别出特定类型的实体，如人名、地名、组织名等。

3.2 使用BERT

from transformers import BertTokenizer, BertForTokenClassification
import torch# 加载预训练的BERT模型和分词器
model_name = 'dbmdz/bert-large-cased-finetuned-conll03-english'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForTokenClassification.from_pretrained(model_name)# 输入文本
text = "Apple is looking at buying U.K. startup for $1 billion"# 编码为token IDs
input_ids = tokenizer(text, return_tensors='pt')# 获取模型的输出
with torch.no_grad():outputs = model(**input_ids)# 获取预测标签
logits = outputs.logits
predicted_labels = torch.argmax(logits, dim=2).squeeze().tolist()# 映射标签
label_list = ['O', 'B-PER', 'I-PER', 'B-ORG', 'I-ORG', 'B-LOC', 'I-LOC', 'B-MISC', 'I-MISC']
tokens = tokenizer.convert_ids_to_tokens(input_ids['input_ids'][0])for token, label in zip(tokens, predicted_labels):print(f"Token: {token}, Label: {label_list[label]}")

4. 问答系统 (Question Answering)

4.1 任务描述

问答系统任务的目标是根据给定的问题和上下文，生成答案。

4.2 使用BERT

from transformers import BertTokenizer, BertForQuestionAnswering
import torch# 加载预训练的BERT模型和分词器
model_name = 'bert-large-uncased-whole-word-masking-finetuned-squad'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForQuestionAnswering.from_pretrained(model_name)# 输入文本
context = "The Apollo program, also known as Project Apollo, was the third United States human spaceflight program carried out by the National Aeronautics and Space Administration (NASA)."
question = "What was the third United States human spaceflight program?"# 编码为token IDs
inputs = tokenizer(question, context, return_tensors='pt')# 获取模型的输出
with torch.no_grad():outputs = model(**inputs)# 获取起始和结束位置
start_scores = outputs.start_logits
end_scores = outputs.end_logits# 获取预测的答案
answer_start = torch.argmax(start_scores)
answer_end = torch.argmax(end_scores) + 1
answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(inputs['input_ids'][0][answer_start:answer_end]))print(f"Answer: {answer}")

5. 语义搜索 (Semantic Search)

5.1 任务描述

语义搜索任务的目标是在大量文档中找到与查询最相关的文档。

5.2 使用Sentence-BERT

from sentence_transformers import SentenceTransformer, util# 加载预训练的Sentence-BERT模型
model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')# 输入文本
query = "How to train a neural network?"
documents = ["Training a neural network involves several steps, including data preprocessing, model architecture design, and optimization.","Neural networks are a powerful tool for machine learning tasks.","Deep learning frameworks like TensorFlow and PyTorch make it easy to train neural networks."
]# 编码为向量
query_embedding = model.encode(query, convert_to_tensor=True)
document_embeddings = model.encode(documents, convert_to_tensor=True)# 计算余弦相似度
similarities = util.pytorch_cos_sim(query_embedding, document_embeddings)[0]# 排序并输出最相关的文档
top_k = 2
top_results = torch.topk(similarities, k=top_k)
for score, idx in zip(top_results[0], top_results[1]):print(f"Document: {documents[idx]}, Score: {score.item()}")

6. 语义匹配 (Semantic Matching)

6.1 任务描述

语义匹配任务的目标是判断两个句子是否具有相同的语义。

6.2 使用BERT

from transformers import BertTokenizer, BertModel
import torch# 加载预训练的BERT模型和分词器
model_name = 'bert-base-uncased'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)# 输入文本
sentence1 = "This is a test."
sentence2 = "This is a test."# 编码为token IDs
input_ids = tokenizer([sentence1, sentence2], padding=True, truncation=True, return_tensors='pt')# 获取模型的输出
with torch.no_grad():outputs = model(**input_ids)# 获取最后一层的隐藏状态
last_hidden_states = outputs.last_hidden_state# 使用CLS标记的向量作为句子表示
cls_embeddings = last_hidden_states[:, 0, :]# 计算余弦相似度
cosine_similarity = torch.nn.functional.cosine_similarity(cls_embeddings[0], cls_embeddings[1], dim=0)
print(f"BERT Semantic Similarity: {cosine_similarity.item()}")

6.3 使用Sentence-BERT

from sentence_transformers import SentenceTransformer, util# 加载预训练的Sentence-BERT模型
model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')# 输入文本
sentence1 = "This is a test."
sentence2 = "This is a test."# 编码为向量
sentence1_embedding = model.encode(sentence1, convert_to_tensor=True)
sentence2_embedding = model.encode(sentence2, convert_to_tensor=True)# 计算余弦相似度
similarity = util.pytorch_cos_sim(sentence1_embedding, sentence2_embedding).item()
print(f"Sentence-BERT Semantic Similarity: {similarity}")

7. 文本生成

7.1 任务描述

文本生成任务的目标是根据给定的提示生成新的文本，如续写故事、生成新闻标题等。

7.2 使用BERT

from transformers import BertTokenizer, BertForMaskedLM
import torch# 加载预训练的BERT模型和分词器
model_name = 'bert-base-uncased'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForMaskedLM.from_pretrained(model_name)# 输入文本
prompt = "This is a [MASK] test."# 编码为token IDs
input_ids = tokenizer(prompt, return_tensors='pt')# 获取模型的输出
with torch.no_grad():outputs = model(**input_ids)# 获取预测的token
logits = outputs.logits
predicted_token_id = torch.argmax(logits[0, 4, :], dim=-1).item()
predicted_token = tokenizer.decode(predicted_token_id)print(f"Predicted Token: {predicted_token}")