Python计算余弦相似度

一、余弦相似度简介余弦相似度是一种衡量两个向量相似性的方法。在自然语言处理、信息检索、数据挖掘等领域都有广泛应用。二、余弦相似度计算余弦相似度计算公式如下： import numpy as np def cosine_similarity(vec1, vec2): dot_product = np.dot(vec1, vec2) norm = np.linalg.norm(vec1) * np.linalg.norm(vec2) 2023-12-03 0 Comments

一、余弦相似度简介

余弦相似度是一种衡量两个向量相似性的方法。在自然语言处理、信息检索、数据挖掘等领域都有广泛应用。

二、余弦相似度计算

余弦相似度计算公式如下：

import numpy as np

def cosine_similarity(vec1, vec2):
    dot_product = np.dot(vec1, vec2)
    norm = np.linalg.norm(vec1) * np.linalg.norm(vec2)
    
    return dot_product / norm

其中，vec1和vec2都是向量，可以是list或numpy.ndarray类型。可以使用numpy.array方法将list类型转换为numpy.ndarray类型。

三、处理文本数据

1. 数据预处理

在进行余弦相似度计算之前，需要对文本进行预处理。一般包括去除停用词、分词等操作。

import jieba
import re

def preprocess_text(text):
    
    # 去除除中文、字母、数字以外的其他字符
    pattern = re.compile('[^\u4e00-\u9fa5^a-z^A-Z^0-9]')
    text = pattern.sub('', text)
    
    # 分词
    seg_list = jieba.cut(text)
    
    # 去除停用词
    stopwords = [line.strip() for line in open('stopwords.txt', 'r', encoding='utf-8').readlines()]
    words = [word for word in seg_list if word not in stopwords]
    
    return words

在此代码中，我们使用了jieba库进行中文分词，同时使用了re库去除了除中文、字母、数字以外的其他字符。

我们将停用词文本文件读入，并在函数内定义了一个stopwords变量存储停用词。然后使用列表推导式去除了停用词。

2. 构建文本向量

将文本转化为向量是余弦相似度计算的基础。我们可以使用词袋模型或TF-IDF算法生成文本向量。

下面是使用词袋模型生成文本向量的代码：

def get_text_vector(text, words_dict):
    text_vector = [0] * len(words_dict)

    for word in text:
        if word in words_dict:
            text_vector[words_dict[word]] += 1

    return np.array(text_vector)

其中，输入参数words_dict为一个词典，用于存储每一个单词对应的序列索引。

下面是使用TF-IDF算法生成文本向量的代码：

from sklearn.feature_extraction.text import TfidfVectorizer

def get_tfidf_vector(text_list):
    tfidf_vectorizer = TfidfVectorizer(tokenizer=lambda x: x, preprocessor=lambda x: x)
    tfidf_vectorizer.fit(text_list)
    tfidf_vector = tfidf_vectorizer.transform(text_list)

    return tfidf_vector.toarray()

TF-IDF算法可以帮助我们区分文本中重要和不重要的单词，并将其转换为一个向量。这个向量表示文本中每个单词在整个语料库中的重要性。

四、应用实例

现在，我们尝试使用余弦相似度来进行文本相似性匹配。

docs = ['我喜欢打篮球', '打篮球真是太好玩了', '毛泽东是中国伟大的领袖']
words_dict = {}
text_matrix = []

for i, doc in enumerate(docs):
    words = preprocess_text(doc)
    text_matrix.append(words)
    
    for word in words:
        if word not in words_dict:
            words_dict[word] = len(words_dict)

doc_vectors = []

for words in text_matrix:
    doc_vectors.append(get_text_vector(words, words_dict))

score_matrix = np.zeros((len(docs), len(docs)))

for i in range(len(docs)):
    for j in range(len(docs)):
        score = cosine_similarity(doc_vectors[i], doc_vectors[j])
        score_matrix[i][j] = score

print(score_matrix)

在这个示例中，我们有三个文本，即'我喜欢打篮球'、'打篮球真是太好玩了'和'毛泽东是中国伟大的领袖'。首先，我们定义了一个words_dict字典，存储了每一个单词对应的序列索引。然后，我们使用preprocess_text方法对每一个文本进行预处理，生成一个处理后的列表。接下来，我们使用get_text_vector方法将每一篇文本表示为一个向量，并将这些向量储存在doc_vectors列表中。最后，我们使用cosine_similarity方法计算每一篇文本之间的余弦相似度，并将得分维护在score_matrix矩阵中。

五、总结

余弦相似度是一种常用的文本相似性度量方法，在自然语言处理、信息检索、数据挖掘等领域都有重要的应用。在实现余弦相似度计算时，需要进行文本预处理、文本向量构建和余弦相似度计算。实际应用时，可以根据需求选择不同的文本向量构建方法，比如词袋模型或TF-IDF算法。

本文链接：https://my.lmcjl.com/post/12454.html

展开阅读全文

4 评论

擅长工具开发、爬虫采集技术、大数据统计处理！
座右铭：皇天不负有心人。

Python计算余弦相似度

一、余弦相似度简介

二、余弦相似度计算

三、处理文本数据

1. 数据预处理

2. 构建文本向量

四、应用实例

五、总结

4 评论

留下您的评论. Cancel reply

一、余弦相似度简介

二、余弦相似度计算

三、处理文本数据

1. 数据预处理

2. 构建文本向量

四、应用实例

五、总结

相关文章

4 评论

留下您的评论. Cancel reply