jieba - 个人博客

查询到最新的8条

Java 结合中文分词库 jieba 统计一堆文本中各个词语的出现次数【代码记录】

2023-07-10 0 Comment

文章目录 1、需求2、代码3、结果 1、需求 2、代码 package com.zibo.main;import com.huaban.analysis.jieba.JiebaSegmenter;import java.io.BufferedReader; import java.io.FileReader; import java.io.IOException; import java.util.HashMap; import java.util.List; impo 继续阅读

python分词工具使用

2023-07-25 0 Comment

几款好用的分词工具，如 jieba, hanlp, synonyms 参见准确实用，7个优秀的开源中文分词库推荐synonyms：中文近义词工具包 hanlp 官网：http://hanlp.com 安装 pip install pyhanlp若报错“缺少VC++组件”，则需要在 https://www.lfd.uci.edu/~gohlke/pythonlibs/ 网站找到JPype1-0.6.2 继续阅读

python实现分词和词云制作

2023-07-26 0 Comment

python实现分词和词云一、下载相关的资源库1.1 jieba分词1.2 wordcloud 二、词云制作2.1 分词2.2 制作词云2.3 运行输出三、踩坑记录本次制作词云的目的是找出物联网专业职位所需技能的关键词，首先爬取了boss直聘和智联招聘上的物联网专业职位的技术要求，爬取方法参考链接。一、下载相关的资源库 1.1 jieba分词官网：https://pypi.org/project/jieba/0.4 继续阅读

结巴分词python安装_“结巴”分词：做最好的Python分词组件

2023-07-26 0 Comment

python 结巴分词学习 https://www.toutiao.com/a6643201326710784520/ 2019-01-06 10:14:00 结巴分词(自然语言处理之中文分词器) jieba分词算法使用了基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划查找最大概率路径，找出基于词频的最大切分组合，对于未登录词，采用了基于汉字成词能力... Python利用结继续阅读

Python 分词工具大总结，盘点哪个更好用？

2023-07-26 0 Comment

大家好，我是菜鸟哥！ 分词在自然语言处理中有着常见的场景，比如从一篇文章自动提取关键词就需要用到分词工具，中文搜索领域同样离不开分词 Python 中有很多开源的分词工具，下面给大家介绍几款常见的分词依赖库 1. jieba 分词 “结巴” 分词，GitHub 最受欢迎的分词工具，立志做最好的 Python 中文分词组件，支持多种分词模式，支持自定义词典 github 继续阅读

python结巴分词的缺点_Python 结巴分词

2023-07-26 0 Comment

今天的任务是对txt文本进行分词，有幸了解到"结巴"中文分词，其愿景是做最好的Python中文分词组件。有兴趣的朋友请点这里。 jieba支持三种分词模式：＊精确模式，试图将句子最精确地切开，适合文本分析；＊全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；＊搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。主要采用以下算法：＊基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向继续阅读

《自然语言处理》第一次作业：分词

2023-07-27 0 Comment

文章目录作业要求代码单线程read_data 多线程read_dataread_file 分词max_matchjieba分词计算准确率，召回率，F1-测度to_regionprf 程序完整代码运行结果读取数据分词作业要求题目：分词数据集：人民日报标注集(包括训练集和测试集) 任务：对数据集进行分词实验，并进行性能评估& 继续阅读

Python文本聚类分析

2023-10-01 0 Comment

本文将会从数据预处理、特征提取、聚类算法选择等多个方面详细介绍Python文本聚类分析的步骤和方法。一、数据预处理数据预处理是文本聚类分析的第一步，其目的是对原始文本数据进行去噪、规范化、标准化等处理，以便后续的特征提取和聚类。常见的文本预处理方法有： 1、去除停用词和标点符号，如“的”、“了”等，可以减小文本的维度，加快计算速度； import jieba import re #去除停用词和标点符号 def clean_text(text): 继续阅读