初体验HanLP---Python自然语言处理(1)

前言

目前开源的自然语言处理工具有NLTK,CoreNLP,LTP,HanLP。对于我们中国的程序员来说,一般使用哈工大的LTP,或者使用开源的HanLP。

我们后续的讲解都是基于HanLP工具,它具有词法分析,句法分析,关键词提取以及文本分析等。优点是运行特别快,省内存,精度准且免费的特性。

安装HanLP库

既然我们已经了解了HanLP库的优点,下面,我们安装该库用于后续的开发实战:

pip install pyhanlp -i https://pypi.tuna.tsinghua.edu.cn/simple

需要注意的是,该库依赖于Java与Jpype。所以需要提前安装Visual C++,或者可以不安装Visual C++,安装Miniconda也行。当然java jdk是必须安装的。

检验安装是否成功可以通过如下代码验证:

print(HanLP.segment("你好,欢迎来到HanLP世界"))

控制台输出如下内容,就表示安装成功:
输出结果

至于什么意思后续会讲解,这里暂时用于验证安装是否成功。

词典的加载

互联网上有许多公开的词典,比如搜狗实验室发布的互联网词典SogouW,清华大学开放中文词典THUOCL,以及HanLP库自带的词典。这里,我们后续的讲解一般也是使用HanLP库自带的词典进行操作。

下面,我们通过Python调用词典数据:

def load_dictionary():
    IOUtil = JClass('com.hankcs.hanlp.corpus.io.IOUtil')
    path = HanLP.Config.CoreDictionaryPath.replace('.txt', '.mini.txt')
    dic = IOUtil.loadDictionary([path])
    return set(dic.keySet())

这里,我们首先获取到Java类IOUtil,然后取得HanLP库配置项Config中的词典路径。接着,使用IOUtil类的静态方法loadDictionary读取文件中的词典,它返回的是一个java Map对象,但我们不关心它的键值,所以将其转换一个python原生的set对象。运行之后,输出如下结果:
词典

  • 0
    点赞
  • 4
    收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
©️2022 CSDN 皮肤主题:酷酷鲨 设计师:CSDN官方博客 返回首页
评论

打赏作者

李元静

您的鼓励就是我创作的动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值