您当前的位置主页 > SEO优化 > 浏览文章

Python无监督抽词

来源:SEO优化 2012-10-13

快速提升网站销量,使用365webcall网站客服系统

如何快速正确分词,对于SEO来说,是提取tags聚合,信息关联的好帮手。

目前很多分词工具都是基于一元的分词法,需要词库来辅助。

通过对Google黑板报第一章的学习,如何利用统计模型进行分词。

本方法考虑了3个维度:

凝聚程度:两个字连续出现的概率并不是各自独立的程度。例如“上”出现的概率是1×10^-5,”床”出现的概率是1×10^-10,如果这两个字的凝聚程度低,则”上床”出现的概率应该和1×10^-15接近,但是事实上”上床”出现的概率在1×10^-11次方,远高于各自独立概率之积。所以我们可以认为“上床”是一个词。

左邻字聚合熵:分出的词左边一个字的信息量,比如”巴掌”,基本只能用于”打巴掌”,“一巴掌”,“拍巴掌”,反之”过去”这个词,前面可以用“走过去”,“跑过去”,“爬过去”,“打过去”,“混过去”,“睡过去”,“死过去”,“飞过去”等等,信息熵就非常高。

右邻字聚合熵:分出的词右边一个词的信息量,同上。

下面是一个利用Python实现的demo(转自:/?p=682

收藏本文

文章编辑: 365webcall在线客服系统(www.365webcall.com)

我的评论

登录账号: 密码: 快速注册 | 找回密码