怎么做一个词频统计?

2019-04-19 10:26 1519浏览 1回答
怎么做一个词频统计?:一般来说无论是什么语言的词频统计都离不开一个东西:字典。这里说的字典跟我们日常所用到的新华字典、英汉互译字典有点类似,但:-??,统计,怎么

转载请联系作者获得授权,并标注“文章作者”。

后发表回答
主力机构小课堂
1楼 · 2019-04-19 10:50.采纳回答

  一般来说无论是什么语言的词频统计都离不开一个东西:字典。

  这里说的字典跟我们日常所用到的新华字典、英汉互译字典有点类似,但又有点不同。

  字典的最大作用是可以对照着来分隔开一句话,从而将分隔开的字词作为一个统计的根元素——这样一来,词频统计的工作就可以做了。例如一句话“我去吃饭了”就可以根据字典分为“我”、“去”、“吃饭”、“了”四个字词。而词频统计则是根据字词出现的次数来进行统计即可。

  但这其中有一点是很关键的,就是字典的好坏。比如说有的字典把“吃饭了”当作一个元素,这样一来上面的字词分割就只有三个了(当然这是举个例子,没有哪个字典真会这么傻的分割方式)。

  所以总的来说,词频统计主要靠字典。无论是英文也好、中文也好,甚至日文韩文,都可以根据对应的字典对其语句拆分从而进行词频统计。

  以上说的仅仅是理论上的做法,实际技术上实现的话还会涉及到很多有趣的算法——算法的目的主要是提高拆分速度和检索效率——有兴趣的可以自己去网上搜索了解一下。

环球网校快问 · 最新文章 · 最新问题
Copy 2018 https://wenda.hqwx.com/ All Rright Reserved. 京ICP备16038139号-3 / Smrz 京ICP备16038139号-3/ 举报电话:400-678-3456 /