转载请联系作者获得授权,并标注“文章作者”。
一般来说无论是什么语言的词频统计都离不开一个东西:字典。
这里说的字典跟我们日常所用到的新华字典、英汉互译字典有点类似,但又有点不同。
字典的最大作用是可以对照着来分隔开一句话,从而将分隔开的字词作为一个统计的根元素——这样一来,词频统计的工作就可以做了。例如一句话“我去吃饭了”就可以根据字典分为“我”、“去”、“吃饭”、“了”四个字词。而词频统计则是根据字词出现的次数来进行统计即可。
但这其中有一点是很关键的,就是字典的好坏。比如说有的字典把“吃饭了”当作一个元素,这样一来上面的字词分割就只有三个了(当然这是举个例子,没有哪个字典真会这么傻的分割方式)。
所以总的来说,词频统计主要靠字典。无论是英文也好、中文也好,甚至日文韩文,都可以根据对应的字典对其语句拆分从而进行词频统计。
以上说的仅仅是理论上的做法,实际技术上实现的话还会涉及到很多有趣的算法——算法的目的主要是提高拆分速度和检索效率——有兴趣的可以自己去网上搜索了解一下。
佛山码君君
关注
安卓版
iPhone版
多个标签请以空格隔开!
一般来说无论是什么语言的词频统计都离不开一个东西:字典。
这里说的字典跟我们日常所用到的新华字典、英汉互译字典有点类似,但又有点不同。
字典的最大作用是可以对照着来分隔开一句话,从而将分隔开的字词作为一个统计的根元素——这样一来,词频统计的工作就可以做了。例如一句话“我去吃饭了”就可以根据字典分为“我”、“去”、“吃饭”、“了”四个字词。而词频统计则是根据字词出现的次数来进行统计即可。
但这其中有一点是很关键的,就是字典的好坏。比如说有的字典把“吃饭了”当作一个元素,这样一来上面的字词分割就只有三个了(当然这是举个例子,没有哪个字典真会这么傻的分割方式)。
所以总的来说,词频统计主要靠字典。无论是英文也好、中文也好,甚至日文韩文,都可以根据对应的字典对其语句拆分从而进行词频统计。
以上说的仅仅是理论上的做法,实际技术上实现的话还会涉及到很多有趣的算法——算法的目的主要是提高拆分速度和检索效率——有兴趣的可以自己去网上搜索了解一下。