使用hadoop+中文分词统计小说里的用词频率
使用hadoop+中文分词统计小说里的用词频率
事情是这样的, 某小说贴吧吧友开玩笑说 某作者最常使用的词语是xxxx , 然后就突发奇想地想用工具分析一下
环境系统: ArchLinux
软件: hadoop 2.7
准备下载hadoop: 下载地址
下载分词插件: 下载地址
1.解压hadoop-2.7.0.tar.gz: tar cxf hadoop-2.7.0.tar.gz
...
Continue reading...