原文链接:万方
江凯,高阳
针对当前需要对海量的文本数据进行分类和用于训练的带标记的文本数据非常匮乏这两个问题,结合半监督的朴素贝叶斯分类算法和Map-Reduce编程模型,提出了一种新型的并行化的半监督朴素贝叶斯分类(parallelized semi-supervised Naive Bayes,PSNB)算法.通过实验可以看出,PSNB算法不仅可以高效地处理海量的文本数据,还可以有效地利用无标记的文本数据来提高分类器准确率.
南京大学 计算机软件新技术国家重点实验室
国家自然科学基金 Nos.61035003,61175042,61021062% 科技部国际科技合作计划项目 No.2010DFA11030% 教育部新世纪优秀人才支持计划 No.NCET-10-0476% 江苏省自然科学基金 No.BK2011005,BK2010054~~
10.3778/j.issn.1673-9418.2012.10.006
计算机科学与探索
2012010