基于Nutch的物流信息平台网页资源定向采集系统

原文链接:万方

  • 作者:

    刘兴邦,赵晓娇

  • 摘要:

    针对物流信息平台中信息资源采集系统建设的不足,提出建立基于Nutch的网页资源定向采集系统,并对中文分词、主题相关度分析、结果排序、正文解析等关键模块进行重点探讨.最后在一定条件下进行了实验,并分析了实验结果.

  • 关键词:

    Nutch 主题爬虫 正文抽取 定向采集 中文分词 Nutch topic crawler web-page extraction targeted harvesting segmentation of Chinese characters

  • 作者单位:

    北京交通大学经济管理学院,北京100044

  • 基金项目:

    国家自然科学基金项目“基于云计算、物联网的物流系统资源优化调度方法研究”(B12A200050)

  • DOI:

    10.3969/j.issn.1005-152X.2012.07.117

  • 来源期刊:

    物流技术

  • 年,卷(期):

    201231007

相似文献