中国计量大学学报

2018, v.29;No.91(03) 299-303

[打印本页] [关闭]
本期目录 | 过刊浏览 | 高级检索

基于聚焦型网络爬虫的影评获取技术
Technology of acquiring movie reviews based on the focused web crawler

高宇;杨小兵;

摘要(Abstract):

随着"互联网+"概念的普及,网络上的资源随之成倍增长.面对庞大的数据资源,传统的搜索引擎Baidu、Google等已经不能满足人们对于特定信息的获取需求.作为搜索引擎抓取数据的重要组成部分,网络爬虫的作用非常重要.本文主要介绍了网络爬虫的概念、组成模块以及工作流程,在通用爬虫的基础上提出一种聚焦型网络爬虫系统,以python和相应的第三方库为主要工具,通过定义采集函数和给定豆瓣网最新上映电影的网址,快速搜索该网址某电影的影评信息,对页面内链接和外链接进行有效爬取.然后,再对获取到的数据进行分词处理,根据关键词的出现频率生成词云.实验结果表明,该聚焦型爬虫系统能够将所有影评信息以JSON格式存储到本地,并通过词云直观的展示出来.

关键词(KeyWords): 搜索引擎;网络爬虫;Jieba分词;正则表达式;词云

Abstract:

Keywords:

基金项目(Foundation):

作者(Author): 高宇;杨小兵;

Email:

参考文献(References):

扩展功能
本文信息
服务与反馈
本文关键词相关文章
本文作者相关文章
中国知网
分享