美章网 资料文库 新浪微博的数据挖掘研究范文

新浪微博的数据挖掘研究范文

时间:2022-10-10 09:55:47

新浪微博的数据挖掘研究

1概述

随着Internet的迅猛发展,Web已经成为全球传播与共享科研、信息社会的发展,人们的生活已经离不开网络,无论此时此刻你正在通过电脑终端还是移动终端来进行网络之旅,新浪微博的顺势而生、庞大的用户体系及简单方便的微博书写及转发评论已经成为人们分享信息获取社会动态、了解名人偶像和朋友的重要工具。社会的发展使人们对信息获取的方式变得越来越挑剔,单纯的文本信息已经满足不了人们的视觉体验。于是各种信息可视化工具和JavaScript框架越来越得受到人们的喜爱,尤其以D3.js这种js框架慢慢成为了网页可视化的主流,同时百度开发的Echarts以其高度整合性和强大的报表制作能力也得到了大家的青睐。为了解决人们追求通过简单、高效的信息获取信息,本文采用新浪微博作为数据源入口,通过网络挖掘技术实现新浪微博信息挖掘和本地储存,利用可视化框架对分析后的用户实现信息展示。具有实际应用意义的小型数据挖掘可视化系统,满足了人们对数据信息获得的直观性需求。

2设计理念和架构

每天都会有大量的用户访问着新浪微博的页面,期间包含着各式各样的网络爬虫,人们不断地从这一社交网络资源库中爬取着信息,信息化社会下使得信息成为公司无形的财产,而我们平时的研究获取只停留在信息处理的某一部分:或者是数据挖掘,或者是信息可视化。而没有很好的实现一个信息挖掘及可视化展示的系统项目。于是设计了本套系统,旨在实现具有实际应用意义的小型数据挖掘可视化系统。我们可以通过模拟用户登录的方式用机器代替人的行为来把浏览过的网页信息抓取下来。用户启动系统时首先会通过数据库加载博主信息,用户可以点击查看已有博主信息,这时通过通过数据库查询出博主信息档案库错在位置,通过读取CSV文件进行信息加载。当用户通过博主Uid进行分析时同样会先查询是否存在此博主的个人信息,如果存在,则返回,如果不存在则进行网络抓取分析和储存。本系统结构如图2.1所示。项目体系采用MVC架构实现整个JavaWeb项目布局,通过Hibernate作为数据持久层框架,使用HttpClient进行模拟登录和数据获取,采用本地数据库和文本储存两种形式对数据进行保存,通过D3.js等可视化工具进行视图展示。

3基于模拟浏览器技术的微博数据采集

模拟浏览器行为,即指通过程序设计的方式,将正常的人为操作浏览器访问web站点的行业进行程序化,从而获得和人为去浏览web站点相同的数据。而通过模拟登录技术的优点主要包括两点:(1)由于是模拟人为的操作流程,故人们通过浏览器看到的内容,都可以通过这种式获取,而我们分析挖掘的内容恰恰是人们所能看到的数据,看不到的也没有分析的价值,故它可以满足不同用户对数据的多样经需求,增加了数据获取的灵活性。(2)它不受限于API方式的请求频率,只要设计合理、带宽充分就可以分布式、多线程并行抓取所需数据,从而达到我们对微据分析的数据量的要求。于是有了以下设计定位和思路:数据分析的前提是获得数据源,传统的网页信息抓取只是简单的爬取,而新浪微博数据的获取需要使用网页的登录Cookie,这样我们首先需要解决模拟登录,通过模拟登录来拿到我们需要进行站内访问的Cookie值,这样我们再使用我们的网页爬取工具就能够实现新浪微博的数据挖掘。

4微博信息提取和处理

数据分析是通过对大量的原始数据采用各种数段来提取对我们有价值的数据字段,从而进一步的对这些有价值的数据字段进行加工和传播来发挥数据信息的最大价值性。自然语言处理是数据处理的一个重要环节,而分词又被称为是自然语言处理的入口。我们可以通过对博文的分词统计获得用户的话题偏好。

5数据可视化展示

数据可视化是通过图像来显示数据的方式,把数据通过合理的设计及结合,实现动态加载,相互关联和显示,使得图像更直观的表现出数据的特点,让人们更轻松和快捷的获得原本在文本中比较冗余和乏味的数据。数据可视化技术的处理过程需要经过数据的获得,数据信息的开发及分析和最终的数据可视化展示。

6新浪微博数据挖掘及可视化系统总体设计

本课题设计的基于MVC架构的微博数据挖掘和分析系统,采用BS架构模式,实现多元化信息处理和保存,提供本地数据接口和在线抓取分析功能,采用了数据可视化的形式对微博用户进行数据分析展示,提供了一整套的数据挖掘及可视化平台,系统设计合理,可以通过本系统对微博主的数据视图对其进行初步了解。系统兼实用性和趣味性于一体。

7结论

本项目通过对新浪微博登录过程的分析,使用HttpClient实现新浪微博网页的抓取,使用正则匹配方式实现数据段的获取并进行处理和数据储存。再使用D3.js,Echart等对储存的数据进行可视化的转化及浏览,以JavaWeb的形式实现了数据挖掘、数据储存、数据可视化显示的整套B/S系统。经反复测试、分析和对比,证明了本系统的实用性和娱乐趣味性。大数据时代已经到来,人们不再拘泥于一句或者一段话,而是希望使用最高效的方式获得最直观的答案,数据可视化,势不可挡。

作者:赵捷 谭国强 单位:国家保密科技测评中心分中心 北京百分点科技有限公司

被举报文档标题:新浪微博的数据挖掘研究

被举报文档地址:

https://www.meizhang.comhttps://www.meizhang.com/gylw/sjwjlw/680042.html
我确定以上信息无误

举报类型:

非法(文档涉及政治、宗教、色情或其他违反国家法律法规的内容)

侵权

其他

验证码:

点击换图

举报理由:
   (必填)