美章网 资料文库 大数据的竞争情报系统的研究范文

大数据的竞争情报系统的研究范文

时间:2022-09-23 04:07:00

大数据的竞争情报系统的研究

《广东工业大学学报》2014年第二期

1系统总体设计

1.1系统目标利用Hadoop平台对大数据的处理能力,对系统采集的信息用基于Hadoop的KNN算法进行处理分析,使得处理后的竞争情报信息可以快速、准确地显示在用户操作界面,让用户可以及时了解到自己所关注的信息.管理员通过系统,可以及时进行信息的采集,并对信息进行处理,普通用户通过系统可以个性化的订制竞争对手的信息情报,并进行检索.

1.2系统总体架构系统总体架构如图1所示.1)应用层.在顶层提供统一信息门户,为客户提供各种信息和知识服务的窗口,同时也是平台管理的入口.2)支撑层.提供文本挖掘和智能分析,以及基于MapReduce并行计算等功能模块,支持对海量数据的检索、挖掘、分析和服务等功能.3)数据层.数据层汇聚行业资源信息,形成统一规划的数据库,便于应用服务.4)采集层.建立各种数据源相应的数据适配器,实现对各种数据源的数据在线检测和自动采集.5)数据源.数据源是平台建设的重要外部资源,是平台体系架构的一个虚拟层次,包括大量的行业信息源、用户录入企业信息等数据来源.6)身份认证和安全体系。平台安全系统设计除了包含计算机网络、主机、应用系统等进行安全规划之外,系统运行的安全设计也是安全规划的重要内容之一.7)运行维护保障体系.运行维护保障机制包含统一性和标准性、公众服务性、专业性、权威性.因此,运行维护机制要把握3个要素:(1)要保持“库”的内容最新的现势程度;(2)要适应社会对“库”多样化的服务要求;(3)要提供简便、规范、畅通的基础数据输入/输出手段.

2系统功能设计

主要运用文本挖掘技术,将文本挖掘算法在MapReduce上实现并行化,提高信息的分析处理效率,以期可以迅速地提供市场行情信息的综合分析结果.系统主要功能模块如图2所示.

3系统实现关键技术

3.1信息采集爬虫技术本系统采用的是聚焦爬虫,与通用爬虫区别为不追求大范围的覆盖,而是将目标设定为抓取与某一特定主题内容相关的网页,进而为面向主题的用户准备数据来源[5].通用的爬虫是从一个或者多个初始的URL开始进行爬取,在获得初始URL抓取网页内容的过程中,不断从当前的网页中抽取新的URL并放入队列,直到满足系统设定的爬取深度条件后停止.聚焦爬虫的工作相比较为复杂,需要根据一定的网页分析算法过滤去除与主题无关的URL,存储有用的并将之放入等待队列中,然后根据搜索条件从中选取下一步要爬取得URL,重复直到满足停止条件为止[6].同时,所有被爬虫爬取过的网页将会被存储起来,然后通过分析、过滤并建立索引,以便后续的查询和检索.这个过程所得到的分析结果还可以对之后的抓取过程给出指导反馈.聚焦爬虫工作流程如图3所示.

3.2KNN分类算法最近邻算法是模式识别中广泛使用的分类方法,是模式识别非参数法中最重要的方法之一.K近邻算法是最近邻算法的一个推广,当k=1时,就是最近邻算法.NN强调最近点的重要性,而KNN是从总体考虑,是一种更普遍的方法.KNN的分类思想是给定一个未知文本,在训练数据中找出与其最相似的K个训练文本,即是这个未知样本的K个近邻.然后根据这K个近邻来确定未知样本所属的类别,可以把未知样本分到K个近邻最公共的类中,也可以分到K个近邻中权重最大的类中.K近邻算法的简单示意图如图2所示。

3.3KNN分类算法的MapReduce并行化方法KNN算法尽管原理比较简单,但是其计算量很大,对其空间和时间要求都比较高[9],所以提出将KNN算法运用到MapReduce上进行并行化计算,以提高运行效率。MapReduce技术最开始是被Google用于大数据并行处理[10],基本思想是将大数据集分割成无数的小数据集,然后每个数据集分别有集群中的一个Map函数执行计算任务,生成中间结果,从而作为Reduce函数的输入执行计算任务,得到结果.MapReduce的编程模型[11]如图5所示.

3.3.1文档特征空间和相似度计算本系统采用向量空间模型[12]来描述所收集的情报信息文档,每个舆情文档都可以表示成一个特征向量其中tN为特征项,即为特征词,wN为在D中的权值,特征权值计算公式采用TFIDF算法,如式(1)所示:中TF表示一个特征词与某个文档的相关性,IDF表示一个特征词表示文档主题的权重大小.DK为特征词在文档出现的次数,Aik为文档所有特征词数.N为训练集的文档总数,Nk为出现特征词的文档数.计算出TFIDF后,对于海量数据,其包含的特征词数目比较多,所以必须进行降维,通过对计算出的TFIDF值排序然后设定阀值,选取若干个特征词,同时,利用Hadoop平台的MapReduce进行架构从而实现对TFIDF的并行计算,进而有效地提高运行效率,但是在Hadoop平台中,数据经过Map函数处理后默认是按照key值升序排序的,因此可以按照1/TFIDF值得方法取得升序排列的前若干位数值即TFIDF按照降序排序的相应若干较大值[16].当计算两个网页的相似度时,需要计算两个文档间的相似度.本文采用的是余弦相似度,如式(2)所示:通过对di和dj两篇文档的特征向量进行计算,可以得到文档间的相似度.相似度越大,说明两篇文本相关程度越高,反之,相关程度越低.相似度在[0,1]之间取值,当两篇文本无关时,相似度为0,相似性越高,则相似度趋向于1.

3.3.2KNN分布式计算KNN算法根据不同文档之间计算的余弦相似度进而通过选取适当的K值,可以求出最近邻的K个文档.由于任意两篇文档间的相似度计算和排序都互不相关,所以可以并行进行.求任一类中的文本在不是自己本身类别中的n个最近邻的文档.所有的Map节点读取余弦相似度结果,并根据每个文本的类别,选出与自身类别不同的文本相似度并进行格式转换,结果输出为((filenamei,Simij),filenamej:typej).其中Simij表示文本间的相似度,typej表示测试文本分到的类别.Map输出结果中的key值是一个自定义的数组形式Key(String,float),MapReduce框架中Map过程和Reduce过程之间根据Key值进行排序,即按照filename排序,但因为需将同一个filename相关的Sim分配到同一个Reduce节点,所以要将相同filename的Sim值进行降序排列.经过两次排序后,Map的输出作为Reduce的输入,即((filenamei,Simij),filenamej:typej),根据排序的结果,选择每个文档的前K个最近邻文档,从而将测试文档归入到type类中.

4运行结果

本系统没有针对某一特定行业,实验主要通过网上爬虫采集网页内容来进行,如计算机类、体育类等.对于某一具体行业只要将相关的分类信息做修改配置即可.

4.1用户界面用户界面分为管理员界面和企业用户界面,管理员界面比普通企业用户界面多一个后台管理模块.企业用户主要的操作功能是查询结果、对竞争情报的信息录入以及用户信息的相关操作等,而管理员则除了具备企业用户的功能外,还可以对信息处理,如定期爬取用户订制的情报内容,对爬去内容进行预处理并做分类处理,同时将结果保存起来以备用户查询.

4.2查看初步结果通过用户操作模块可以查看用户所关注的竞争对手的情况,也可以查看系统自整理的信息.当用户选择自己关注的选项时,可以查看整理归纳后的信息,了解自定义的信息.当选择查看系统自整理信息时,企业用户可以看到除了自定义的领域外,系统其他用户所共同关注的信息,了解多点信息,拓宽自己的领域.

4.3查看详细的内容企业用户点击经过分类后的信息,可以查看信息的具体内容,内容显示在弹出框中.如需查看信息的网页的初始内容,点击信息的URL可以跳转到信息的原页面.同时也可以看到该信息被归纳后的类别.

4.4分析可视化界面通过对情报信息的一系列操作后,根据结果生成关于某一具体类别的技术网络图,通过技术网络图可以帮助企业了解信息间的关联,从而更好地作出决策,网络图如图6所示。5结束语对大数据的处理不仅仅对企业竞争决策起到重要作用,也可以提高企业的竞争力.而竞争情报系统更能为企业在大数据环境下提供有效的决策和有价值的信息.本文提出将基于Hadoop的KNN算法用于企业竞争情报系统中,从而可以缓解对于竞争情报的传统处理方式带来的弊端,降低系统运行的时间和空间复杂度,进而使本系统更加有效地适应当今大数据环境.

作者:王勇许钟涛王瑛单位:广东工业大学计算机学院

被举报文档标题:大数据的竞争情报系统的研究

举报类型:

非法(文档涉及政治、宗教、色情或其他违反国家法律法规的内容)

侵权

其他

验证码:

点击换图

举报理由:
   (必填)