当前位置 > 首頁 > 技術熱點 > 在国外大數據分析师怎么样的?

在国外大數據分析师怎么样的?

来源:中国数据分析行业网 | 时间:2019-10-30 | 作者:数据委

要挖掘大數據的价值必然要对大數據进行内容上的分析与计算,深度学习和知識計算是大數據分析的基础,而可视化既是数据分析份关键技术也是数据分析结果呈现的关键技术,以下是对它们的简单介绍。

 

深度學習?

利用层次化的架构学习出对象在不同层次上的表达,这种层次化的表达可以帮助解决更加抽象的问题,在层次化中,高层的概念通常是通过低层的概念来定义的,深度学习通常使用人工神经网络,常见的具有多个隐层的多层感知机(MLP)就是典型的深度架构。深度学习的起源要追溯到神经网络,20世纪80年代,向后传播(BP)算法的提出使得人们开始尝试训练深层次的神经网络。然而,BP算法在训练深层网络的时候表现不够好,以至于深层感知机的效果还不如浅层感知机。于是很多人放弃使用神经网络,转而使用凸的更容易得到全局最优解的浅层模型,提出诸如支持向量机、boosting等浅层方法,以致于此前大部分的机器学习技术都使用浅层架构。2006年,Hinton等人使用无监督的逐层贪婪的预训练(greedy layer-wise pre-trian)方法成功减轻了深度模型优化困难的问题,从而掀起深度学习的浪潮。

 

近几年,深度学习在语音、图像以及自然语言理解等应用领域取得一系列重大进展。从2009年开始,巍然研究院的Dahl等人率先在语音处理中使用深度神经网络(DNN),将语音识别的错误率显著降低,从而使得语音处理成为成功应用深度学习的第一领域;在图像领域,Hinton等人使用深层次的卷积神经网络(CNN)在ImageNet评测上取得巨大突破,将错误率从26%降低到15%,重要的是,这个模型中并没有任何手工构造特征的过程,网络的输入就是图像的原始像素值。Google Brain项目中,Le等人尝试使用完全无标注的图像训练得到人脸特征检测器,使用这些学习到的特征可以在图像分类中取得非常好的效果;Google的深度学习系统(DistBelief)在获取数百万YouTube视频数据后,能够精准地识别出这些视频中的关键元素--猫;在自然语言领域,Bengio等人使用神经网络并结合分布式表达式(distributed representation)的思想训练语言模型并取得很好的效果,不过当时还没有使用到更深层次的模型;2008年,Collobert等人训练了包含一个卷积层的深度神经网络,利用学习得到的中间表达式同时解决多个NLP问题;在国内,2011年科大讯飞首次将DNN技术运用到语音云平台,并提供给开发者使用,并在讯飞语音输入法和讯飞口讯等产品中得到应用;百度成立IDL(深度学习研究院),专门研究深度学习算法,目前已有多项深度学习技术在百度产品上线。深度学习对百度影响深远,在语音识别、OCR识别、人脸识别、图像搜索等应用上取得突出效果;此外,国内搜狗、云之声等纷纷开始在产品中使用深度学习技术。

 

知識計算

?基于大數據的知識計算是大數據分析的基础,知識計算是国内外工业界开发和学术界研究的一个热点,要对数据进行高端分析,就需要从大數據中先抽取出有价值的知识,并把它构建成可支持查询、分析和计算知识库。目前,世界各国各个组织建立的知识库多达50余种,相关的应用系统更是达到上百种。其中,代表性的知识库或应用系统有KnowItAll、TextRunner、Nell、Probase、Satori、Prospera、Sofie及一些基于维基百科等在线百科知识构建的知识库,如DBpedia、Yago、Omega和WikiTaxonomy;此外,一些商业网站、公司和政府也发布了类似的知识搜索和计算平台,如Evi公司的TrueKnowledge知识搜索平台、美国官方政府网站Data.gov、Wolfram的知識計算平台wolframalpha、Google的知识图谱Knowledge Graph、Facebook推出的类似的实体搜索服务 Graph Search等;在国内,中文知识图谱的构建与知識計算也有大量的研究和开发工作,代表性的有中国科学院计算技术研究所的OpenKN、上海交大最早构建的中文知识图谱平台zhishi.me,百度推出了中文知识图谱搜索,搜狗推出的知立方平台、复旦大学GDM实验室推出的中文知识图谱展示平台等。

 

支持知識計算的基础是构建知识库,这包括3个部分,即知识库的构建、多源知识的融合与知识库的更新,知识库的构建就是要构建几个基本的构成要素,包括抽取概念、实例、属性和关系。从构建方式上,可以分为:手工构建--依靠专家编写一定的规则,从不同的来源收集相关的知识信息,构建知识的体系结构,典型的例子是知网、同义词词林、概念层次网络和中文概念词典、OpenCyc等;自动构建--基于知识工程、机器学习,人工智能等理论自动从互联网上采集并抽取概念、实例、属性和关系,著名的例子是Probase、Tago等。手工构建知识库,需要构建者对知识的领域有一定的了解,才能编写出合适的规则,开发过程中也需要投入大量的人力物力;相反自动构建的方法依靠自动的学习经过标注的语料来获取规则,如属性抽取规则、关系抽取规则等,在一定程度上可以减少人工构建的工作量。自动构建知识库的方法主要分为有监督的构建方法和半监督的构建方法两种。

 

多源知識的融合是爲了解決知識的複用問題,如前文所述,構建一個知識庫的代價是非常大的,爲了避免從頭開始,需要考慮知識複用和共享,這就需要對多個來源的知識進行融合,即需要對概念、實例、屬性和關系的沖突、重複冗余、不一致進行數據的清理工作,包括對概念、實例進行映射、消歧,對關系進行合並等,其中概念間關系或分類體系的融合是很關鍵的一部分,按融合方式分爲手工融合和自動融合。對于規模較少的知識庫,手動融合是可行的,但這是一種非常耗時且容易出錯的融合方式。而建立在機器學習、人工智能和本體工程等算法上的融合方式具有更好的擴展性,相關工作包括Yago、Probase等。

 

大數據时代数据的不断发展与变化带给知识库构建一个巨大的挑战是知识库的更新问题,知识库的更新分为两个层面:新知识加入;已有知识更新。目前专门针对开放网络知识库的更新工作较少,很多都是从数据库的更新角度展开的,如对数据库数据的增加、删除和修改工作的介绍。虽然对开放网络知识库的更新,与数据库的更新有很多相似之处,但是其本身对更新的实时性要求较高。目前这方面的工作,从更新方式来讲分为两类:基于知识库构建人员的更新;基于知识库存储的时空信息的更新。

 

社會計算?

以Faceboo、Twitter、新浪微博、微信等爲代表的在線社交網絡和社會媒體正深刻改變著人們傳播信息和獲取信息的方式,人和人之間結成的關系網絡承載這網絡信息的傳播,人的互聯成爲信息互聯的載體和信息傳播的媒介,社會媒體的強交互性、時效性等特點使其在信息産生、消費和傳播過程中發揮著越來越重要的作用。當前在線社會計算無論是學術圈和工業界都備受重視,大家關注的問題包括對在線社會網絡結構、信息傳播以及信息內容的分析、建模與挖掘等一系列問題。

 

在線社會網絡的結構分析

 

在線社會網絡在微觀層面上具有隨機化無序的現象,在宏觀層面上往往呈現出規則化、有序的現象,爲了理清網絡具有的這種看似矛盾的不同尺度的結構特征,探索和分析連接微觀和宏觀網絡中觀結構(也稱爲社區結構)成爲本領域一個重要的研究方向。一般意義上講,社區結構是指網絡節點按照連接關系的緊密程度不同而自然分成若幹個內部連接緊密、社區結構發現和社區結構演化性分析等基本問題。社區定義或度量大體上分爲4類:基于節點的社區定義、基于節點組(社區)的社區定義、基于網絡整體的社區定義、基于層次結構的社區定義。

 

在線社會網絡的信息傳播模型

 

在信息傳播模型的研究中,最廣泛深入研究的是傳染病模型,除了傳染病模型,隨機遊走模型也是信息傳播的基本模型之一,作爲最基本的動力學過程之一,隨機遊走與網絡上的許多其他動力學過程(反應-擴散過程、社團挖掘、路由選擇、目標搜索)緊密相關。今年,研究人員開始注意到信息傳播和傳染病傳播具有顯著不同的特性,包括信息傳播的記憶性、社會增強效應、不同傳播者的角色不同、消息內容的影響等。Romero等人提出Stickniss和Persistence兩個重要概念,分析不同領域內Hashtag在Twitter上的傳播過程。Wu等人分析名人、機構、草根等不同群體之間的消息流向,並分析了不同類型的消息被轉發的情況及其生命周期。

 

社会媒体中信息检索与数据挖掘? 社会媒体的出现对信息检索与数据挖掘的研究提出了新的挑战,不同于传统的Web数据,社会媒体中的数据呈现出一些新的特征:信息碎片化现象明显,文本内容特征越发稀疏;信息互联被人的互联所取代,社会媒体用户形成的社会关系网络的搜索和挖掘过程中的重要组成部分;社会媒体的易参与性使得人人具有媒体的特征,呈现出自媒体现象,个人影响力、情感与倾向性掺杂其中。针对这些特点研究人员在传统信息检索与数据挖掘计算基础上提出了一些列的新模型。

 

鑒于用戶所創造的信息往往具有很強的時效性,Yang等人提出一種時間序列聚類的方法,從Twitter數據中挖掘熱門話題發展趨勢的規律;用戶的評價和評論中包含了大衆的觀點和態度,所以Bollen等人通過對Twitter中用戶的信息進行情感分析,將大衆情緒的變化表示爲7種不同的情緒時間序列,進而發現這些序列能夠預測股票市場的走勢;社會媒體的檢索與挖掘研究在國內也收到越來越多的重視,包括北京大學、清華大學、哈工大等大學和研究機構已經取得了一定的進展,設計的研究內容包括社會化標簽系統中的標簽學習和排序、信息抽取和分類、社會化多媒體檢索、協作搜索和推薦等等。

 

可視化??

对抽象数据使用计算机支持的、交互的、可视化的表示形式以增强认知能力。大數據可视化不同于传统的信息可视化,面临最大的一个挑战就是规模,如何提出新的可视化方法能够帮助人们分析大规模、高维度、多来源、动态演化的信息,并辅助做出实时的决策,成为该领域最大的挑战。为解决这个问题,我们可以依赖的主要手段是两种,数据转换和视觉转换。现有研究工作主要聚焦在4个方面:通过对信息流进行压缩或者删除数据中的冗余信息对数据进行简化;通过设计多尺度、多层次的方法实现信息在不同解析度上的展示,从而使用户可自主控制展示解析度;利用创新的方法把数据存储在外存,并让用户可以通过交互手段方便地获取相关数据,这类算法成为核外算法(out-of-core algorithm);提出新的视觉隐喻方法以全新的方式展示数据。

 

1 - 在国外大數據分析师怎么样的?

 

大數據处理和分析的终极目标是借助对数据的理解辅助人们在各类应用中作出合理的决策。在次过程中,深度学习、知識計算、社会计算和可视化起到了相辅相成的作用。