精品日韩欧美区一区二区三|国产高清吃奶成视频|98福利视频|亚洲精品国产成人在线|精品欧美一区二区三区四区五区|黑料爆料网最新|爱豆传媒电影网站下载|md2.pud 麻豆映画传媒在线观看|麻豆传媒app破解版蓝奏云ios|苹果麻豆传媒app下载破解版,蜜臀香蕉视频,偷拍亚洲91制片厂福利姬,国产91大神在线观看

科技服務(wù)

Achievements

社會網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)

發(fā)布時間: 瀏覽次數(shù):4833 分享到:



1 成果簡介

社會網(wǎng)絡(luò)已經(jīng)成為覆蓋用戶最廣,、傳播影響最大,、商業(yè)價值最高的 Web2.0 業(yè)務(wù),,在世界范圍內(nèi),最著名的社會網(wǎng)絡(luò)代表是 Facebook,、Twitter,,用戶量分別達到 12 億、5 億,;國內(nèi)使用人數(shù)最多的社會網(wǎng)絡(luò)工具是新浪微博和騰訊微博,,其中新浪微博用戶達到 5 億,騰訊微博用戶超過 8 億,。社會網(wǎng)絡(luò)中的巨大用戶群每天產(chǎn)生海量的用戶數(shù)據(jù),、關(guān)系數(shù)據(jù)和信息數(shù)據(jù),若能夠?qū)A繑?shù)據(jù)進行準確,、及時的分析,,則會在精確營銷、輿情探測以及網(wǎng)絡(luò)安全等方面創(chuàng)造巨大價值,。然而由于社會網(wǎng)絡(luò)的大數(shù)據(jù)特性以及分析方面要求準確,、及時,目前缺乏融合多項社會網(wǎng)絡(luò)分析技術(shù)的,、成熟的社會網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng),。

社會網(wǎng)絡(luò)分析技術(shù)是一項關(guān)鍵技術(shù),也是一項熱門的研究,,涵蓋了社會學(xué),、人類學(xué),、社會語言學(xué),、地理、社會心理學(xué),、通信研究,、資訊科學(xué)、社會網(wǎng)絡(luò)分析與探勘,、組織研究,、經(jīng)濟學(xué)以及生物學(xué)等多個領(lǐng)域,是一項多學(xué)科交叉技術(shù),。社會網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)要求具有堅實的數(shù)據(jù)支撐,,即數(shù)據(jù)獲取全面、更新及時,、獲取數(shù)量大,,也強調(diào)多維度、多粒度的分析手段相結(jié)合,,并對分析速度,、可視化以及人機交互等方面都提出很高的要求,。

基于上述現(xiàn)狀和挑戰(zhàn),在國家科技支撐項目的資助下,,實現(xiàn)基于新浪微博,、Twitter 等主要社會網(wǎng)絡(luò)交流工具的大數(shù)據(jù)分析系統(tǒng),系統(tǒng)完成從數(shù)據(jù)獲取,、數(shù)據(jù)預(yù)處理,、數(shù)據(jù)存儲、消息中心,、數(shù)據(jù)分析,、結(jié)果可視化展示的閉環(huán)處理流程,支持多種社會網(wǎng)絡(luò)(Twitter,、新浪微博等)的數(shù)據(jù)實時,、不間斷獲取,獲取數(shù)據(jù)量在國內(nèi)外同研究領(lǐng)域處于領(lǐng)先地位,;實現(xiàn)整體,、個體、群體以及事件的多層次,、多粒度分析模式,;同時具備良好的人機交互操作界面以及優(yōu)秀的分析展示效果。


系統(tǒng)的特點如下:

多手段數(shù)據(jù)獲取模式融合:采用網(wǎng)絡(luò)流量分析,、API/非 API 爬蟲,、元搜索以及增量式爬蟲等多手段數(shù)據(jù)獲取模式相結(jié)合的方式進行數(shù)據(jù)實時、不間斷獲取,,保證數(shù)據(jù)獲取全面,、更新及時、獲取量大,;

多維度,、多粒度數(shù)據(jù)分析手段結(jié)合:系統(tǒng)對社會網(wǎng)絡(luò)整體、個體,、群體,、事件四個維度的對象進行分析,并結(jié)合基礎(chǔ)分析,、深度挖掘的多粒度分析手段共同完成社會網(wǎng)絡(luò)的數(shù)據(jù)分析,;

多種關(guān)鍵技術(shù)支撐:系統(tǒng)融合機器學(xué)習(xí)、分布式并行處理,、數(shù)據(jù)挖掘,、自然語言處理等多種關(guān)鍵技術(shù),共同保證系統(tǒng)各項功能的穩(wěn)定、快速實現(xiàn),;

優(yōu)秀的分析展示效果和友好的人機交互操作:借助 Gephi 工具進行群體,、事件等分析效果的可視化展示,可視化效果清晰,;操作便捷,,實現(xiàn)用戶與系統(tǒng)、系統(tǒng)與數(shù)據(jù)庫的無縫連接,。

上述優(yōu)點表明該系統(tǒng)能夠?qū)崿F(xiàn)從數(shù)據(jù)獲取,、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲,、消息中心,、數(shù)據(jù)分析、結(jié)果可視化展示的處理流程,,達到完善的功能實現(xiàn)目標和優(yōu)秀的系統(tǒng)運行效果,。查新表明,國內(nèi)外目前尚未發(fā)現(xiàn)有如此功能全面與性能優(yōu)越的社會網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng),。

上圖 社會網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)架構(gòu)圖


性能參數(shù):

能有效獲取社會網(wǎng)絡(luò)平臺的用戶數(shù)據(jù),、關(guān)系數(shù)據(jù)和信息數(shù)據(jù),獲取覆蓋率不低于85%,;

分布式爬蟲支持不少于 10 個節(jié)點,,分布式數(shù)據(jù)庫支持不少于 5 個節(jié)點;

數(shù)據(jù)庫讀/寫操作不少于并發(fā) 1000 次,,數(shù)據(jù)預(yù)處理效率不小于 1000 條/秒,;

數(shù)據(jù)存儲規(guī)模不小于 7TB;

熱點信息(個體,、群體,、事件)發(fā)現(xiàn)準確率不低于 75%,關(guān)鍵路徑發(fā)現(xiàn)準確率不低于75%,;

熱點話題發(fā)現(xiàn)準確性不低于 80%,,傾向性言論的發(fā)布主體發(fā)現(xiàn)準確率不低于 75%,;

信息傳播壽命預(yù)測準確率不低于 80%,。


2 應(yīng)用說明

2013 年 9 月,利用社會網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)進行數(shù)據(jù)獲取以來,,獲取 Twitter 用戶數(shù)據(jù)2.2 億,,用戶關(guān)系數(shù)據(jù) 11.5 億,推文 1.2 億,,目前數(shù)據(jù)量仍處于不斷高速增長階段,;著重獲取社會網(wǎng)絡(luò)上中國人全集的數(shù)據(jù),主要采用基于用戶屬性、用戶關(guān)系,、用戶信息 3 層過濾機制,,通過特定團體獲取方式進行獲取,中國人用戶數(shù)據(jù)達到 63 萬,,用戶關(guān)系數(shù)據(jù) 510 萬,,推文數(shù)據(jù) 1740 萬,目前中國人用戶數(shù)據(jù)已趨于穩(wěn)定,,推文數(shù)據(jù)仍處于快速增長階段,。在獲取到的數(shù)據(jù)基礎(chǔ)上,對網(wǎng)絡(luò)中個體,、群體,、事件以及整體進行基礎(chǔ)分析以及深度挖掘,能夠快速識別關(guān)鍵個體,、關(guān)鍵群體,、熱點信息、熱點話題,,并實現(xiàn)對信息,、話題的情感分析、趨勢預(yù)測等功能,,同時也保證分析效果優(yōu)秀的可視化展示,。


3 效益分析

由于目前國內(nèi)外尚無同標準產(chǎn)品,而社會網(wǎng)絡(luò)大數(shù)據(jù)分析的需求比較迫切,,因此本系統(tǒng)具有較大的推廣空間,。本系統(tǒng)價格每套 150 萬元。而本系統(tǒng)數(shù)據(jù)積累深厚,、運行穩(wěn)定,、分析功能全面、處理速度快,、響應(yīng)時間短,。總體上,,系統(tǒng)成本低,、功能全、速度快,,運行費每月在 3000 元左右,,具有明顯的經(jīng)濟和技術(shù)優(yōu)勢。


4 合作方式

轉(zhuǎn)讓或者聯(lián)合推廣,。


5 項目所屬行業(yè)領(lǐng)域

電子信息,。