精品日韩欧美区一区二区三|国产高清吃奶成视频|98福利视频|亚洲精品国产成人在线|精品欧美一区二区三区四区五区|黑料爆料网最新|爱豆传媒电影网站下载|md2.pud 麻豆映画传媒在线观看|麻豆传媒app破解版蓝奏云ios|苹果麻豆传媒app下载破解版,蜜臀香蕉视频,偷拍亚洲91制片厂福利姬,国产91大神在线观看

科技服務

Achievements

社會網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)

發(fā)布時間: 瀏覽次數(shù):4964 分享到:



1 成果簡介

社會網(wǎng)絡(luò)已經(jīng)成為覆蓋用戶最廣、傳播影響最大、商業(yè)價值最高的 Web2.0 業(yè)務,在世界范圍內(nèi),最著名的社會網(wǎng)絡(luò)代表是 Facebook、Twitter,用戶量分別達到 12 億、5 億;國內(nèi)使用人數(shù)最多的社會網(wǎng)絡(luò)工具是新浪微博和騰訊微博,其中新浪微博用戶達到 5 億,騰訊微博用戶超過 8 億。社會網(wǎng)絡(luò)中的巨大用戶群每天產(chǎn)生海量的用戶數(shù)據(jù)、關(guān)系數(shù)據(jù)和信息數(shù)據(jù),若能夠?qū)A繑?shù)據(jù)進行準確、及時的分析,則會在精確營銷、輿情探測以及網(wǎng)絡(luò)安全等方面創(chuàng)造巨大價值。然而由于社會網(wǎng)絡(luò)的大數(shù)據(jù)特性以及分析方面要求準確、及時,目前缺乏融合多項社會網(wǎng)絡(luò)分析技術(shù)的、成熟的社會網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)。

社會網(wǎng)絡(luò)分析技術(shù)是一項關(guān)鍵技術(shù),也是一項熱門的研究,涵蓋了社會學、人類學、社會語言學、地理、社會心理學、通信研究、資訊科學、社會網(wǎng)絡(luò)分析與探勘、組織研究、經(jīng)濟學以及生物學等多個領(lǐng)域,是一項多學科交叉技術(shù)。社會網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)要求具有堅實的數(shù)據(jù)支撐,即數(shù)據(jù)獲取全面、更新及時、獲取數(shù)量大,也強調(diào)多維度、多粒度的分析手段相結(jié)合,并對分析速度、可視化以及人機交互等方面都提出很高的要求。

基于上述現(xiàn)狀和挑戰(zhàn),在國家科技支撐項目的資助下,實現(xiàn)基于新浪微博、Twitter 等主要社會網(wǎng)絡(luò)交流工具的大數(shù)據(jù)分析系統(tǒng),系統(tǒng)完成從數(shù)據(jù)獲取、數(shù)據(jù)預處理、數(shù)據(jù)存儲、消息中心、數(shù)據(jù)分析、結(jié)果可視化展示的閉環(huán)處理流程,支持多種社會網(wǎng)絡(luò)(Twitter、新浪微博等)的數(shù)據(jù)實時、不間斷獲取,獲取數(shù)據(jù)量在國內(nèi)外同研究領(lǐng)域處于領(lǐng)先地位;實現(xiàn)整體、個體、群體以及事件的多層次、多粒度分析模式;同時具備良好的人機交互操作界面以及優(yōu)秀的分析展示效果。


系統(tǒng)的特點如下:

多手段數(shù)據(jù)獲取模式融合:采用網(wǎng)絡(luò)流量分析、API/非 API 爬蟲、元搜索以及增量式爬蟲等多手段數(shù)據(jù)獲取模式相結(jié)合的方式進行數(shù)據(jù)實時、不間斷獲取,保證數(shù)據(jù)獲取全面、更新及時、獲取量大;

多維度、多粒度數(shù)據(jù)分析手段結(jié)合:系統(tǒng)對社會網(wǎng)絡(luò)整體、個體、群體、事件四個維度的對象進行分析,并結(jié)合基礎(chǔ)分析、深度挖掘的多粒度分析手段共同完成社會網(wǎng)絡(luò)的數(shù)據(jù)分析;

多種關(guān)鍵技術(shù)支撐:系統(tǒng)融合機器學習、分布式并行處理、數(shù)據(jù)挖掘、自然語言處理等多種關(guān)鍵技術(shù),共同保證系統(tǒng)各項功能的穩(wěn)定、快速實現(xiàn);

優(yōu)秀的分析展示效果和友好的人機交互操作:借助 Gephi 工具進行群體、事件等分析效果的可視化展示,可視化效果清晰;操作便捷,實現(xiàn)用戶與系統(tǒng)、系統(tǒng)與數(shù)據(jù)庫的無縫連接。

上述優(yōu)點表明該系統(tǒng)能夠?qū)崿F(xiàn)從數(shù)據(jù)獲取、數(shù)據(jù)預處理、數(shù)據(jù)存儲、消息中心、數(shù)據(jù)分析、結(jié)果可視化展示的處理流程,達到完善的功能實現(xiàn)目標和優(yōu)秀的系統(tǒng)運行效果。查新表明,國內(nèi)外目前尚未發(fā)現(xiàn)有如此功能全面與性能優(yōu)越的社會網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)。

上圖 社會網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)架構(gòu)圖


性能參數(shù):

能有效獲取社會網(wǎng)絡(luò)平臺的用戶數(shù)據(jù)、關(guān)系數(shù)據(jù)和信息數(shù)據(jù),獲取覆蓋率不低于85%;

分布式爬蟲支持不少于 10 個節(jié)點,分布式數(shù)據(jù)庫支持不少于 5 個節(jié)點;

數(shù)據(jù)庫讀/寫操作不少于并發(fā) 1000 次,數(shù)據(jù)預處理效率不小于 1000 條/秒;

數(shù)據(jù)存儲規(guī)模不小于 7TB;

熱點信息(個體、群體、事件)發(fā)現(xiàn)準確率不低于 75%,關(guān)鍵路徑發(fā)現(xiàn)準確率不低于75%;

熱點話題發(fā)現(xiàn)準確性不低于 80%,傾向性言論的發(fā)布主體發(fā)現(xiàn)準確率不低于 75%;

信息傳播壽命預測準確率不低于 80%。


2 應用說明

2013 年 9 月,利用社會網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)進行數(shù)據(jù)獲取以來,獲取 Twitter 用戶數(shù)據(jù)2.2 億,用戶關(guān)系數(shù)據(jù) 11.5 億,推文 1.2 億,目前數(shù)據(jù)量仍處于不斷高速增長階段;著重獲取社會網(wǎng)絡(luò)上中國人全集的數(shù)據(jù),主要采用基于用戶屬性、用戶關(guān)系、用戶信息 3 層過濾機制,通過特定團體獲取方式進行獲取,中國人用戶數(shù)據(jù)達到 63 萬,用戶關(guān)系數(shù)據(jù) 510 萬,推文數(shù)據(jù) 1740 萬,目前中國人用戶數(shù)據(jù)已趨于穩(wěn)定,推文數(shù)據(jù)仍處于快速增長階段。在獲取到的數(shù)據(jù)基礎(chǔ)上,對網(wǎng)絡(luò)中個體、群體、事件以及整體進行基礎(chǔ)分析以及深度挖掘,能夠快速識別關(guān)鍵個體、關(guān)鍵群體、熱點信息、熱點話題,并實現(xiàn)對信息、話題的情感分析、趨勢預測等功能,同時也保證分析效果優(yōu)秀的可視化展示。


3 效益分析

由于目前國內(nèi)外尚無同標準產(chǎn)品,而社會網(wǎng)絡(luò)大數(shù)據(jù)分析的需求比較迫切,因此本系統(tǒng)具有較大的推廣空間。本系統(tǒng)價格每套 150 萬元。而本系統(tǒng)數(shù)據(jù)積累深厚、運行穩(wěn)定、分析功能全面、處理速度快、響應時間短。總體上,系統(tǒng)成本低、功能全、速度快,運行費每月在 3000 元左右,具有明顯的經(jīng)濟和技術(shù)優(yōu)勢。


4 合作方式

轉(zhuǎn)讓或者聯(lián)合推廣。


5 項目所屬行業(yè)領(lǐng)域

電子信息。