我們正處在大數(shù)據(jù)時代,大數(shù)據(jù)不僅能創(chuàng)造出大量的工作崗位,大數(shù)據(jù)也在推動著整個科技領(lǐng)域向前發(fā)展,包括人工智能領(lǐng)域的研究也需要借助于大數(shù)據(jù),大數(shù)據(jù)的應(yīng)用也是多領(lǐng)域的,包括醫(yī)療、金融、出行、教育等等,所以大數(shù)據(jù)不等于隱私,大數(shù)據(jù)也并不是通過獲取個人隱私而牟利。
1、個人怎樣獲取大數(shù)據(jù)?
謝謝邀請!大數(shù)據(jù)的數(shù)據(jù)來源主要有三個渠道,分別是物聯(lián)網(wǎng)系統(tǒng)、傳統(tǒng)信息處理系統(tǒng)以及互聯(lián)網(wǎng)應(yīng)用(Web和App),所以要想獲得大數(shù)據(jù)就要從這三個渠道來獲取。物聯(lián)網(wǎng)系統(tǒng)產(chǎn)生的數(shù)據(jù)占據(jù)著大數(shù)據(jù)中的重要比例,物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)多以非結(jié)構(gòu)化數(shù)據(jù)為主,包括視頻、音頻、傳感數(shù)據(jù)等等,物聯(lián)網(wǎng)的應(yīng)用領(lǐng)域眾多,比如工業(yè)物聯(lián)網(wǎng)、農(nóng)業(yè)物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、智慧城市等都會產(chǎn)生大量的數(shù)據(jù),通常情況下這些數(shù)據(jù)的采集都是有嚴格要求的,是不能開放給個人的。
如果個人要想獲得這部分數(shù)據(jù),一個比較可行的方案是跟數(shù)據(jù)采集者進行合作,比如做數(shù)據(jù)分析等業(yè)務(wù),傳統(tǒng)信息系統(tǒng)涵蓋的領(lǐng)域非常廣泛,有政務(wù)系統(tǒng)、企業(yè)ERP、教育信息系統(tǒng)、醫(yī)療信息系統(tǒng)等等,傳統(tǒng)信息系統(tǒng)涵蓋的數(shù)據(jù)多以結(jié)構(gòu)化數(shù)據(jù)為主,而且往往有較高的精確度和關(guān)聯(lián)關(guān)系,這部分數(shù)據(jù)的價值密度也是相對比較高的。但是傳統(tǒng)信息系統(tǒng)涵蓋的數(shù)據(jù)往往涉及到個人隱私、商業(yè)機密等內(nèi)容,所以這部分內(nèi)容通常是受到嚴密保護的,
隨著大數(shù)據(jù)技術(shù)的發(fā)展,業(yè)界對于政務(wù)系統(tǒng)的數(shù)據(jù)開放的呼聲越來越高,經(jīng)過脫敏的數(shù)據(jù)往往并不會對個人隱私構(gòu)成侵犯,所以未來某些政務(wù)系統(tǒng)的大數(shù)據(jù)會陸續(xù)開放出來?;ヂ?lián)網(wǎng)應(yīng)用也是產(chǎn)生大數(shù)據(jù)的重要基礎(chǔ)之一,包括各種Web應(yīng)用以及大量的App產(chǎn)品,這部分數(shù)據(jù)多以半結(jié)構(gòu)化為主,數(shù)據(jù)內(nèi)容也存在真假難辨的情況,但是由于這部分數(shù)據(jù)的價值密度相對還是比較高的,所以現(xiàn)在不少互聯(lián)網(wǎng)公司就是基于這些數(shù)據(jù)對用戶進行“畫像”,從而進行多維度的分類,
隨著這些互聯(lián)網(wǎng)產(chǎn)品采集的數(shù)據(jù)越來越多,用戶的“畫像”也會越來越清晰,大數(shù)據(jù)分析結(jié)果也會越來越準確。對于個人用戶來說,要想獲得這部分數(shù)據(jù),有三個辦法,一個是自己開發(fā)互聯(lián)網(wǎng)應(yīng)用,另一個是對目前的互聯(lián)網(wǎng)數(shù)據(jù)進行爬取,最后是與互聯(lián)網(wǎng)公司開展合作,這樣也能拿到一部分數(shù)據(jù),雖然現(xiàn)在大數(shù)據(jù)相關(guān)技術(shù)已經(jīng)開始逐漸落地,很多傳統(tǒng)信息系統(tǒng)之間也形成了互聯(lián)互通,但是數(shù)據(jù)流通依然有大量的環(huán)節(jié)需要打通,一定程度上的“數(shù)據(jù)孤島”現(xiàn)象依然存在。
2、都說現(xiàn)在是大數(shù)據(jù)時代,那么如何獲取自己想要的數(shù)據(jù)呢?
隨著大數(shù)據(jù)的不斷發(fā)展,數(shù)據(jù)的價值得到了越來越多的關(guān)注,要想充分利用大數(shù)據(jù),首先需要有數(shù)據(jù)來源,因此信息采集就成為了一個非常重要的環(huán)節(jié),通常情況下,采集信息有以下幾個渠道:第一:傳統(tǒng)信息系統(tǒng)。傳統(tǒng)信息系統(tǒng)采集的信息往往具有較高的價值,一方面原因是傳統(tǒng)信息系統(tǒng)采集的往往是結(jié)構(gòu)化數(shù)據(jù),易于統(tǒng)計和分析,另一方面原因是傳統(tǒng)信息系統(tǒng)采集的數(shù)據(jù)往往是比較重要的數(shù)據(jù),對后續(xù)的數(shù)據(jù)分析有重要的參考價值,
傳統(tǒng)信息系統(tǒng)包含的內(nèi)容比較廣泛,比如常見的ERP系統(tǒng)。對于企業(yè)來說,傳統(tǒng)信息系統(tǒng)的建設(shè)應(yīng)該是信息化建設(shè)的第一步,第二:Web平臺。信息來源的另一個重要渠道是各種Web平臺,隨著Web應(yīng)用的普及,尤其是Web2.0的普及應(yīng)用之后,整個Web系統(tǒng)產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)也是大數(shù)據(jù)系統(tǒng)的重要數(shù)據(jù)來源之一,
Web系統(tǒng)的數(shù)據(jù)具備幾個典型的特點,比如數(shù)量大、結(jié)構(gòu)多樣性、真假難辨等等,這就需要通過數(shù)據(jù)分析來進一步體現(xiàn)其價值了。第三:物聯(lián)網(wǎng)系統(tǒng),物聯(lián)網(wǎng)與大數(shù)據(jù)的關(guān)系非常緊密,物聯(lián)網(wǎng)系統(tǒng)的普及應(yīng)用是產(chǎn)生大數(shù)據(jù)的重要原因之一,大數(shù)據(jù)的大部分數(shù)據(jù)來源就是物聯(lián)網(wǎng)系統(tǒng)。通常情況下,物聯(lián)網(wǎng)系統(tǒng)有五層結(jié)構(gòu),分別是設(shè)備、網(wǎng)絡(luò)、平臺、分析處理和服務(wù)應(yīng)用,設(shè)備往往是數(shù)據(jù)的來源,
與傳統(tǒng)信息系統(tǒng)和Web系統(tǒng)不同,物聯(lián)網(wǎng)的數(shù)據(jù)大部分都是非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),要想對其進行分析需要采用特定的處理方式,比較常見的處理方式包括批處理和流處理。批處理比較常見的平臺包括Hadoop和Spark,而流處理通常采用SparkStreaming、Storm等,除了以上幾個比較常見的信息采集渠道之外,通過線下活動進行信息采集也是一種獲取信息的手段和方式。