產(chǎn)品推薦

海瑞思Preciset機房空調(diào)
海瑞思Precise系列專為中小型機房設(shè)計的機房專用空調(diào)Precise...【詳細】
MPS 10-100 kVA UPS
MPS系列UPS設(shè)備確保任何類型的負載,最大限度的保護和電能質(zhì)...【詳細】

聯(lián)系我們

服務(wù)熱線
010-62104284

地址:北京市密云區(qū)高嶺鎮(zhèn)政府辦公樓
王經(jīng)理 13393261468
Q Q:514468705/1049705527
郵箱:jhcxkj@163.com

首頁 > 新聞中心 > 深度 | 大數(shù)據(jù)之殤

深度 | 大數(shù)據(jù)之殤

雙擊自動滾屏 發(fā)布者:精密空調(diào) 發(fā)布時間:2019-05-10 09:25:04 閱讀:次【字體:

毫無疑問,作為技術(shù)概念的"大數(shù)據(jù)"擁有光明的前途,它是人工智能的基石,是未來世界的"石油"。但作為生意的"大數(shù)據(jù)",在中國正走到一個關(guān)鍵的轉(zhuǎn)折點。

從業(yè)者都很焦慮。對大眾來說,2019年3月以來,圍繞著"大數(shù)據(jù)"而密集發(fā)生的丑聞似乎是一種監(jiān)管加緊的信號——前有"315"晚會上集中曝光的大數(shù)據(jù)黑色產(chǎn)業(yè)鏈,后有號稱擁有8億國人真實信息的"大數(shù)據(jù)公司"——巧達科技被查。但對于一向嗅覺靈敏的中國大數(shù)據(jù)行業(yè)的從業(yè)者們來說,這并不突然。

從2017年底開始,中央網(wǎng)信辦、工信部、公安部和國家標準委等部門就開始密集合作,針對國內(nèi)大數(shù)據(jù)行業(yè)野蠻生長中的各種亂象展開各種行動。進入2018年,相關(guān)工作組先后多次對微信和淘寶等"國民級"應(yīng)用進行隱私保護評估,提出整改意見。同時,重點垂直行業(yè)和地方監(jiān)管機構(gòu)也明顯提高了約談頻率。2019年2月,銀監(jiān)會和保監(jiān)會約談銀行高管,談及app收集信息的問題;上海網(wǎng)信辦連續(xù)約談轄區(qū)內(nèi)應(yīng)用程序,而北京市公安部門也在"凈網(wǎng)2019"行動中將"非法爬取數(shù)據(jù)"作為整治重點。

2019年1月,中央網(wǎng)信辦、工信部和公安部牽頭的多個機構(gòu)開始對違規(guī)收集數(shù)據(jù)信息進行專項治理,被業(yè)內(nèi)形容為"史上力度最大"的治理行動。此后,相關(guān)部門還著手制定"大眾化應(yīng)用基本業(yè)務(wù)功能及必要信息規(guī)范",3月,工作組更直接在微信上開通公眾號"App 個人信息舉報",直接接受用戶的侵權(quán)舉報,并在4月就對30多款應(yīng)用提出整改要求。

在PingWest品玩與近10名來自大型互聯(lián)網(wǎng)公司數(shù)據(jù)部門以及"大數(shù)據(jù)公司"的從業(yè)者的接觸中,他們普遍認為,315晚會"抓典型"和"巧達數(shù)據(jù)"被整治,更像是一系列行動的結(jié)果,而非開始。

"其實能感受到所有的環(huán)境都跟兩年前不同了,美國有Facebook出的事,歐洲又有GDPR(《通用數(shù)據(jù)保護條例》(General Data Protection Regulation,簡稱GDPR,為歐盟條例——PingWest品玩注),以前覺得這都不影響我們國內(nèi)的業(yè)務(wù),但去年以來一扭頭卻發(fā)現(xiàn),國內(nèi)管得也更嚴了。"一家總部在杭州的電商公司相關(guān)數(shù)據(jù)算法部門的團隊高層對PingWest品玩說。

然而,無比焦慮的從業(yè)者們似乎仍然沒有意識到,監(jiān)管層面的變化背后,本質(zhì)還是國內(nèi)廣大用戶們數(shù)據(jù)隱私意識的覺醒。

"我們最近的政策法規(guī)研究以及行動的節(jié)奏很大程度是受到大眾對隱私保護的意識覺醒的影響。"一名接近公安第三研究所網(wǎng)絡(luò)安全法律研究中心的人士對PingWest品玩透露。他們正參與到多部委聯(lián)合推進的個人信息保護法律法規(guī)研究中。3月上線的"App 個人信息舉報"微信公號投訴平臺,某種意義上就是在幫助法規(guī)制定者們更直接的感受大眾的態(tài)度。新華社的一篇報道介紹這個公眾號處理投訴的方式:"對于用戶實名舉報的信息,工作組逐一與舉報人溝通。"

很明顯,在監(jiān)管者以及廣大用戶看來,"大數(shù)據(jù)"在中國作為一門生意,如今在各個環(huán)節(jié)都已出現(xiàn)必須糾正的問題。

誰的數(shù)據(jù),被誰拿走了?

2018年4月23日晚,北京市公安部門公布了此前"巧達數(shù)據(jù)"被查案件的細節(jié)。這也與PingWest品玩與多位從業(yè)者探討時的判斷接近:一家被巧達數(shù)據(jù)爬取過簡歷數(shù)據(jù)的公司,向公安舉報了巧達。之后北京警方在數(shù)個月的調(diào)查取證后,將其作為"凈網(wǎng)2019"行動中的典型,予以處理并拘捕了公司實際控制人。

根據(jù)警方通報:"嫌疑人通過利用大量代理IP地址、偽造設(shè)備標識等技術(shù)手段,繞過該公司服務(wù)器防護策略,大量竊取存放在服務(wù)器上的用戶數(shù)據(jù)…… 經(jīng)初步查明,巧達科技公司采用技術(shù)手段在未經(jīng)授權(quán)的情況下,惡意竊取上述報案公司的用戶數(shù)據(jù),并將其用于自身經(jīng)營。"

也就是說,巧達的問題首先出在其過激的"爬蟲"行為上。

"爬蟲"指的是開發(fā)者設(shè)計一套程式讓它按照一定規(guī)則,自動抓取互聯(lián)網(wǎng)上的海量信息。一位曾在巧達數(shù)據(jù)短暫工作的員工對PingWest品玩表示,他們的團隊有不少來自主流招聘平臺的員工,他們往往對前公司的系統(tǒng)比較熟悉,能夠更高效地爬取平臺上的簡歷,在反爬蟲措施出現(xiàn)之前完成足夠多的抓取。據(jù)他介紹,這種爬取招聘網(wǎng)站簡歷的方式,在所謂的"簡歷大數(shù)據(jù)"公司是一種常態(tài)。

與巧達數(shù)據(jù)收集數(shù)據(jù)方式相似的還有許多,比如總部位于上海的e成數(shù)據(jù)。e成數(shù)據(jù)的員工對PingWest品玩透露:這家公司的數(shù)據(jù)來自獵聘和智聯(lián)招聘等網(wǎng)站爬取,其官方網(wǎng)站聲稱"積累了1.3億份有效簡歷"。今年3月,e成再次獲得C輪8000萬人民幣的融資。

總部在武漢的"簡尋",同樣主打爬取公開簡歷的生意,其官網(wǎng)顯示"產(chǎn)品可通過自然語義處理的技術(shù)爬取簡歷",實質(zhì)也是通過爬蟲技術(shù)爬取幾家主要的招聘網(wǎng)站,這家公司在去年完成千萬級A輪融資。

此外從事類似生意的創(chuàng)業(yè)公司還有很多,多數(shù)處于天使輪階段。

"從這個角度看,巧達數(shù)據(jù)像是被當作典型給抓了?;蛘咭彩且驗樗龅奶罅?。"上述員工說。

此外,雖然此次的公告中沒有提及,但據(jù)PingWest品玩了解,巧達數(shù)據(jù)還涉及購買"非法獲取的數(shù)據(jù)"的問題。上述員工對PingWest品玩透露:他多次參與過團隊在一些業(yè)務(wù)領(lǐng)域的競標活動,也就是多家"大數(shù)據(jù)公司"競爭同一個服務(wù)客戶,嘗試為其提供數(shù)據(jù)分析等服務(wù)。而在競標前,他們往往會密集從黑市上買進大批數(shù)據(jù)。

"巧達自己有許多接口能拿到簡歷,并不會將大部分精力放到撞庫等做法上。但那些數(shù)據(jù)中介可就不是了,他們每天就是撞庫,什么數(shù)據(jù)都有。"

"撞庫"指的是利用已經(jīng)泄露的用戶信息,去嘗試批量破解用戶在其他網(wǎng)站上的賬號。據(jù)巧達離職員工介紹,在特定的招標前,他們會購買與此次競標貼合的特定類型的數(shù)據(jù),用于提供更多維度的交叉驗證,讓自己的數(shù)據(jù)能力在競標時看起來更強。

根據(jù)多家媒體此前的報道,這類提供敏感數(shù)據(jù)的"數(shù)據(jù)掮客"大量活躍在暗網(wǎng)中,鏈條大致是"黑客通過攻擊獲取數(shù)據(jù),之后在暗網(wǎng)賣給一些數(shù)據(jù)中介,數(shù)據(jù)中介再轉(zhuǎn)手多次,賣到那些需要這些數(shù)據(jù)進行精準營銷的公司手里。"一位從事數(shù)據(jù)埋點的工程人員表示。

"所以,當你看到最后這些公司花了多少錢買來這些高度隱私的真實數(shù)據(jù)時,其實價格已經(jīng)翻了幾倍,而且這些數(shù)據(jù)只是露出水面的冰山一角,下面藏著的被獲取和交易的數(shù)據(jù),隱私和敏感度還要更高。"

這種生意隨著"精準營銷"和"個性推送"的走紅而需求大增,一些"明星公司"也開始做起類似的生意。最典型的當屬新三板上市的數(shù)據(jù)公司"數(shù)據(jù)堂"。

2018年7月,新華社報道,山東省破獲的"特大侵犯公民個人信息案"中,數(shù)據(jù)堂"在8個月時間內(nèi),日均傳輸公民個人信息1億3000萬余條,累計傳輸數(shù)據(jù)壓縮后約為4000G",這些數(shù)據(jù)包括手機號碼、上網(wǎng)基站代碼等40余項信息要素,"記錄手機用戶具體的上網(wǎng)行為,甚至部分數(shù)據(jù)能夠直接進入公民個人賬號主頁"。 而將這些數(shù)據(jù)以產(chǎn)品的形式出售,是數(shù)據(jù)堂這類"大數(shù)據(jù)公司"的重要業(yè)務(wù)形式和收入來源。

據(jù)上述巧達員工透露,巧達數(shù)據(jù)自己其實也在扮演著"數(shù)據(jù)中介"的角色,其CEO曾高調(diào)地表示:"簡歷是最有價值的自然人數(shù)據(jù)。巧達數(shù)據(jù)通過大數(shù)據(jù)及人工智能技術(shù)研發(fā)的認知引擎,能夠快速還原網(wǎng)上自然人的清晰畫像。"本質(zhì)上這部分生意就是在販賣"真實數(shù)據(jù)",這與大部分的"數(shù)據(jù)中介"所從事的地下業(yè)務(wù)十分相似。

隨著大數(shù)據(jù)概念的興起,中國誕生了一大批自稱為大數(shù)據(jù)公司的初創(chuàng)企業(yè),它們?yōu)槟切┎痪邆鋽?shù)據(jù)采集、分析能力的大量的中小互聯(lián)網(wǎng)企業(yè)提供數(shù)據(jù)服務(wù),并借此積累起自己的數(shù)據(jù)。這種長尾效應(yīng)讓他們的數(shù)據(jù)庫也十分可觀,他們往往像巧達數(shù)據(jù)一樣,一邊會從其他渠道購買數(shù)據(jù),一邊也會以同樣方式銷售自己收集來的數(shù)據(jù)。這些大數(shù)據(jù)公司和以BAT為代表的本身擁有海量用戶數(shù)據(jù)的公司一同,成為數(shù)據(jù)最主要的歸處。

而據(jù)PingWest品玩接觸的包括百分點和同盾等在近幾年高調(diào)地將自己定義為"大數(shù)據(jù)公司"的數(shù)名現(xiàn)員工以及前員工證實,他們普遍都購入過來自"黑市"的數(shù)據(jù),且多發(fā)生在一些競標之前。

這種事實上違法的獲取方式,在這些大數(shù)據(jù)公司的PPT中,搖身一變以"外部購買"的名義曖昧呈現(xiàn)。"其實業(yè)內(nèi)的人都知道這是什么意思,你能從哪買啊,最大的數(shù)據(jù)要么就在BAT手里,人家沒必要賣給你賺這點錢,要么在政府手里,不會賣給你。你能買到的有用的數(shù)據(jù),就只有那些渠道。"

對此,同盾科技對PingWest品玩表示,同盾的"合法合規(guī)始終貫穿于全業(yè)務(wù)流程??蛻粝蛲芴峤坏纳婕坝脩魝€人信息的分析服務(wù)需求、數(shù)據(jù)收集、使用等均經(jīng)最終用戶授權(quán)(未經(jīng)授權(quán)的同盾一律拒絕等),后經(jīng)同盾在云端分析后向客戶反饋分析結(jié)果,主要是返回一個概率的分值,及一些通過脫敏的標簽。"

這背后的數(shù)據(jù)歸屬明顯存在嚴重問題。黑產(chǎn)市場的數(shù)據(jù)掮客,一向是警方嚴打的對象,他們在非法售賣公民個人信息上的犯罪事實比較明顯,尤其在《網(wǎng)絡(luò)安全法》發(fā)布并實施之后,整治和懲罰都更加嚴格。與此同時,通過爬蟲進行數(shù)據(jù)爬取的行為,在近些年也在產(chǎn)生越來越多的糾紛,監(jiān)管者也在處理過程中逐漸建立應(yīng)對的邏輯。

2015年,新浪微博將職場社交app脈脈告上法庭,指責(zé)后者在合作協(xié)議之外爬取了大量微博平臺上用戶數(shù)據(jù),并在合作終止后拒絕刪除數(shù)據(jù)。案件經(jīng)過近兩年審理后,在2017年初終審判決,脈脈被判"不正當競爭"。這起案件被許多律師視作標桿性的判罰。其中明確的爬取其他平臺用戶數(shù)據(jù)時的"三原則",在之后貫穿于國內(nèi)的各類判罰中——當兩個平臺希望就數(shù)據(jù)進行分享合作時,數(shù)據(jù)提供方應(yīng)首先取得自己用戶的同意,之后當數(shù)據(jù)獲取方收集數(shù)據(jù)時,應(yīng)獲得數(shù)據(jù)提供分的授權(quán),并且還需要再次告知用戶,并再次獲得他們的授權(quán)。也就是"用戶授權(quán)+平臺授權(quán)+用戶再授權(quán)"三原則。

在這種邏輯下,2017年大眾點評起訴百度爬取其網(wǎng)站數(shù)據(jù)的案子中,百度敗訴;2019年3月,天津市濱海新區(qū)人民法院就微信起訴抖音擅自獲取微信用戶數(shù)據(jù)一案,給出一份臨時禁令,要求抖音停止將微信/QQ開放平臺授權(quán)登錄服務(wù)提供給多閃,停用此前獲得的微信用戶頭像和昵稱等。而今日頭條對PingWest品玩表示,"此案目前沒正式進入實體審理,并沒有判決。"

盡管沒有直接對爬蟲行為進行約束的法律法規(guī),但在這些案例中,最常用到的法規(guī)包括《反不正當競爭法》中,第十二條第二款規(guī)定的"經(jīng)營者不得利用技術(shù)手段……破壞其他經(jīng)營者合法提供的網(wǎng)絡(luò)產(chǎn)品或服務(wù)正常運行的行為"。而涉及刑事犯罪時,往往觸犯了《刑法》第285條規(guī)定的"非法入侵計算機系統(tǒng)"罪。

爬蟲的問題在美國互聯(lián)網(wǎng)界也屢屢成為爭議的焦點,其中《1986年計算機欺詐與濫用法》(CFAA)是經(jīng)常被援引的條款。CFAA規(guī)定,未經(jīng)授權(quán)及超過授權(quán)故意訪問計算機,并從有保護的計算機獲取信息,都構(gòu)成犯罪。嚴重者甚至可能是刑事犯罪。

不過,2017年著名的"hiQ VS Linkedin" 的判決,卻顯示出與國內(nèi)大部分判決不同的思路。Linkedin指責(zé)創(chuàng)業(yè)公司hiQ爬取其網(wǎng)站數(shù)據(jù)時違法其使用條款,但hiQ認為其爬取的都是公開數(shù)據(jù)。最終加州法院"站"在了爬蟲方一邊,認為Linkedin被爬取的數(shù)據(jù)都是網(wǎng)站上的"公開數(shù)據(jù)",且單靠Linkedin單方面的條款和事后發(fā)出的警告,都不足以觸發(fā)《計算機欺詐與濫用法》,反而是LinkedIn有利用市場領(lǐng)先地位不正當競爭的嫌疑,法院要求它解除對hiQ爬蟲設(shè)置的臨時禁令和IP封鎖。

研究個人信息數(shù)據(jù)保護的公眾號"Martin的讀書筆記"在分析這些爬蟲判例時認為:美國對爬蟲"正在慢慢突破合同法思維和CFAA的限制,開始更多考量公共利益的優(yōu)先性。"

但仔細觀察這些案例會發(fā)現(xiàn),無論是在國內(nèi)的案例還是美國案例中,更多的關(guān)注點在于平臺之間的數(shù)據(jù)歸屬爭議,卻往往有意無意回避了一個更重要的問題:在平臺彼此爭奪數(shù)據(jù)歸屬的背后,真正產(chǎn)生數(shù)據(jù)的用戶對數(shù)據(jù)的歸屬擁有怎樣的權(quán)利?

要回答這個問題,就需要弄明白用戶的數(shù)據(jù)究竟是如何被互聯(lián)網(wǎng)公司獲取的。

用戶知情權(quán)與"低隱私社會"之爭

"如果需要,其實我們可以還原你使用我們app時在屏幕上的所有操作。"一名總部在上海的O2O公司數(shù)據(jù)部門相關(guān)負責(zé)人對PingWest品玩表示。"你先點了哪里后點了哪里,你上下滑動屏幕的速度,你停留在哪個產(chǎn)品時間較久,我們在后臺都知道。相當于給你的所有操作錄屏,并且傳回了我們這里。"

當然,這些app并沒有真的給你錄屏,實現(xiàn)這種"恐怖"的數(shù)據(jù)收集,依靠的是"埋點"技術(shù)。也就是在特定的位置加入相應(yīng)代碼,收集用戶在這些位置的操作行為,并發(fā)回到后端進行收集分析。這種技術(shù)早已是互聯(lián)網(wǎng)公司的標配,如今常常以一個SDK(軟件開發(fā)工具包)的形式添加在應(yīng)用程序里。用戶在使用應(yīng)用的過程中,不知不覺地就被應(yīng)用收集了所有數(shù)據(jù)。

而隨著精準推薦的需求越來越高,采集數(shù)據(jù)的需求也跟著增加。"到最后,數(shù)據(jù)采集的埋點越來越多,幾乎成了全范圍的埋點,管它有用沒用都先采集回來再說。"上述O2O公司員工說。而在這樣的思路下,許多對用戶來說十分敏感的數(shù)據(jù)信息,也成了采集信息的目標。據(jù)兩名知情人士對PingWest品玩稱,今日頭條已經(jīng)開始采集用戶安裝應(yīng)用的列表,用于分析用戶的特征。而這樣的權(quán)限在其他一些大廠的數(shù)據(jù)采集中是"不敢碰"的。

而對于那些沒有能力自己埋點,或自己埋點性價比不高的中小企業(yè)來說,則普遍選擇使用第三方的SDK(軟件開發(fā)工具包),這些SDK由近年來誕生的"大數(shù)據(jù)公司"提供。

由于這些埋點和SDK的行為都是由互聯(lián)網(wǎng)應(yīng)用自己決定,缺少技術(shù)知識的用戶很難反過來進行監(jiān)督,無法搞明白自己到底哪些信息被收集。更多時候,是分發(fā)這些應(yīng)用的應(yīng)用商店來對應(yīng)用的程序包進行審核。其中,由于蘋果的封閉生態(tài),iOS系統(tǒng)的應(yīng)用都只能通過蘋果App Store分發(fā),蘋果對應(yīng)用調(diào)取的權(quán)限等規(guī)定更加嚴格,iOS系統(tǒng)向這些應(yīng)用分享的底層數(shù)據(jù)也較少。但作為開源的Android系統(tǒng),可以獲取的底層數(shù)據(jù)權(quán)限相對更多。

"比如,同樣的一個應(yīng)用,Android版的往往能更加準確地獲得用戶的位置數(shù)據(jù),就是因為它底層的Wi-Fi列表數(shù)據(jù)是可以獲得的,我通過分析Wi-Fi屬于哪個店鋪,結(jié)合GPS就能獲得更準確定位,但iOS的Wi-Fi列表權(quán)限不開放給第三方應(yīng)用。"一名資深A(yù)pp開發(fā)人員表示。

而且,國內(nèi)各類應(yīng)用商店也更加魚龍混雜,在審核上尺度不一。這些因素在一起造成許多安卓應(yīng)用,在獲取權(quán)限和收集數(shù)據(jù)上變得十分貪婪。而盡可能多的獲取用戶各種行為數(shù)據(jù),也成了第三方大數(shù)據(jù)公司們競爭的焦點。他們推出的SDK要求的權(quán)限不斷增加。

據(jù)了解Talking Data相關(guān)業(yè)務(wù)的人士介紹,其提供的SDK 有能力收集與用戶藍牙配對的其他移動設(shè)備的信息,能夠收集Android用戶設(shè)備上的安裝程序列表,一方面可以用于借此分析用戶的喜好,另一方面也借此統(tǒng)計各類app的市場占有率,后者是其數(shù)據(jù)分析業(yè)務(wù)的重要組成。對此,Talking Data對PingWest品玩表示,他們的sdk并沒有監(jiān)控與藍牙匹配設(shè)備的能力。"我們提供的SDK是為應(yīng)用提供數(shù)據(jù)統(tǒng)計工具及分析服務(wù),通過在應(yīng)用中集成了SDK,來分析這些數(shù)據(jù)以了解應(yīng)用在不同終端設(shè)備上、使用平臺或應(yīng)用分發(fā)渠道的表現(xiàn)和用戶使用的情況。"Talking Data相關(guān)人士表示。

類似的模式普遍存在于這類通過提供SDK而進行數(shù)據(jù)采集和分析業(yè)務(wù)的公司中。關(guān)注移動互聯(lián)網(wǎng)行業(yè)的人會經(jīng)??吹饺鏣alkingData、易觀和個推等企業(yè)發(fā)布的行業(yè)份額類的數(shù)據(jù)報告,這背后就是基于它們廣泛提供的SDK。

而近幾年,這些公司都開始主打"可視化無埋點SDK"技術(shù),讓購買服務(wù)的公司可以通過直觀的可視化操作頁面完成數(shù)據(jù)采集——"使用者不需要有太多代碼知識"。

但這也引起一些技術(shù)人員的質(zhì)疑。"所謂無埋點,其實是全埋點,能埋的都埋了,能收集的都先收集走再說。"一家在杭州某電商類創(chuàng)業(yè)公司從事數(shù)據(jù)分析的工程師對PingWest品玩表示。"而且,我認為這種傻瓜化的產(chǎn)品和宣傳,其實造成的一個更危險的問題是,那些真的不懂或者不去關(guān)注這些第三方SDK的使用者,一方面不知道自己平臺的哪些數(shù)據(jù)共享給了這些第三方公司,另一方面甚至有時候不知道自己觸碰了用戶的哪些權(quán)限和數(shù)據(jù)。"

每個提供SDK服務(wù)的大數(shù)據(jù)公司,都會把收集來的數(shù)據(jù)中的一些"占為己有",從而豐富自己的數(shù)據(jù)資源,然后再把這些資源反過來集成到所謂的數(shù)據(jù)分析平臺上,賣給客戶。也就是說,這些數(shù)據(jù)并不是只用于收集者自己的平臺,而是作為某種商品進行了出售。

大數(shù)據(jù)公司百分點為此提出一個新的概念——"第二方數(shù)據(jù)":"指企業(yè)和合作伙伴共同擁有的數(shù)據(jù),所有權(quán)如何分配是商談出來的。在使用這些數(shù)據(jù)時,也要遵循雙方共同的利益"。

但在這過程中,用戶卻完全缺席,這些數(shù)據(jù)采集過程中,很多都沒有經(jīng)過用戶的同意授權(quán),甚至是沒有明確告知用戶。最近頻頻出現(xiàn)的懷疑app"監(jiān)聽"自己,指責(zé)輸入法泄露自己隱私等新聞,就都是來源于用戶的不知情。

在2016年時,Google Play就曾集中下架一批使用TalkingData SDK的應(yīng)用,據(jù)Talking Data對PingWest品玩表示,當初是因為Google更新了其隱私政策,而使用了他們sdk的應(yīng)用開發(fā)者并未能完全符合Google的隱私政策要求,因此造成暫時下架。那之后TalkingData單獨為Google Play 設(shè)計了一個專屬版本來幫助應(yīng)用開發(fā)者滿足Google隱私政策的要求。而據(jù)上述知情人士介紹,對國內(nèi)各大Android應(yīng)用市場的版本,依然可以獲取被視為高度隱私的權(quán)限。"這樣的現(xiàn)象不只是TalkingData,類似個推等其他提供SDK服務(wù)的第三方公司,其實都有這樣的現(xiàn)象。"而絕大多數(shù)國內(nèi)Android用戶的app正是來自這些應(yīng)用市場。

對于這些數(shù)據(jù)采集的行為,大數(shù)據(jù)公司們的一個常用解釋是,數(shù)據(jù)已經(jīng)"脫敏"。但目前全行業(yè)并沒有關(guān)于脫敏的統(tǒng)一標準,也沒有相關(guān)詳細法規(guī)。脫敏與否,完全成了大數(shù)據(jù)公司們的一種自覺,全靠一家公司的"底線"和價值觀來決定。

而與此同時,隨著各類公司對精準營銷和個性化推送等效果的更高要求,對"用戶畫像"的極度癡迷,客觀上形成了誰越能無限逼近用戶的真實身份,誰的數(shù)據(jù)服務(wù)就更有吸引力的事實。這種商業(yè)上的動力和脫敏的安全考量之間出現(xiàn)了明顯矛盾。很多漏洞也因此出現(xiàn)和被利用。

比如,在目前的許多第三方大數(shù)據(jù)公司的數(shù)據(jù)庫中,在脫敏處理后,用戶數(shù)據(jù)也依然會被分配各自的獨立ID。但是很多app其實同時都在收集用戶的設(shè)備號,其中主要的是手機的Mac地址和機器的IMEI號。前者全稱Media Access Control,是手機網(wǎng)卡的ID,用來定義網(wǎng)絡(luò)設(shè)備的位置。后者是 International Mobile Equipment Identity,相當于機器的身份證。兩者都具有唯一性。盡管第三方公司將自己分配的獨立ID形容為一種將用戶真實身份去掉的方式,但顯然,只要將兩者對應(yīng),這些ID本身依然是一種真實信息。

而在電信實名制的當下,想要讓ID直接變成真人,只需要一步:當這兩個數(shù)據(jù)與電話號數(shù)據(jù)對應(yīng)上時,用戶的真實身份就會徹底暴露。

今年315晚會上曝光的"探針盒子",就是用來完成這最后一步。據(jù)央視的調(diào)查,這個設(shè)備能在發(fā)現(xiàn)用戶手機信號后,識別出用戶手機的MAC地址和IMEI號,并利用背后的"大數(shù)據(jù)技術(shù)",將這些設(shè)備號轉(zhuǎn)換成手機號碼。

隨著用戶被收集的數(shù)據(jù)種類越來越多,用戶的隱私變成了一張拼圖,要不要把用戶的真實信息"拼"出來,完全取決手握這些拼圖的大數(shù)據(jù)公司們自己。

"目前很多案例都是集中在厘清平臺之間互相爭奪數(shù)據(jù)的問題,但之后肯定不可避免的要深入到,用戶自己對個人數(shù)據(jù)的權(quán)利的問題。" 接近公安部第三研究所的人士透露。

最近一年,各類公司過度收集用戶數(shù)據(jù)成為整治的重點。據(jù)新華社報道,中央網(wǎng)信辦、工信部、公安部和市場監(jiān)管總局在今年年初成立app違法違規(guī)收集使用個人信息專項治理工作組,"截至4月16日,舉報信息超過3480條,涉及1300余款app。對于30款用戶量大、問題嚴重的app,工作組已向其運營者發(fā)送了整改通知。"

這些舉動像是一種鋪墊,背后是相關(guān)部門對個人數(shù)據(jù)權(quán)利的思考。

上述人士表示,在個人數(shù)據(jù)權(quán)利方面,相關(guān)部門一直在密切研究歐盟的GDPR,也就是歐盟去年5月開始實行的《通用數(shù)據(jù)保護條例》,它是全球現(xiàn)行的最嚴格的數(shù)據(jù)保護法案。而研究者對其過于嚴格的監(jiān)管仍存異議。

比如,GDPR中提到用戶的數(shù)據(jù)可攜權(quán),要求Facebook和Google等主要網(wǎng)絡(luò)將用戶的數(shù)據(jù)"還給"用戶,由用戶直接跨平臺掌握自己的所有數(shù)據(jù)。"這顯得過于激進。"

"過去的那種寬松,事實上是兩方面原因,一是監(jiān)管跟不上業(yè)內(nèi)的技術(shù);另一個也是因為,監(jiān)管方面還是有些傾向于管的太嚴會扼殺創(chuàng)新的觀點。"上述人士表示,這種傾向依然會繼續(xù)存在下去。

再比如,GDPR里的引言部分直接提出的"匿名化"的概念,規(guī)定個人數(shù)據(jù)要移除可識別的個人信息,與此同時在法案中對個人數(shù)據(jù)作出詳細羅列,位置數(shù)據(jù)、IP地址、MAC地址都屬于個人數(shù)據(jù)。這些數(shù)據(jù)在匿名化中必須抹去。

但作為對比,2019年4月10日,公安部第三研究所等機構(gòu)聯(lián)合發(fā)布的《互聯(lián)網(wǎng)個人信息安全保護指南》中,在提到個人信息的保護時,則避免了使用"匿名化"這個比較激進的概念。"我們的概念還是和歐盟GDPR的匿名化有些不同的,最后我們只是直接引用《網(wǎng)絡(luò)安全法》里的概念。" 相關(guān)人士表示。在這份指南中,對個人信息的保護要求的描述為"經(jīng)過處理無法識別特定個人且不能復(fù)原" 。

"總體上你能看到有兩個思路,保證用戶隱私肯定是第一位的,二則是,數(shù)據(jù)只在用戶手里是沒有價值的,所以還是要鼓勵公司對數(shù)據(jù)的合規(guī)處理。"上述人士透露。

最高人民法院司法案例研究院4月的一篇文章也透露出這樣的思路。文章指出,解決用戶個人數(shù)據(jù)保護的關(guān)鍵在于"區(qū)分包含用戶個人信息的原始數(shù)據(jù)與處理加工形成數(shù)據(jù)產(chǎn)品后的衍生數(shù)據(jù),并分別判斷歸屬"。文章認為,原始數(shù)據(jù)歸屬于用戶,而衍生數(shù)據(jù)則歸屬于運營公司。這樣不僅能合理平衡雙方利益,更能"鼓勵網(wǎng)絡(luò)企業(yè)不斷進行技術(shù)創(chuàng)新和產(chǎn)能創(chuàng)造,促進社會總體財富增加的需要。"

這些年這種客觀上"先發(fā)展再監(jiān)管"的環(huán)境,導(dǎo)致許多互聯(lián)網(wǎng)公司根本的商業(yè)模式有很大一部分已經(jīng)是基于這種野蠻的數(shù)據(jù)收集以及分享的基礎(chǔ)上。此外,人工智能發(fā)展中最為關(guān)鍵的算法模型,也極度依賴這些數(shù)據(jù)。

海銀資本創(chuàng)始合伙人王煜全就認為:在人工智能的競爭中,焦點就落在數(shù)據(jù)上,隨著企業(yè)越來越多的把數(shù)據(jù)拿出來給機器訓(xùn)練,人類正進入一個低隱私社會,這成為一種不可逆轉(zhuǎn)的趨勢。

而這就導(dǎo)致事到如今,大數(shù)據(jù)從業(yè)者們對"隱私"的理解與用戶產(chǎn)生了差距,一提到保障隱私,大數(shù)據(jù)行業(yè)給出的應(yīng)對往往是"不再和其他平臺分享數(shù)據(jù)",而用戶希望的則是連你這個平臺自己也干脆不要收集我的數(shù)據(jù),出現(xiàn)了明顯的溝通障礙。

在這種情況下,監(jiān)管部門也不可避免的要面對兩難的處境。一個可能的方式是,首先讓用戶和大數(shù)據(jù)公司們回到一個能夠溝通的狀態(tài)中去。比如要求這些大數(shù)據(jù)公司用普通人聽得懂的話向用戶說明白每個數(shù)據(jù)采集行為的目的,獲得用戶的正式許可,并且通過一定的方式讓用戶分享利用他們數(shù)據(jù)生成的收益。同時,在法律層面很難明確對數(shù)據(jù)歸屬進行明確確權(quán)的情況下,可以通過更加嚴厲的事后懲罰機制,來提高過度收取用戶信息以及販賣用戶信息等行為的成本,也為用戶提供某種類似遺忘權(quán)的權(quán)利,讓他們擁有更強的事后防御能力。

在大數(shù)據(jù)時代,數(shù)據(jù)的確是擁有巨大潛質(zhì)的新石油,但若在用戶權(quán)利和行業(yè)發(fā)展之間無法正確權(quán)衡,這種新石油也一樣能帶來巨大的污染。

來源:精密空調(diào) http://preweds.com

?
在線咨詢 電話咨詢