河南洛陽軟件開發-洛楓

企業資訊 行業新聞 常見問題

河南洛陽軟件開發新聞動態

因為專注 · 所以專業 品質創造價值

真正產生數據的用戶對數據的歸屬擁有怎樣的權利?(大數據之殤)

時間:2019/5/7 16:30:23  來源:洛楓軟件  瀏覽:161次


據洛陽小編了解,2019年3月以來,圍繞著“大數據”而密集發生的丑聞似乎是一種監管加緊的信號——前有“315”晚會上集中曝光的大數據黑色產業鏈,后有號稱擁有8億國人真實信息的“大數據公司”——巧達科技被查。但對于一向嗅覺靈敏的中國大數據行業的從業者們來說,這并不突然。

洛楓軟件開發

2017年底開始,中央網信辦、工信部、公安部和國家標準委等部門就開始密集合作,針對國內大數據行業野蠻生長中的各種亂象展開各種行動。

2018年,相關工作組先后多次對微信和淘寶等“國民級”應用進行隱私保護評估,提出整改意見。同時,重點垂直行業和地方監管機構也明顯提高了約談頻率。

 2019年1月,中央網信辦、工信部和公安部牽頭的多個機構開始對違規收集數據信息進行專項治理,被業內形容為“史上力度最大”的治理行動。此后,相關部門還著手制定“大眾化應用基本業務功能及必要信息規范”,3月,工作組更直接在微信上開通公眾號“App個人信息舉報”,直接接受用戶的侵權舉報,并在4月就對30多款應用提出整改要求。  

2019年2月,銀監會和保監會約談銀行高管,談及app收集信息的問題;上海網信辦連續約談轄區內應用程序,而北京市公安部門也在“凈網2019”行動中將“非法爬取數據”作為整治重點。

然而,無比焦慮的從業者們似乎沒有意識到,監管層面的變化背后,本質還是國內廣大用戶們數據隱私意識的覺醒。

很明顯,在監管者以及廣大用戶看來,“大數據”在中國作為一門生意,如今在各個環節都已出現必須糾正的問題。

2018年4月23日晚,北京市公安部門公布了此前“巧達數據”被查案件的細節。

根據警方通報:“嫌疑人通過利用大量代理IP地址、偽造設備標識等技術手段,繞過該公司服務器防護策略,大量竊取存放在服務器上的用戶數據……經初步查明,巧達科技公司采用技術手段在未經授權的情況下,惡意竊取上述報案公司的用戶數據,并將其用于自身經營。”

那么小編理解為,問題先出在其過激的“爬蟲”行為上。“爬蟲”指的是開發者設計一套程式讓它按照一定規則,自動抓取互聯網上的海量信息。一位曾在巧達數據短暫工作的員工對PingWest品玩表示,他們的團隊有不少來自主流招聘平臺的員工,他們往往對前公司的系統比較熟悉,能夠更高效地爬取平臺上的簡歷,在反爬蟲措施出現之前完成足夠多的抓取。

據他介紹,這種爬取招聘網站簡歷的方式,在所謂的“簡歷大數據”公司是一種常態。與巧達數據收集數據方式相似的還有許多,比如總部位于上海的e成數據。


e成數據的員工對PingWest品玩透露:這家公司的數據來自獵聘和智聯招聘等網站爬取,其官方網站聲稱“積累了1.3億份有效簡歷”。今年3月,e成再次獲得C輪8000萬人民幣的融資。

總部在武漢的“簡尋”,同樣主打爬取公開簡歷的生意,其官網顯示“產品可通過自然語義處理的技術爬取簡歷”,實質也是通過爬蟲技術爬取幾家主要的招聘網站,這家公司在去年完成千萬級A輪融資。

此外從事類似生意的創業公司還有很多,多數處于天使輪階段。“從這個角度看,巧達數據像是被當作典型給抓了。或者也是因為它做的太大了。”上述員工說。

此外,雖然此次的公告中沒有提及,但據PingWest品玩了解,巧達數據還涉及購買“非法獲取的數據”的問題。上述員工對PingWest品玩透露:他多次參與過團隊在一些業務領域的競標活動,也就是多家“大數據公司”競爭同一個服務客戶,嘗試為其提供數據分析等服務。而在競標前,他們往往會密集從黑市上買進大批數據。

“巧達自己有許多接口能拿到簡歷,并不會將大部分精力放到撞庫等做法上。但那些數據中介可就不是了,他們每天就是撞庫,什么數據都有。”

“撞庫”指的是利用已經泄露的用戶信息,去嘗試批量破解用戶在其他網站上的賬號。據巧達離職員工介紹,在特定的招標前,他們會購買與此次競標貼合的特定類型的數據,用于提供更多維度的交叉驗證,讓自己的數據能力在競標時看起來更強。


根據多家媒體此前的報道,這類提供敏感數據的“數據掮客”大量活躍在暗網中,鏈條大致是“黑客通過攻擊獲取數據,之后在暗網賣給一些數據中介,數據中介再轉手多次,賣到那些需要這些數據進行精準營銷的公司手里。”一位從事數據埋點的工程人員表示。

“所以,當你看到最后這些公司花了多少錢買來這些高度隱私的真實數據時,其實價格已經翻了幾倍,而且這些數據只是露出水面的冰山一角,下面藏著的被獲取和交易的數據,隱私和敏感度還要更高。”

2018年7月,新華社報道,山東省破獲的“特大侵犯公民個人信息案”中,數據堂“在8個月時間內,日均傳輸公民個人信息1億3000萬余條,累計傳輸數據壓縮后約為4000G”,這些數據包括手機號碼、上網基站代碼等40余項信息要素,“記錄手機用戶具體的上網行為,甚至部分數據能夠直接進入公民個人賬號主頁”。而將這些數據以產品的形式出售,是數據堂這類“大數據公司”的重要業務形式和收入來源。

據上述巧達員工透露,巧達數據自己其實也在扮演著”數據中介“的角色,其CEO曾高調地表示:“簡歷是最有價值的自然人數據。巧達數據通過大數據及人工智能技術研發的認知引擎,能夠快速還原網上自然人的清晰畫像。”本質上這部分生意就是在販賣“真實數據”,這與大部分的“數據中介”所從事的地下業務十分相似。

隨著大數據概念的興起,中國誕生了一大批自稱為大數據公司的初創企業,它們為那些不具備數據采集、分析能力的大量的中小互聯網企業提供數據服務,并借此積累起自己的數據。這種長尾效應讓他們的數據庫也十分可觀,他們往往像巧達數據一樣,一邊會從其他渠道購買數據,一邊也會以同樣方式銷售自己收集來的數據。這些大數據公司和以BAT為代表的本身擁有海量用戶數據的公司一同,成為數據最主要的歸處。

而據PingWest品玩接觸的包括百分點和同盾等在近幾年高調地將自己定義為“大數據公司”的數名現員工以及前員工證實,他們普遍都購入過來自“黑市”的數據,且多發生在一些競標之前。

這種事實上違法的獲取方式,在這些大數據公司的PPT中,搖身一變以“外部購買”的名義曖昧呈現。“其實業內的人都知道這是什么意思,你能從哪買啊,最大的數據要么就在BAT手里,人家沒必要賣給你賺這點錢,要么在政府手里,不會賣給你。你能買到的有用的數據,就只有那些渠道。”

這背后的數據歸屬明顯存在嚴重問題。黑產市場的數據掮客,一向是警方嚴打的對象,他們在非法售賣公民個人信息上的犯罪事實比較明顯,尤其在《網絡安全法》發布并實施之后,整治和懲罰都更加嚴格。與此同時,通過爬蟲進行數據爬取的行為,在近些年也在產生越來越多的糾紛,監管者也在處理過程中逐漸建立應對的邏輯。

2015年,新浪微博將職場社交app脈脈告上法庭,指責后者在合作協議之外爬取了大量微博平臺上用戶數據,并在合作終止后拒絕刪除數據。案件經過近兩年審理后,在2017年初終審判決,脈脈被判“不正當競爭”。這起案件被許多律師視作標桿性的判罰。其中明確的爬取其他平臺用戶數據時的“三原則”,在之后貫穿于國內的各類判罰中——當兩個平臺希望就數據進行分享合作時,數據提供方應首先取得自己用戶的同意,之后當數據獲取方收集數據時,應獲得數據提供分的授權,并且還需要再次告知用戶,并再次獲得他們的授權。也就是“用戶授權+平臺授權+用戶再授權”三原則。

在這種邏輯下,2017年大眾點評起訴百度爬取其網站數據的案子中,百度敗訴;2019年3月,天津市濱海新區人民法院就微信起訴抖音擅自獲取微信用戶數據一案作出判決,要求抖音立即停止將微信/QQ開放平臺授權登錄服務提供給多閃,停用此前獲得的微信用戶頭像和昵稱等,而今日頭條決定繼續上訴。

盡管沒有直接對爬蟲行為進行約束的法律法規,但在這些案例中,最常用到的法規包括《反不正當競爭法》中,第十二條第二款規定的“經營者不得利用技術手段……破壞其他經營者合法提供的網絡產品或服務正常運行的行為”。而涉及刑事犯罪時,往往觸犯了《刑法》第285條規定的“非法入侵計算機系統”罪。

爬蟲的問題在美國互聯網界也屢屢成為爭議的焦點,其中《1986年計算機欺詐與濫用法》(CFAA)是經常被援引的條款。CFAA規定,未經授權及超過授權故意訪問計算機,并從有保護的計算機獲取信息,都構成犯罪。嚴重者甚至可能是刑事犯罪。

不過,2017年著名的“hiQVSLinkedin”的判決,卻顯示出與國內大部分判決不同的思路。Linkedin指責創業公司hiQ爬取其網站數據時違法其使用條款,但hiQ認為其爬取的都是公開數據。最終加州法院“站”在了爬蟲方一邊,認為Linkedin被爬取的數據都是網站上的“公開數據”,且單靠Linkedin單方面的條款和事后發出的警告,都不足以觸發《計算機欺詐與濫用法》,反而是LinkedIn有利用市場領先地位不正當競爭的嫌疑,法院要求它解除對hiQ爬蟲設置的臨時禁令和IP封鎖。

研究個人信息數據保護的公眾號“Martin的讀書筆記”在分析這些爬蟲判例時認為:美國對爬蟲“正在慢慢突破合同法思維和CFAA的限制,開始更多考量公共利益的優先性。”

但仔細觀察這些案例會發現,無論是在國內的案例還是美國案例中,更多的關注點在于平臺之間的數據歸屬爭議,卻往往有意無意回避了一個更重要的問題:在平臺彼此爭奪數據歸屬的背后,真正產生數據的用戶對數據的歸屬擁有怎樣的權利?



文章出處:洛陽軟件開發www.pccmmp.tw

關于我們

企業簡介
經營理念
洛楓優勢

新聞動態

企業資訊
行業新聞
常見問題

產品中心

軟件開發
網站建設

案例展示

案例展示
聯系我們

0379-63639963

洛楓服務熱線

Copyright © 2010 - 2016 www.pccmmp.tw 版權所有 洛陽洛楓網絡技術有限公司 豫ICP備08004193號

在線留言
微信平臺

聯系我們

0379-63639963

[email protected]

返回頂部
平码平肖论坛