數據爬蟲技術作為一種重要的數據采集手段,被廣泛應用于互聯網的諸多領域,也引發了越來越多的爭議,例如與其相關的互聯網企業之間不正當競爭甚至刑事犯罪問題,已然成為數據產業發展中亟待解決、法律實務中需要進一步厘清的焦點之一。
近日,上海市楊浦區檢察院組織召開“數據爬蟲的法律合規研討會”,法律實務界人士、高校專家學者與企業代表圍繞數據爬蟲的概念和技術原理、行業自治規范、合法性邊界和法律適用等主題開展了深入研討。
數據爬蟲的概念和技術原理
大數據時代,數據資源是互聯網企業發展的重要基礎。當下,數據爬蟲是企業采集公開數據的常用技術手段之一。通過數據爬蟲技術,可以實現對文本、圖片、音頻、視頻等互聯網信息的海量抓取。那么,數據爬蟲到底是什么,其技術原理又是什么?
對此,上海市楊浦區檢察院檢察官邵旻認為,爬蟲是一種自動化瀏覽網絡程序,其按照設置的規則通過模擬人工點擊來自動抓取互聯網數據和信息,從而自動、高效地讀取或收集互聯網數據。該技術運行的基本原理是根據搜索目的建立待爬行的URL(統一資源定位器)隊列,從中取出URL,訪問該URL對應的頁面,并進行頁面解析,提取此頁面上所有的URL并存入待爬行隊列中。如此循環爬行,直到URL隊列中的所有URL爬行完畢或滿足系統的一定停止條件為止。
歐萊雅中國區數字化負責人劉煜晨表示,從技術角度觀察,數據爬蟲就是用程序模擬人類通過瀏覽器(或者App)上網,高效地去網上抓取其所需要的數據信息的過程。爬蟲可以抓取所有數據,也可以按條件抓取所需要的數據。
當然,數據爬蟲技術運用不當也會產生不良影響,小紅書總法律顧問曾翔分析認為,爬蟲技術應用不當既可能侵犯個人和平臺權利,也可能破壞互聯網公共管理秩序,進而導致社會資源浪費。
數據爬蟲技術應用的行業自治規范
邵旻認為,網站通常會采取適當措施,如運用Robots協議、爬蟲檢測、加固Web站點、設置驗證碼等限制爬蟲的訪問權限,以防止爬蟲對數據進行過度抓取。其中,Robots協議由于簡單高效,成為國內外互聯網行業普遍通行、遵守的技術規范。Robots協議主要是限制網絡爬取數據的行為。被爬取數據方將寫有可爬取信息范圍的Robots協議文件放到該網站,僅允許數據爬取方在協議范圍內爬取數據。
華東政法大學教授高富平認為,Robots協議是在搜索引擎誕生并且發展壯大的背景下應運而生的,它是互聯網企業間相互博弈的結果,是最終在商業利益、用戶個人利益和網站自身安全的基礎上達成的一種妥協。其主要是起到一種排除作用,當某些網站不愿意其數據被搜索引擎所抓取時,這些網絡機器人就會自動排除這些不愿意被抓取的內容。對于Robots協議約定不能爬取的范圍是爬蟲的紅線,不能超過這個紅線邊界爬取數據。
數據爬蟲的合法性邊界和法律適用
高富平認為,爬蟲是支撐數據經濟的一種手段,在這樣的前提下,判斷爬蟲合法性邊界可以參考以下因素:一是數據是否屬于開放數據。數據是否公開不是合法性判斷的標準,是否為開放數據才是,公開數據不必然等同于開放數據;二是取得數據的手段是否合法。爬蟲采用的技術是否突破數據訪問控制,法律上是否突破網站或App的Robots協議;三是使用目的是否合法。如果爬蟲的目的是實質性替代被爬蟲經營者提供的部分產品內容或服務,則會被認為目的不合法;四是是否造成損害。爬蟲是否實質上妨礙被爬蟲經營者的正常經營,是否不合理增加運營成本,是否破壞系統正常運行。對于超越合法邊界的數據爬蟲,從民事法律規制角度,可以區分四種情形:首先,對于公開數據的爬取行為。如果數據權利方在Robots協議或網頁中告知了可以爬取的范圍以及其他應遵守的義務,爬取方沒有遵守義務,應當承擔相應民事責任。其次,對于突破網站或App的反爬蟲技術設置的行為。爬蟲從技術上突破數據訪問控制,如突破網站或App的Robots協議以及設置的爬蟲檢測、加固Web站點等限制爬蟲的訪問權限,可能違法,要承擔相應的民事責任。再次,對于數據使用目的不正當的行為。對于爬取到的數據,如果使用目的是實質性替代被爬蟲經營者提供的部分產品內容或服務,屬于侵犯權利方合法權益的行為,應當承擔相應民事責任。最后,對于給權利人造成損害的行為。如果因為爬蟲行為實質上妨礙權利人的正常經營,不合理增加權利人運營成本,破壞網絡系統正常運行,給權利人造成損失的,權利人可以向爬蟲行為人提起侵權之訴。
邵旻建議,從三個方面劃定數據爬蟲技術合法使用的邊界:一是合法的網絡數據爬取應限于對開放數據的獲取。如果網絡爬蟲獲取非開放的數據,便涉嫌違法甚至犯罪;二是合法使用的數據爬蟲技術不應具有侵入性,可以說,爬蟲的侵入性是其違法性的主要體現;三是數據爬取應當基于正當目的,對開放數據的獲取可能因不符合正當目的而具有違法性。對開放的非商業性數據的爬取應當要求符合公共利益之根本目的。對開放的商業性數據的爬取則可借鑒版權法上的合理使用原則,要求基于合理利用目的。著眼刑事法律角度規制數據爬蟲,可以從爬蟲行為和數據使用兩方面入手:其一,明知沒有授權而故意避開或強行突破網站或App的反爬蟲技術設置進行的爬取行為,屬于“未經授權”訪問或獲取數據,行為人應依法承擔相應責任包括刑事責任。根據我國刑法規定,突破技術屏障入侵他人計算機系統、獲取系統內的數據,可能涉及的罪名包括非法侵入計算機信息系統罪、非法獲取計算機信息系統數據罪、破壞計算機信息系統罪。此外,如果利用爬蟲技術非法獲取公民個人信息,可能觸犯侵犯公民個人信息罪。其二,對于使用爬取的數據實施的犯罪行為,刑法也予以特別規制。如對獲取的信息數據加以傳播、利用或改造,有可能涉及傳播淫穢物品罪、侵犯商業秘密罪、侵犯著作權罪等。
(作者單位:上海市楊浦區人民檢察院)
關于我們 廣告服務 手機版 投訴文章:435 226 40@qq.com
Copyright (C) 1999-2020 www.ymshequn.com 愛好者日報網 版權所有 聯系網站:435 226 40@qq.com