合理規(guī)制,讓“爬蟲”向善向上
近年來,隨著移動互聯(lián)、人工智能、大數(shù)據、云計算等新技術的迅速發(fā)展與普及應用,人們的工作、交往和生活方式都發(fā)生了深刻變化,數(shù)據成為驅動社會發(fā)展的新型生產要素、各行各業(yè)增強競爭力的重要源泉。但在大數(shù)據收集過程中,也存在著各種違法犯罪問題。網絡爬蟲(Web Crawler)作為一種能快速精準地獲取數(shù)據信息的基礎性網絡技術,近年來得到了越來越多的青睞和應用。如何對其進行規(guī)制,驅動其向好向善,成為當前重要的法治議題。
“小爬蟲”的“大角色”
網絡爬蟲,又稱為“網頁蜘蛛”“網絡機器人”,是一種按照一定的規(guī)則,自動抓取網絡信息的程序或者腳本。它能在特定程序的驅動下,模仿人工點擊從網站、手機應用、小程序或搜索引擎中檢索、提取、存儲數(shù)據。我們可以形象地將它們理解為一種爬行在網絡上的蜘蛛,它們根據程序的指令,通常沿著URL(網址)這根蛛絲,在互聯(lián)網這張大網上爬來爬去,尋找和帶回所需要的數(shù)據資源。我們熟知的百度、搜狗、谷歌等搜索引擎,其技術核心元素之一就是“網絡爬蟲”。例如百度蜘蛛,它通過互聯(lián)網入口爬取網頁,實時存儲并更新索引,然后為用戶提供檢索服務。
自從1993年第一個網絡爬蟲程序——“互聯(lián)網漫游者”被開發(fā)出來,網絡爬蟲這種便捷高效的搜索技術便得到了業(yè)界關注。特別是隨著數(shù)據資源的爆炸式增長,網絡爬蟲的應用場景也變得越發(fā)廣泛與多元,長期活躍于市場調查、產品研發(fā)、金融分析、輿情監(jiān)控、風險預測等領域。近年來,一些運用爬蟲技術為客戶提供數(shù)據服務的互聯(lián)網企業(yè),也獲得了快速發(fā)展。對個人而言,我們可以利用爬蟲軟件等計算機編程語言,讓網絡爬蟲為自己服務。例如想買到理想的房子,就可爬取房產中介的公開信息,分析房源數(shù)據與趨勢以輔助決策。
網絡的本質與價值在于連接,核心是實現(xiàn)數(shù)據的流動與分享。網絡爬蟲作為數(shù)據抓取的技術工具,通過爬行增強了網絡節(jié)點間的聯(lián)絡,提升了網絡的整體價值,是構建互聯(lián)網開放與共享理念的重要技術基石。但網絡爬蟲所行之處,并非總是鮮花和掌聲,特別是涉及隱私領地和網絡安全之時。因此,為了規(guī)范爬蟲,維護網絡秩序,1994年誕生了“robots.txt協(xié)議”,該協(xié)議雖然只是一個“君子協(xié)議”,但它逐漸被視為網絡空間爬蟲技術應用公認的行業(yè)準則,也成為判定爬取行為是否獲得網站許可的主要依據。在2014年百度公司訴奇虎360違反robots協(xié)議案中,法院在判決時就認為,被告沒有遵守原告網站的robots協(xié)議,其行為明顯不當,應當承擔相應的不利后果。
科技異化:“好爬蟲”和“壞爬蟲”
科技本身是一種中立性工具,向善向惡、合法與非法,關鍵在于使用者的選擇。原本通過robots協(xié)議,一方獲得了數(shù)據與信息,一方增加了流量與關注,皆大歡喜。但robots協(xié)議能防“君子”卻難防“小人”,有些爬蟲程序不遵守規(guī)則,隨心所欲地爬取別人不愿意分享的數(shù)據信息,并大量擠占服務器資源,變成了“網絡害蟲”。例如近年來一些大數(shù)據風控公司利用爬蟲技術,在網絡上非法收集用戶個人信息并轉賣給第三方,借以謀取經濟利益。
網絡爬蟲設計的初衷是通過計算機技術,自動為網站編纂索引,更新信息,為用戶提供高效的檢索服務。具有訪問、下載和解析(對數(shù)據進行分析與篩選)三種基本功能。目前,爬蟲作惡主要是對前兩種功能的異化,體現(xiàn)為三類作惡方式。
一是惡意抓取非授權數(shù)據。訪問數(shù)據是“網絡爬蟲”的行為起點,也是其價值本源,一些企業(yè)或個人為了經濟利益或其他特殊目的,想方設法讓網絡爬蟲突破道德規(guī)則與技術障礙(網站“反爬蟲”措施),爬取未經授權或超過授權范圍的數(shù)據。例如2018年2月至4月間,馬某通過編寫“爬蟲”程序,竊取手機應用及網站的用戶信息約20萬條,然后通過微信出售給他人,非法獲利共計2.4萬元,這種行為就構成了侵犯公民個人信息罪。
二是惡意侵犯知識產權。一些網絡爬蟲在數(shù)據爬取過程中,未經版權方的許可,就下載、復制或傳播文字、圖片和視頻等內容,并以此獲利。通常形式是,爬蟲對具有版權歸屬的文學或影視作品等設置加框鏈接,吸引用戶點擊,然后通過售賣廣告等形式牟利。例如段某建立的“窩窩電影”網站,利用爬蟲技術對多家視頻網站的500余部影視作品設置了加框鏈接,吸引用戶點擊播放,并賺取廣告費100余萬元,這種行為就觸犯了著作權法。
三是惡意擾亂系統(tǒng)運行。網絡爬蟲訪問系統(tǒng)時,跟人工點擊原理一樣,因此當巨量爬蟲同時訪問某一網站時,就會占用大量的帶寬資源,造成服務器不堪重負甚至崩潰。業(yè)內專家表示,2019年有近40%的網絡流量來自爬蟲,其中20%來自惡意爬蟲,而且比例還將不斷上升。出行行業(yè)即是重災區(qū)。以中國鐵路“12306網站”為例,自2011年上線運營以來,春運期間多次出現(xiàn)因爬蟲(主要是搶票軟件)攻擊而無法訪問的情況。據統(tǒng)計,2018年春運期間,網站最高峰時1天內頁面瀏覽量達813.4億次,其中近90%是“爬蟲”所為。
合理規(guī)制,讓“爬蟲”向善向上
據統(tǒng)計,截至2020年12月,我國網民規(guī)模達9.89億。增強網絡空間治理,保障個人信息和數(shù)據安全,已成為重大的時代命題。
目前我國對網絡爬蟲的規(guī)制還沒有專門的法律法規(guī),主要依靠民法典、反不正當競爭法、著作權法、網絡安全法以及刑法中的相關法律條款。但從法律規(guī)制效果來看,情況不容樂觀。一方面是由于互聯(lián)網技術的快速發(fā)展,以及網絡所具有的開放性、虛擬性和流動性等特征,讓對違法犯罪行為的監(jiān)管和證據提取較為困難,特別是隨著數(shù)據抓取從網頁拓展至手機應用程序、小程序等移動端平臺,抓取手段就更加復雜與隱蔽;另一方面是網絡世界和數(shù)字服務發(fā)展迅猛,法律法規(guī)還具有較大的滯后性,司法實踐對網絡爬蟲技術濫用引發(fā)的法律問題缺乏足夠的司法經驗,而相關的司法解釋亦未能予以足夠關注,難以形成有效規(guī)制。例如2017年今日頭條與新浪微博之間因“微頭條”業(yè)務同步“微博”發(fā)言內容的糾紛案例,其實質是數(shù)據權屬難以確定的問題。但由于缺乏明確的司法解釋指引,引發(fā)了實踐中的普遍爭議。
2019年5月,國家互聯(lián)網信息辦公室公布了《數(shù)據安全管理辦法(征求意見稿)》,該辦法專門針對利用網絡開展數(shù)據收集、存儲、傳輸、處理、使用等活動進行了規(guī)制,有望對網絡爬蟲等技術行為進行有效治理。該辦法強調,國家堅持保障數(shù)據安全與發(fā)展并重,鼓勵研發(fā)數(shù)據安全保護技術,積極推進數(shù)據資源開發(fā)利用,保障數(shù)據依法有序自由流動。這也提醒我們,網絡爬蟲等本質上是順應數(shù)字經濟發(fā)展需求而生,既要從法律層面高度重視,也要把握好法律規(guī)制的邊界,力求達到數(shù)據利用與合理規(guī)制之間的良性平衡,以便讓網絡技術更好地服務經濟社會與人民生活,助推數(shù)字中國建設。
(作者:韓軼 聶晶,分別系中央民族大學法學院院長、教授,中央民族大學法學院犯罪防控研究中心研究員)
您可能也感興趣:
今日熱點
為您推薦
8家險企股權被掛牌轉讓,為何險企股權不再被追捧?
深圳最低工資標準調整為2360元/月 失業(yè)保險金為2124元/月
遼寧實施失業(yè)保險省級統(tǒng)籌 對缺口核定等作出詳細規(guī)定
更多
- 重慶:激發(fā)人才創(chuàng)新活力,到2025年創(chuàng)新要素活躍度顯著增強
- 西寧加快知識產權強市建設步伐 去年兌現(xiàn)資助資金200萬元
- 無錫錫山區(qū)全面啟動實施“雙招雙引” 引進高端創(chuàng)新資源
- 重慶巴南區(qū)落實創(chuàng)新驅動發(fā)展戰(zhàn)略 以科技創(chuàng)新引領五大產業(yè)集...
- 朝陽北票經開區(qū)加快推進數(shù)字經濟發(fā)展 推動體制機制創(chuàng)新
- 湖北省先進低碳冶金產業(yè)技術創(chuàng)新聯(lián)合體組建 打造五千億級產...
- 重慶渝北將優(yōu)化創(chuàng)新生態(tài)環(huán)境 培育打造一批引領型的科創(chuàng)載體
- 南昌經開區(qū)高度重視科創(chuàng)平臺的建設工作 大力引進各類創(chuàng)新創(chuàng)...
排行
最近更新
- 江蘇發(fā)布重大項目清單 增資擴產項目明顯增多
- 山東抓投資抓項目 新興領域投資規(guī)模持續(xù)擴大
- Gucci在2月將投放 10 個“SuperGucci”NFT
- 美國銀行:美國CBDC將保持美元作為世界儲備貨幣的地位
- 美股三大指數(shù)尾盤集體轉漲
- 光伏發(fā)電概念股有哪些?光伏發(fā)電概念龍頭股一覽
- The new iPad屏幕對比評測
- 電源接通延時器
- 汽車電子穩(wěn)定系統(tǒng)(ESP)詳解
- 聯(lián)想B520一體機拆解
- 焦炭相關股票有哪些?焦炭概念股票龍頭一覽
- 增強信號 3G無線上網卡改裝拆解全攻略
- 盤點全球五大智能手機生產商 華為聯(lián)想入圍
- 三星新平板 Galaxy Note 10.1全拆解
- 智能監(jiān)控防盜報警系統(tǒng)
- 格力電器未來三年股東回報規(guī)劃:每年累計分紅不低于當年凈利潤50%
- 消息稱京東科技計劃2022年在港IPO,募資10億至20億美元
- 恒大集團:呼吁境外債權人不采取任何激進的法律行動
- 海航董事長劉璐因個人原因辭職,在海航已近28年
- 青青稞酒預計2021年營收增長30%-40%,四季度凈虧損超1500萬
- 2022年在港上市募資10億美元?京東科技:不予置評
- 財政部修訂出臺《財政行政處罰聽證實施辦法》
- 賣房子需要交什么稅?賣房子必須攜帶哪些證件?
- 醫(yī)??ǖ氖褂梅秶心男??補牙可以使用醫(yī)保報銷嗎?
- 小產權房能過戶嗎?購買小產權房有什么風險?
- 奕東電子的實際控制人是誰?奕東電子股票上市了嗎?
- 百合股份是一家什么公司?百合股份的股票何時上市?
- 浙江:爭取實施數(shù)字人民幣試點
- 支付寶被盜刷后該怎么辦?理賠流程有哪些?
- 春節(jié)假期港股休市時間是如何安排的?何時恢復交易?