在上海打刑事官司找邢环中律师 【咨询(微信):13918930001】

忘记密码

法律规制:数据爬虫的悬顶之剑

2023-04-15 18:28 浏览: 1,705 次 字号:


文/吴菊萍

上海市人民检察院第二分院第三检察部副主任、三级高级检察官、法学博士,华东政法大学兼职教授,上海市优秀公诉人、全国检察机关网络犯罪检察人才,上海检察机关网络犯罪专业化办案团队召集人

没有法律规制的数据爬虫,很可能变异为“害虫”。高悬达摩克利斯之剑,才能确保数据爬虫在推动数字经济发展中发挥正向价值。

数据作为数字经济的重要生产要素,必须充分流动和利用起来。数据爬虫技术推动了数据的分享与利用,也引发了市场的恶性竞争,带来了技术滥用的法律风险。现象层面的“技术中立”,涉及科学技术伦理判断,基于一定的动机、目的使用爬虫技术的行为,则更涉及利用技术的行为人及其行为的规范评价。探究数据爬虫的技术逻辑,给出相关行为的合法界限与非法判断标准,是当下数据行为立法与司法的重点课题,也是推动数字经济发展的题中应有之义。

随着数字经济的发展,我们将迎来一个数据、劳动力、资本和技术共同驱动的新时代。“数据”成了其中全新的变量。2017年12月,习近平总书记在主持中共中央政治局学习时指出,“要构建以数据为关键要素的数字经济”。2019年10月,党的十九届四中全会作出决定,“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制”。2020年4月,中共中央、国务院发布了《关于构建更加完善的要素市场化配置体制机制的意见》,明确将土地、劳动力、资本、技术和数据并列为五大要素。

随着数据成为经济发展的“新石油”,数据之争日趋激烈,数据的权利归属以及获取、利用数据的行为规则尚未达成共识。与数据的获取和利用最直接相关的一项技术——网络爬虫,从一项中立的技术逐渐演变成侵权甚至犯罪的工具,引发了诸多法律争议。

数据爬虫的善与恶

网络爬虫(Web Crawler),又称“网络蜘蛛(Web Spider)”或“网络机器人(Web Robot)”,是一项在互联网时代普遍运用的网络信息搜索技术。它的基本原理是:根据搜索目的建立待爬取的URL队列,并将其取出,对该URL所对应的网页进行解析。当爬虫访问整个网页时,会自动识别网页中所有的URL并将其添加为待爬取URL,如此循环往复,直到URL队列中所有URL全部爬取完毕或满足一定要求为止。换言之,网络爬虫就是一个高效的下载系统,能够将海量的网页数据传送到本地,在本地形成互联网网页的镜像备份。网络爬虫的运行模式是:获取网页——解析网页——存储数据,即按照一定的规则自动抓取互联网信息的程序或者脚本。

有业内人士称,互联网50%以上,甚至更高的流量其实都是爬虫贡献的。对某些热门网页,爬虫的访问量甚至可能占据了该页面总访问量的90%以上。

当前网络爬虫的应用场景主要有:新闻资讯的搜索、分类、排序及动态推送,如“今日头条”等聚合媒体、“新浪微博”等网络信息平台等;电商平台的商品浏览、销售、评价等数据的市场调研与分析;政务公开数据的优化及商业使用,如对“裁判文书网”海量判决文书的搜索及数据优化后推出付费版数据库,又如对工商、税务、司法等信息搜索及数据优化后推出企业信息查询;等等。  

网络爬虫也被一些不法分子用来大量下载文字作品、音频视频等转售牟利;用来窃取竞争对手的商业数据进行不正当竞争;更有甚者,用网络爬虫爬取各类公民个人信息,成为网络赌博、电信诈骗等犯罪的黑产。即使目的正当,如果爬虫整日无休地、自动持续地大量访问网站,对于那些小网站或者技术实力弱的网站,还可能因服务器无法承受激增的流量,导致网站崩溃。

综上,爬虫技术本身没有善恶之分,但是基于一定的动机、目的使用爬虫技术的行为,必然面临是非善恶的价值评判,以及由此产生的法律责任评价。

爬虫与反爬虫机制的攻防对抗

诚然,并不是所有的互联网场景都排斥数据爬虫,有些网站和应用希望被搜索以提高曝光率,但是大多数网站基于服务器的承受能力、风险以及对商业数据的保密等原因,并不希望被爬取数据。后者会制定相应的策略,采取一定的技术手段,来防止爬虫对数据的抓取。

常见的应对策略是在网站根目录下放置Robots协议(也称Robots.txt),该协议由荷兰工程师马丁·科斯特(Martijn Koster)在1994年编写,由于简单高效,当前Robots协议已成为解决爬取方和被爬取方之间关于爬取意愿的通用且被遵守的技术规范,对于维护互联网的正常秩序与当事人合法权益具有重要意义。Robots协议通常会告诉网络搜索引擎的漫游器,此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。2012年中国互联网协会发布的《中国互联网行业自律公约》也将遵守Robots协议认定为“国际通行的行业管理与商业规则”。

但是,Robots协议更像“君子协议”,只能起到告示作用。有的爬虫会通过“模拟真人访问”“协议破解”等方法来爬取数据。于是,很多网站和应用不得不采用反爬虫技术拦截手法。爬虫、反爬机制、反反爬机制,如此无休止的攻防对抗,造成了大量的社会资源浪费。

数据爬虫的法律规制

爬虫与反爬机制攻防对抗的实质是数据之争。在数据已成为经济社会的重要生产要素、是互联网企业核心竞争力的当下,数据爬虫首先引发了许多竞争法范畴的纠纷。在竞争法视野下,司法裁判一般考虑两方面利益权衡:一方面,要遵从契约精神,既然设置了Robots协议,那么在竞争过程中就应当遵守竞争规范,确保有序的市场秩序;另一方面,要防止市场垄断,避免因Robots协议对爬虫的限制而形成数据孤岛,从而构成数据垄断。数据作为重要的生产要素,只有在流通过程中才能产生价值。数据垄断对握有数据的经营者而言会产生竞争优势,但是长远来说,对社会经济可能带来负面影响。

数据爬虫的不断发展变异还引发了刑事风险。在刑法视野下,司法裁判主要考虑以下因素:一是数据是否公开。通常认为,数据犯罪所侵害的法益为数据安全,包括数据的保密性、完整性、可用性。二是手段是否具备“侵入性”。在数据权利人采取了协议、反爬机制等手段的情况下,通过反反爬技术继续爬取数据的行为,就具备了较为明显的侵入性。三是行为是否具有社会危害性。社会危害性是犯罪的本质特征,如果一个行为没有社会危害性,或是社会危害性不明显,也没有必要启动刑事追责。

从当前的刑事判例来看,数据爬虫涉刑的主要罪名有:破坏计算机信息系统罪,非法侵入计算机信息系统罪,非法获取计算机信息系统数据罪,提供侵入与非法控制计算机程序、工具罪,侵犯著作权罪,侵犯公民个人信息罪,传播淫秽物品牟利罪,开设赌场罪,盗窃罪,诈骗罪等。在这些刑事案件中,网络爬虫突破了其原有的中立技术的内涵,目的也从高效的搜索、下载,延伸至窃取他人信息进而非法牟利。

那么,合法使用网络爬虫技术的边界又在哪里呢?我们认为,网络爬虫要体现并保持技术的中立性,可以从以下三个方面进行合法性限定:其一,就爬取对象来说,应当限定为公开数据。其二,就技术手段来说,网络爬虫不应具有侵入性。是否具有侵入性应当从技术本身是否具有侵入性和数据爬取行为是否遵守爬虫协议与合同约定两个方面来判定。其三,从爬取的目的来说,要具有正当性、合理性、公平性。

数据爬虫从诞生至今,经历了中立技术到一般违法,再到刑事犯罪的演变过程,其中不仅有爬虫技术本身的变异,也有人们认识深入、观念变化的原因。法律要规范的并非技术本身,除非该技术本身就有伦理问题。法律要调整的是由于技术运用而带来的当事人之间的利益分配问题,要传递的是公平合理的价值追求。

Comments are closed.

会员登录关闭

记住我 忘记密码

注册会员关闭

小提示: 您的密码会通过填写的"电子邮箱"发送给您.