2026-07-03 11:35:34

批量抓取欧美黄页数据是否违规?

批量抓取欧美黄页(Yellow Pages / Europages / Manta 等)数据,技术上抓取公开页面通常不触犯刑法,但有三大合规雷区——欧盟 GDPR个人数据处理、网站数据库权与 ToS 违约、美国 CFAA与版权。 对国内外贸企业来说,最大风险在欧洲侧,其次是对方发 Cease & Desist(停止函)要求删除数据。

一、美国(相对宽松,但有边界)

  • CFAA(计算机欺诈与滥用法):美国法院(hiQ v. LinkedIn 案)倾向认为抓取无需登录的公开网页不构成"未经授权访问"。但如果你绕过登录墙、破解 CAPTCHA、用代理硬抗 IP Ban 继续抓——有被主张违反 CFAA 或构成"非法侵入动产"的民事风险。

  • 版权:公司名、地址、电话属于"事实"(Feist 案),不受版权保护;但若把对方整个黄页数据库原样照搬重发布,可能侵犯数据库编排的版权。

  • CAN-SPAM:抓到邮箱后群发须遵守退订/如实标注要求,但这和抓取本身无关。

  • ToS 违约:黄页网站 ToS 常写"禁止自动化抓取",违反属民事违约——对方可发函要求停抓、删数据,通常不至于直接起诉你,但可能被封 IP 或吃官司。

美区小结:抓公开黄页 factual data(公司名/地址/行业)风险低;绕过技术封锁、抓登录后内容、或大规模重卖数据库才有实质法律风险。

二、欧盟 / 英国(高风险区——GDPR+ 数据库权)

这是你最需要小心的部分:

GDPR 适用:黄页上的联系人姓名(owner name)、个人手机号、个人邮箱(john@domain.com)属于个人数据。只要处理欧盟居民个人数据——哪怕公开——你就受 GDPR 管辖,需有合法依据(通常主张"合法利益 Legitimate Interest"并做平衡测试)、做数据最小化、设保留期限,且需在合理时间内通知数据主体(Art.14 通知义务)。

info@company.com、公司总机电话、纯公司名+地址 → 一般不视为个人数据,GDPR 压力小很多。

抓取个人姓名+个人邮箱/手机并存 → 触发 GDPR 全套义务,监管可罚 €2,000 万或全球营收 4%。

欧盟数据库指令(Sui Generis Right):Europages等目录对自身数据库投入大量整理,批量提取"实质部分"可能侵犯数据库权(Ryanair v. PR Aviation),对方可提起民事侵权诉讼要求停止和赔偿。

ToS 可执行性较强:欧盟法院认可某些浏览即同意的 ToS 具合同效力,违反可构成违约。

法国 CNIL 等监管态度:近年对 B2B 联系信息大规模爬取持收紧态度,要求透明通知和合法基础文件化。

欧区小结:抓公司名+地址+行业+总机/info邮箱相对可控(仍建议只存 B2B 非个人数据);避免存联系人个人姓名+个人手机号/个人邮箱组合;收到对方律师函要求删除须立即执行。

三、实操合规建议(降低风险版)

只抓公开无登录页面,尊重 robots.txt(虽非法定但在欧盟可做善意证明),限速避免造成 DoS 式负载。

数据最小化:只存公司名、行业分类、城市、官网 URL、总机电话、info@ 类邮箱。不存 owner 个人全名+个人手机+个人邮箱三元组。标记为"仅用于 B2B 开发目的"。

欧客数据处理:若必须存个人化 B2B 联系方式,做 Legitimate Interest Assessment(LIA),在网站隐私政策说明此用途,对欧盟数据主体保留删除/导出通道。

收到 Cease & Desist 立刻停抓该站并评估删除已存数据,继续抓可能升级为诉讼。

不转卖/公开发布黄页数据库:转卖加重数据库侵权和 GDPR 风险。

考虑买正规授权数据:Europages / Kompass / WLW 等有付费导出服务,最安全。

四、对中国公司实际影响

欧美黄页网站一般无法直接在中国执法罚款你,但可:封 IP、发警告函给你邮箱/域名注册邮箱、向你的主机商投诉、若你有欧美子公司或参展可递送法律文书。

真正高风险场景是:你把含欧盟个人数据的列表卖给第三方 / 用含个人数据的列表群发被投诉到欧盟 DPA / 对方律师追索数据库侵权。

一句话: 抓欧美黄页公开的公司名+地址+行业+总机属最低风险区(美更松、欧需注意数据库权);抓存个人姓名+个人联系方式触发 GDPR 须合规处理;绕过登录/CAPTCHA 硬抓、整库倒卖、无视停止函是主要踩雷行为。首次做建议只抓非个人化 B2B 字段,收到 C&D 立即停。

免费下载
免费下载
小程序
小程序
小程序
交流群
交流群
交流群
回顶部