你的資料不是你的資料？網路資料抓取的合法性爭議

在資訊爆炸時代，抓取網路上的公開資料是否恰當，一直存有爭議。原因在於，確保存取公開資料的合法性，能夠豐富學術研究的資料庫，並避免資訊壟斷。但這是一把雙面刃，公開資料也可能被惡意使用，而侵害到個人隱私。

# 如何兼顧網路資料的公共性和隱私保護？ # 究竟怎麼樣才算合法取用？

發生什麼事？

透過爬蟲程式抓取臉書上的資料，再製成新聞報導，算不算盜用資訊？這個問題的答案可能超乎你的想像。看似侵犯智慧財產權，但美國的判例卻傾向於：沒有違法。

當自動化程式搜尋可公開存取的網站以收集資料時，就會發生資料擷取，這些資料隨後可用於多種目的，包含訓練 AI 模型、定位線上廣告、輿情分析、市場研究等。

然而，被抓取的資料到底屬於誰？哪些用途才算是合理？該如何確保資料發布者的隱私？這些問題一直未有定論。

問題持續發酵，網頁抓取行為也越來越普遍。近幾年，在法律層面引發的爭議不斷出現。去年 7 月，X（原 Twitter）起訴網頁抓取公司亮數據（Bright Data），指控其從 X 平台「非法」複製和銷售內容，並提供自動化軟體，允許亮數據的用戶直接從平台抓取數據，已違反 X 的服務條款。

結果是，本月 10 日，加州聯邦法官予以駁回。法官在判決書寫道，X 並不是「希望保護用戶隱私」，而是「很樂意允許提取和複製 X 用戶的內容，只要付費即可。」

法官這麼認為的原因是，去年 7 月，X 曾在達拉斯縣（Dallas County）對 4 名被告提起訴訟，指控他們的資料抓取行為對 X 伺服器造成負擔，並損害了用戶體驗。當時 X 還求償超過 100 萬美元，因此法官認為，一旦 X 勝訴，意味著允許 X 握有抓取資料的同意權，還能對抓取資料的行為收取費用。

如果這件事可行，社群平台等於控制了收集公共網路資料的方式，並且還壟斷了這些資料的使用權與相關商業價值。而資訊由商業企業壟斷，有可能會損害公共利益。

科技巨頭的核心資產就是這些資料，不只 X，Meta 在 2023 年 1 月也曾對 Bright Data 提起類似訴訟，但同樣未獲成功。當時法官的裁決關鍵在於，Meta 沒有提供足夠的證據，證明 Bright Data 竊取除了公開資料以外的任何內容。顯然，法官認為，公開資料不算是平台提供者的財產。

連續兩個判例都保障網路公開資料的公共性，而美國以判例法為基礎，意味著公開資料的公有財產特質正在被逐步確立中，對於資訊內容產業來說，這個發展方向深具影響力。

為什麼美國法院會將公開資料定義為公共資產？這必須從 2022 年 4 月，一項具有里程碑意義的裁決說起。