设为主页 |收藏

登录实名注册找回密码

传媒教育网 › ›新闻聚焦 › 查看内容

韩国发布《生成式AI使用“公开数据”标准指南》

2024-7-18 15:18| 发布者: 刘海明| 查看: 154| 评论: 0|来自: 数据法盟（公众号）

摘要: 2024年7月17日，韩国个人信息保护委员会正式发布《处理人工智能（AI）开发和服务中使用“公开数据”标准指南》，一个大模型预处理和AI产品处理公开个人数据的标准。

来源：互联网法律匠

作者：麻策

2024年7月17日，韩国个人信息保护委员会正式发布《处理人工智能（AI）开发和服务中使用“公开数据”标准指南》，一个大模型预处理和AI产品处理公开个人数据的标准。

该指南是一个难得的优质标准，总共近44页，通过非常完整的版块以及详尽的技术解释、并附以通俗易懂的场景案例。

韩国个人信息保护委员会认为，现行韩国法律中没有明确的标准来处理公开的个人信息，因此企业的不确定性很高。对此，个人信息委员会通过此次指南明确介绍为AI开发和服务而合法处理公开个人信息的法律依据。

韩国在生成式人工智能领域非常卷，其个人信息委员会在2023年8月发布《AI时代安全个人信息利用政策方向》，2024年2月发布非结构化数据假名处理标准，在5月又发表的《合成数据生成参考模型》之后，这一次又发布了《处理人工智能（AI）开发和服务中使用“公开数据”标准指南》，具体落实了适用于快速变化的人工智能、数据处理环境的个人信息保护原则和标准。为了使大规模语言模型（LLM）等AI开发的“核心原料”——公开的个人信息能够合法、安全地使用，韩国个人信息保护委员会提出了一定的标准，旨在降低企业的不确定性，提高国民的信任。

韩国个人信息保护委员会认为，公开的个人信息与个人信息处理者和信息主体之间没有以特定服务为媒介进行连接的直接关系，因此很难根据个人同意或合同签订等进行操作。对此，考虑到AI开发的目的和公开的个人信息的特性、风险水平等，“正当利益”条款可以成为实质性的合法依据。

以下是总结的划重点Q&A：

一、预训练和服务

在大模型预训练阶段，伴随着包括公开个人信息在内的学习数据收集、存储、加工（代币化等前处理）等，这属于个人信息保护法上的“处理”。大模型预训练是将文本、图像等非结构化数据转换为机器可以学习的格式，以查找结构、模式（如代币化），在此过程中个人识别性可能会降低。此外，机器通过反复学习概率性地决定标记化单词（或形态素）的位置、顺序、结构等排列方式，因此不能断定其主要目的是识别个人。而在AI服务阶段，以下情况涉及到个人信息处理：（i）用户可以通过输入包括个人信息在内的提示来获得有关个人的结果值；（ii）提示输入和结果值可以再次用于AI学习目的，因此相当于个人信息的“处理”。

二、提示词数据

有一个重要的内容，是需要区别公开的个人信息与用户输入数据的区别。用户在AI模型中输入的问题（提示）和答案可能包含个人信息，AI开发者和服务提供商可以将这些数据用于AI学习目的。将用户输入数据用于AI学习目的时，与公开的个人信息一样，必须满足个韩国人信息保护法第15条规定的合法依据。与通过大规模网络扫描收集的公开个人信息处理不同，用户输入数据可以根据用户和AI服务提供商之间的1:1关系，在透明的通知和同意下进行最后期限的数据处理。因此，如果希望将用户输入数据用于AI学习目的，与公开的个人信息不同，正当利益（Ⅱ）条件的认定范围实际上可能会受到限制，自愿同意、合同等其他合法依据可能会更有效。

三、公开的个人信息

指南的对象“公开的个人信息”是任何人都可以合法访问的个人信息。主要是指网站、博客、维基百科、Common Crawl、法令公示和公开的个人信息、出版物、广播媒体等中包含的个人信息。非公开或仅对部分人公开的信息、私人对话等不属于公开的个人信息。目前很多国内外AI企业等为了确保学习数据，通过网络扫描等公开收集和利用可访问的数据。韩国大法院根据公开的个人信息的特点，判定信息主体已经公开的个人信息，在客观上可以在同意意向可以认定的范围内，未经另行同意即可处理。

四、敏感公开个人信息

运营者可能不小心公开了卡号、唯一识别号等敏感信息，这些信息被利用后会不会出现问题？学习完成的AI模型可能包含（embedded）可以识别个人的信息、记忆风险（memorization risk）、提示攻击等可能会导致和暴露学习数据中包含的个人信息。披露的数据可能包含违法或错误披露的个人信息，需要采取一定的安全措施。个人信息委员会和KISA以公共和民间网站为对象，检测并删除身份证号码、护照号码、驾照号码等保护法规定禁止暴露的个人信息的暴露和非法流通。定期更新检测到的网站的URL，并向AI企业等公开，企业可以将该网站排除在学习数据之外，以提高安全性。同时，为了不让敏感信息在《指南》中暴露，还介绍了确保安全性的措施，企业可以根据情况适用。例如，不回答询问特定人个人信息的问题等，适用提示过滤；固有识别信息等敏感信息需事先非识别等。

五、企业措施限度

从企业的立场来看，可能会感到引入指南中提出的各种安全措施的负担，对此个人信息委员会的立场是？

不要求企业采用和履行本指南中列出的所有安全措施（指南中也明确规定）。引导企业根据AI类型、用例等个别条件自主采用最佳的安全性确保措施，以实现AI性能和安全性的协调，避免一律监管带来的负担。此外，指南明确介绍了收集和利用AI学习中公开的个人信息的标准和条件，因此也会减少企业负担。开发生成型AI的主要企业已经在实施一定的安全措施，但通过指南可以得到企业和学术界正在研究的各种安全措施的指导，为重新检查和完善现有的个人信息保护措施提供参考。

六、AI企业责任

未履行本指南中提出的个别措施并不意味着公开的个人信息处理立即违法。但是，由于运营商对可预期或实际存在的风险不采取适当的安全措施而导致重大信息主体侵权的，主张“正当利益”作为处理公开个人信息的法律依据的可行性可能无法得到认可。指南的目的不是调查或制裁，而是消除AI企业等的不确定性。指南发行后，将与主要AI企业进行沟通，监控企业为确保AI安全性采取的措施，并为营造个人信息安全使用的条件持续进行政策努力。

七、合法利益运用

如果AI企业以正当利益为依据处理公开的个人信息，企业是否需要证明？
收集和使用为AI学习和服务而公开的个人信息时，韩国个人信息保护法第15条第1款第6号的正当利益条款可以成为实质性的合法依据。个人信息处理者的“正当利益”是个人信息处理的合法利益，不仅包括AI开发者和服务提供者的营业利益，还包括由此产生的社会利益等多个层面的利益。韩国《隐私权法》要求在个人信息处理者的正当利益得到认可的情况下，满足以下三个条件：(i)会有个人信息处理者的正当利益；(ii)个人信息处理对于实现正当利益是具有必要性的，并且具有相当大的相关性和合理性。LLM的开发需要大规模的学习数据，以模拟人的语言发音结构和脉络等，生成准确的预测，为此，LLM的开发依赖于互联网上公开的数据作为现实方案，这可以称为必要性。（ii）个人信息处理者的正当利益明显优先于信息主体的权利。在实务上设定目的并评估“目的的正当性”时，可以区分训练为执行特定目的任务的“特定目的AI”和可以执行多种下游任务（downstream task）的“通用AI”。（特定目的AI）最好最大限度地具体定义AI的目的和用途*（intended purpose/use），包括（生成AI）文档摘要、翻译、图像生成、语音合成等（辨别AI）招聘、信用评估、排名、欺诈检测、诊断辅助等。而（通用AI）考虑到AI的目的和用途难以预定义的局限性，可以利用在合理范围内可预测的AI系统类型（type）、技术上可实现的功能（functional）、性能（capability）等作为代理变量（proxy）来具体化正当利益的内容。原则上由企业承担公开个人信息处理合法性的证明责任。建议寻求正当利益的AI企业参考指南中提出的判断标准和适用案例，自行评估是否满足合法依据，并记录其依据。

八、安全措施不确定

AI是一项技术、服务结构、应用领域、目的等多种多样，发展形态千变万化的技术。目前，为了在发展AI性能的同时提高公正性、透明性、安全性等，正在讨论各种措施，但作为“万能解决方案”的安全措施尚未可知。提高安全性的个别措施可能会产生偏向、歧视、性能下降等负面效果，与其一律要求企业自行履行特定安全措施，不如选择并履行“最佳组合”。
但是，从企业的立场来看，“最佳组合”的判断可能存在不确定性。本指南介绍了实际企业的案例，并计划持续发掘业界正在研究和实施的最佳案例，并将其反映在指南中，以供AI企业今后参考。

九、数据集验证

公开数据可能包含大量违法或与信息主体意愿无关的公开个人信息，需要努力验证数据收集来源。在AI学习用图像数据库LAION数据集中发现至少1000张儿童xin剥削图像（“23.12”）等来源验证的必要性正在提高。如果AI开发人员直接使用Web Scraping工具收集公开的个人信息，则需要遵守网站使用条款和机器人排除标准等。如果AI开发人员希望使用第三方收集和分发的数据集（例如，Common Crowl），则最好确认其是否为可信的第三方，并查看该数据集中包含的主要数据源列表。个人信息保护委员会计划定期现行地提供删除、阻止韩国信息主体个人信息暴露页面（URL）的信息。学习数据可能包含偏向或不准确的信息，也可能包含敏感的私人信息，因此通常会伴随着预处理过程，但这并不能预防所有风险，因此建议通过微调（fine tuning）建立额外的安全机制。（提示过滤器）如果用户通过提示输入对个人进行分析或诱导生成隐私侵害可能性较大的答案，则需要考虑拒绝生成答案或根据提示的脉络和宗旨提供事先确定的答案等方式。如果实际输入的提示符要求获取包含姓名的个人（named individual）信息，请首先确认是否开设了具有该名称的个人的维基百科（Wikipedia）页面，如果没有维基百科页面，则也有不提供该查询结果的事例。

十、跨国企业歧视

是否有可能因为指南而在国内企业和跨国企业之间产生歧视？**该指南适用于国内外运营商，因此不必担心指南会导致国内外企业之间的歧视。另外，在制定指南的过程中，与国内外企业随时沟通，听取意见并反映在指南中。例如，海外事业者以韩国信息主体为对象提供财货、服务的情况；即使不以韩国信息主体为对象提供财物或服务，也会处理韩国信息主体的个人信息，产生直接且相当大的影响。参考《海外事业者个人信息保护法适用指南》。因此，对于海外AI开发者和服务提供者，（i）以韩国信息主体为对象提供财物或服务，（ii）处理韩国人或韩国信息主体的个人信息，对韩国信息主体产生影响等，原则上适用本指南。

十一、恶意犯罪利用

通过公开的个人信息学习的AI是否被用于识别特定人或恶意利用犯罪等？

对于用于个人识别目的、恶意用于犯罪等的AI，原则上不能成立“正当利益”，只有优先于“信息主体的权利”才能成立。指南中也介绍说，结合人脸识别DB，以对个人进行分析和监视为目的开发AI；网络攻击或钓鱼、短信等以冒充个人诈骗为目的的AI，目的的正当性无法得到认可。顺便说一句，为了学习公开的个人信息，防止公开的AI模型被恶意利用，多家AI企业正在制定和实施安全、负责任的AI使用许可政策。AI开发者-分发者-运营商等之间的责任分担和作用需要进一步研究。

十二、开源和闭源模型

开源模型是任何人都可以自由查看、修改和部署的软件，在最初部署后，开发者的控制力会减弱。因此，开发开源模型的运营商应制定和分发许可政策，明确说明如何使用和条件的范围以保护隐私，并寻求确保开源运营商遵守的方案。此外，如果在部署的开源模型中发现与个人信息相关的漏洞，则需要迅速研究并重新部署这些事项和措施。同时，如果开源模型被恶意运营商误用和滥用，侵犯了个人信息，最好提供立即举报其事实的功能和工具。

十三、用户权利保护

特别是在AI结果值中包含个人信息的情况下，AI开发者和服务提供者应根据信息主体的要求迅速采取过滤、微调等安全措施，尽量减少个人信息侵害风险，并在以后重新学习AI模型时将其排除在学习数据之外。当AI开发人员和服务提供商通过销毁或标记学习数据等前处理过程证明个人识别在技术上不可行时，信息主体的学习数据阅览、更正和删除要求等可能会受到限制在这种情况下，AI开发人员和服务提供商必须告知信息主体以便于理解，并承担最终的证明责任。

鲜花

握手

雷人

路过

鸡蛋

收藏邀请

上一篇：千万资产归零！知名主持人被骗，最新进展下一篇：韩国发布《生成式AI使用“公开数据”标准指南》

韩国发布《生成式AI使用“公开数据”标准指南》

最新评论

相关分类

帐号		自动登录	找回密码
密码			实名注册