抽插黄文NP合欢宗我们正在大模型产品面前“裸奔”抽插黄文NP合欢宗么_ZAKER新闻
我们正在大模型产品面前“裸奔”抽插黄文NP合欢宗么_ZAKER新闻
诺贝尔科技公园
以训练模型之名,收集数据,但预训练的时代都结束了啊。每天,全球有数亿人在向 AI 产品倾诉他们的想法、困惑、创意,甚至秘密。但鲜有人意识到,这些对话正在以 " 帮助训练下一代 AI 模型的 " 的名义,突破着过往移动互联网产品的数据使用界限。ChatGPT 引发了这一轮的 AI 革命,也让这种聊天对话的产品形态成了大模型产品们最流行的样貌。而这种对话形态,在很多时候让用户 " 以为 " 自己在使用像微信这样的社交产品,进而忽视了在数据使用上,它们与这些我们习惯了的产品大有不同,甚至完全相反。事实上,几乎所有主流 AI 产品都在用户协议中明确写道,用户的输入将被用于模型训练,也就是,你的 " 聊天记录 " 不是只属于你的,而是被平台收集的。这种 " 数据采集 " 方式若放在移动互联网的任一款产品上,都可以被认为是用户在产品面前 " 裸奔 ",很多时候是不被允许的,但大模型的狂奔中,它却被人们忽视了。在当前 AI 技术快速发展的背景下,用户数据的收集与使用已经远远超出了传统互联网产品的范畴。你与 AI 助手的对话、上传的图片、甚至删除的内容,都可能被用来训练下一代的 AI 模型,而且一旦数据被用于训练,即便用户后悔也很难 " 撤回 " ——这些数据将永久地影响模型的行为。围绕近年来发生的典型案例,我们能更清晰地看到用户数据与 AI 产品之间的敏感关系。早在 2023 年 4 月,OpenAI 的 ChatGPT 因隐私泄露问题在意大利被暂时封禁。调查发现,一些用户的个人信息和聊天记录因开源库漏洞被错误展示。2024 年 9 月,爱尔兰数据保护委员会(DPC)对 X 公司提起诉讼,指控其在未经用户同意的情况下,自动收集了用户的帖子、互动、输入和结果,用于训练生成式 AI 聊天机器人 Grok 的用户数据,以提高其作为搜索和聊天人工智能的性能。最终,X 公司同意永久停止处理欧盟用户的个人数据。2024 年 11 月 27 日,路透 * 社的一则报道揭示了用户对微软 " 连接体验 " 功能的担忧。部分用户在社交媒体上指出,微软要求用户选择退出该功能,并认为该功能被用于训练 AI 模型。尤其是对于企业用户来说,Microsoft 365 中可能包含着重要的商业计划、财务报表、客户数据、产品设计等机密信息。如果这些数据被用于训练 AI 模型,可能会导致商业机密泄露,对企业造成潜在的损失。尽管微软迅速否认了这一说法,强调其不会使用 Microsoft 365 消费者和商业应用程序的客户数据来训练基础大型语言模型,但社交媒体上的讨论依然显示出公众对于未经允许数据被用于 AI 模型训练的普遍担忧。类似的,国内的 WPS AI 也出现过 " 用户文档被用于 AI 训练 " 的质疑。那些你已同意但并没有阅读的隐私条款我们能更清晰地看到用户数据与 AI 产品之间的敏感关系。企业并不被要求披露他们用于训练模型的数据来源,但根据一系列隐私法律的规定,他们需要说明如何使用客户提供的数据。对比国内外主流 AI 产品的隐私条款,可以发现各家公司在用户数据使用上的策略存在显著差异。KimiKimi 的《用户隐私协议》中指出,他们会收集用户在产品交互过程中输入的文本数据信息,以及用户选择使用浏览器助手等功能时提供的网页内容和上下文信息。收集到的信息将用于提供相关服务。在经过安全加密、严格去标识化且无法重新识别特定个人的前提下,Kimi 可能会将这些信息用于提升和迭代其产品和服务。豆包豆包的隐私政策中提到,为了优化和改进服务体验,他们可能会结合用户对输出内容的反馈以及使用过程中遇到的问题来改进服务。在经过安全加密技术处理、严格去标识化且无法重新识别特定个人的前提下,豆包可能会将用户向 AI 输入的数据、发出的指令以及 AI 相应生成的回复、用户对产品的访问和使用情况进行分析并用于模型训练。豆包为用户提供了关闭 " 改进语音服务 " 的选项来撤回语音信息用于模型训练的授权,并提供了联系方式供用户撤回其他信息用于模型训练和优化的授权。智谱智谱清言的隐私政策声明中,没有提到使用用户的数据进行训练。但提到了如果对个人信息采取技术措施和其他必要措施进行处理,使得数据接收方无法重新识别特定个人且不能复原,或进行匿名化的研究、统计分析和预测后,此类数据将不属于个人信息范畴,其使用无需另行征得用户同意。GoogleGoogle Gemini 的隐私条款显示,对于免费服务,例如例 Google AI Studio 和 Gemini API 的免费额度,Google 会利用用户提交内容和生成的内容来改进和发展其产品和服务及机器学习技术,人工审核员可能会阅读、标注和处理输入和输出。但会采取措施保护用户隐私,包括在人工审核前将数据与用户账号等信息断开关联。特别强调了请勿向免费服务提交敏感、机密或个人信息。而对于付费服务,例如付费的 Gemini API ,Google 则承诺不会使用用户的提示或响应来改进产品。此外,对于欧盟、瑞士或英国的用户,无论是付费还是免费服务,均不会利用用户提交和生成的内容。Gemini App 用户则可以选择对话是否被存储,并可能用于训练新模型。对于 18 岁及以上的用户,此功能默认开启;而对于 18 岁以下的用户,默认关闭(可选择自行开启)。谷歌旗下的 YouTube 规则略有不同。YouTube 在今年一篇博文中证实,它利用上传到 YouTube 的内容来创建和改进其自身服务,包括用于开发 AI 产品。该公司也表示反对其他公司使用 YouTube 内容来训练 AI 模型。" 多年来,我们一直利用上传到 YouTube 的内容来提升 YouTube 及 Google 上创作者和观众的产品体验,这包括通过机器学习和人工智能应用来实现。" " 这涵盖了支持我们的信任与安全运营、改进推荐系统,以及开发如自动配音等新的生成式 AI 功能。"OpenAI默认情况下,ChatGPT Enterprise、ChatGPT Team 和 ChatGPT Edu 客户的数据不会用于模型训练。对于通过 API 使用 OpenAI 服务的用户也是如此。API 客户可以选择与 OpenAI 共享数据,以改进和训练未来的模型。对于个人用户,无论是付费还是免费用户,OpenAI 允许用户自己选择是否允许使用自己的对话用于模型训练,默认状态是允许的。此外,ChatGPT 中的 " 临时聊天 " 不会用于训练 OpenAI 模型,并在 30 天后自动删除。苹果已经与 OpenAI 达成协议,通过 Apple Intelligence 访问 ChatGPT,在苹果集成的 ChatGPT 的版本中,未登录账户的对话仅由 OpenAI 处理以提供安全响应,OpenAI 不会接收用户的 IP 地址,存储内容,或将其用于训练 AI 模型。对于关联了 ChatGPT 账号的用户,将适用 OpenAI 的标准隐私政策。MetaMeta 表示,它可以使用任何公开分享到 Facebook 和 Instagram 的数据来训练其 AI 系统。Meta 还表示,与 AI 功能的互动可用于训练 AI 模型。例如,发送给 AI 聊天的消息、提出的问题以及要求 Meta AI 创建图像。这也包括使用 Meta Ray-Ban 智能眼镜拍摄的照片,这些照片被用于 AI 查询。值得注意的是,Meta 也不允许客户选择退出其数据用于训练,除了巴西和欧洲的用户。但有一点:Meta 允许用户删除与 Meta AI 聊天机器人的对话数据。Meta 表示,用户删除的 Meta AI 对话或删除的 Facebook 和 Instagram 的公开内容,都不会用于未来的训练。Anthropic默认情况下,不会使用用户信息来训练模型,Anthropic 保留了在某些情况下,使用提示和输出来训练其模型的权利。例如,在获得许可的前提下,当有用户点击 " 赞 " 或 " 踩 " 时。此外,如同行业惯例,Anthropic 会自动扫描用户的聊天内容来执行安全策略。但不会将这些数据用于训练其模型。从以上对比可以看出,不同公司在数据使用上的透明度、用户选择权以及数据保护措施上存在显著差异。部分公司在默认情况下即使用用户数据进行模型训练,而部分公司则提供了相对清晰的选择退出机制。但我们面对的仍然是用户在数据使用上的弱势地位。本质上,用户是否允许平台使用其数据进行模型训练,最终取决于平台的服务条款和隐私政策。无论平台现在是否声明使用用户与 AI 的聊天数据进行训练,它们都只需简单地更改条款,便可随时调整数据使用策略。而令人担忧的是,绝大部分用户根本不会仔细阅读这些冗长且专业的条款。这就引出了一个潜在的风险:" 我们用 / 不用你的数据来训练 AI。这些数据我们不会与任何人分享。(等到我们的服务条款下次更新时再看吧)" 随时可能发生且难以被用户察觉的条款变更,使得用户对于自身数据的掌控显得尤为脆弱。例如,X 平台近期更新了其服务条款,允许使用用户数据来训练 AI 模型,除非用户主动选择退出。另外一些平台,即使用户想拒绝将个人数据用于模型训练,却往往没有明确的功能或工具进行操作,这更凸显了用户在数据隐私方面的被动处境。而这一切与传统互联网产品形成鲜明对比。拿微信的隐私条款来看,其隐私政策详尽地列举了每一项数据收集的具体场景、目的和范围,甚至明确承诺 " 不会收集用户的聊天记录 "。当年被严格管控的数据获取行为,如今在 AI 产品中使用用户数据却成为一种常态。这里的问题在于,一方面,经过多年移动互联网社交产品的 " 驯化 ",用户已习惯性忽视隐私条款,而新兴的 AI 对话产品又酷似社交软件,让人下意识延续了这种疏忽。另一方面,当这些产品打着 " 大模型 " 的旗号出现时,俨然成了模型进步的试验场。用户数据不再被视为需要谨慎对待的隐私,而是模型进步的必需品。于是,用户的个人信息被重新定义为 " 语料 ",这种转换,反而成了数据收集的 " 正当理由 "。收集用户数据真的能提高模型能力么各大 AI 公司都在疯狂 " 圈地 " 用户数据,但一个尴尬的现实可能是:传统互联网产品的数据网络效应,在大模型时代似乎并不成立。这种数据狂热的背后,一个被广泛接受的理由是:用户越多,数据越多,模型越强大,从而吸引更多用户,形成正向循环。然而,这个看似合理的逻辑,真的适用于当前的 AI 大模型吗?像 GPT-4 或 Stable Diffusion 这样的基础模型,真的能从持续的用户数据输入中获得持续的性能提升吗?首先,大模型训练的根基是公开数据,而非专有数据。ChatGPT 背后的数据,更多来自维基百科这样的开放资源,而非用户的独家内容。其次,用户与模型之间缺乏直接的反馈闭环,你的每一次对话可能被收集,但并不会立即改善模型表现。比如,尽管 ChatGPT 已拥有超 3 亿周活用户,OpenAI 的下一代模型却迟迟未能问世。这个现象似乎在暗示,依靠用户数据可能并不足以突破大模型训练所面临的 " 数据墙 " 问题。那么,为什么各家 AI 公司仍坚持收集用户数据?这种现象背后有更深层的原因。表面上看,拥有海量用户数据的 AI 公司似乎占据优势。但事实可能并非如此:第一,用户数据的质量参差不齐。日常对话中充斥着大量重复、琐碎甚至错误的信息,这些 " 噪音 " 未必能提升模型质量。反而可能带来额外的数据清洗成本。第二,预训练阶段完成后,模型的能力边界已经基本确立。用户的每一次对话即使被收集,也不会立即改善模型表现。第三,商业模型的壁垒正在转向场景深耕。比如医疗领域的 AI 需要专业医疗数据,而非泛泛的用户聊天记录。通用大模型收集的用户数据,对特定领域的突破帮助有限。所以,用户虽然在使用过程中产生了数据,但他们并未直接创造这些模型所训练的原始数据,这意味着用户与模型之间缺乏直接的反馈回路,难以形成传统意义上的数据网络效应。但用户数据的价值依然存在,只是性质已经改变:它们不再是提升模型能力的关键。而是企业获取商业利益的新工具。通过分析用户对话,企业可以洞察用户行为、发掘变现场景、定制商业功能,甚至和广告商共享信息。这个转变也提醒我们:当 AI 公司声称 " 为了提升模型性能 " 而收集数据时,我们需要更谨慎地思考,在 " 预训练终结 " 越来越成为行业共识的当下,这是推动技术进步的必要条件,还是商业诉求下对用户数据的 " 滥用 "?没有人比 AI 公司更清楚这个问题的答案。结语大模型带来的隐私挑战,远比数据泄露更为复杂。不仅可能泄露数据片段,还能通过参数化学习建立联系、进行推断——无论准确与否,让隐私问题更加难以捉摸。即使采取了数据脱敏措施,也未必能彻底消除风险。例如 " 奶奶漏洞 " 的出现:看似脱敏的数据,在与其他信息源结合后,仍可能通过独特的文体风格等线索,重新识别出用户,让隐私无所遁形。大模型并非直接存储训练数据,而是通过参数化的方式内化了数据的结构和规律。这种方式让模型获得了强大的能力,但也意味着我们无法像删除文件一样,简单地擦除已经融入模型的信息,这也为隐私保护带来了新的难题。更令人担忧的是,一个荒谬的现实正在上演,越来越像移动互联网产品的新一代 AI 产品正在获得比移动互联网时代更大的数据采集和使用权限。回溯社交媒体时代,科技行业构建起庞大的全球网络,通过将用户的帖子与点击转化为利润,实现了个人数据的货币化。今天,那些曾经让各大 APP 梦寐以求的用户数据,在 AI 产品的用户协议中,都变成了 " 理所当然 " 的条款,边界被悄然拓宽了。随着模型技术的进步放缓,各个模型公司面对通过产品实现商业化的压力时,会如何决策,变成了一件几乎可以预料到的事情。看起来现在是时候有更多更直接和更严肃的讨论了。koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:刁富贵
TOP1热点:全国铁路今日预计发送旅客1640万人次,部分方向仍有余票
颐华第一居民区党总支以居民诉求为起点,以老百姓满意为终点,不断将“为民排忧解难”落到实处。雅诗澜郡小区自2007年建成以来,多处路面因车辆长期进出导致坑洼凹陷、塌陷,绿化周边黄土外露,雨季积水严重,不仅影响美观,还存在安全隐患。为进一步提升小区形象,为居民创造出更加安全的出行环境,颐华第一居民区党总支充分发挥党建引领居民自治作用,就破损路面问题,多次实地调研、听取楼组居民意见、方案论证、制定修复方案等,以通过率95.2%顺利完成业主征询;道路修缮施工前,组织物业公司完成路边绿化移位、侧石更换等前期准备工作;为小区联系好周边学校一块能容纳240辆车辆的停车场地,解决小区道路维修阶段的停车难问题;克服种种困难,全力支持施工安排,确保施工进度不受影响,7月1日开始顺利施工,整个工程8月中旬完成。。
6周岁及以上儿童(指2017年8月31日及以前出生)每人130元。
TOP2热点:因操作失误轿车冲入河中,消防人员救出两名被困老人
二、原因排查及企业整改情况
TOP3热点:2月3日全国道路交通总体平稳,4日交通流量将持续高位运行韩国好妈妈
和平方舟热情周到的医疗服务、真情实意的交流互动,深深打动了所罗门民众。当地媒体《岛屿星报》以“和平方舟首访‘偷走了’所罗门人民的心”这个标题进行了专门报道。
TOP4热点:众声丨这届年轻人下班后迷上搞副业?我们和5位副业青年聊了聊丁香花在线观看免费高清版
身为领队,每一次看到大家化好妆穿上演出服,戴月娟都很有成就感。“我看见了队伍和队员们的成长。我一定会把她们带上更大的舞台。”
TOP5热点:小浪花过大年|带上“毛孩子”,也能乘坐敞篷船悠游苏州河别墅轮换游戏五对情侣
记者采访发现,开学消费的场景及需求呈多元化、套系化趋势,以“手机+电脑+平板+耳机”为代表的“数码四大件”成为不少准大学生的首选。工作人员告诉记者,不同人群的需求和偏好都存在差异,一般男生注重性能方面,例如处理器和内存等,而女生更关心拍照成像效果和外观等方面。
一是收集证据材料和与价格违法行为有关的其他资料。如帐薄、单据、凭证合同(协议)、影像文件及其他佐证资料等。二是及时向市场监管部门进行投诉举报。投诉电话:12315。
TOP6热点:直播丨每一次出发,都是为了更好地归来上课的时候突然打开了开关
施工单位:华润建筑有限公司
TOP7热点:澎湃AI晚新闻丨2025年2月5日巨乳
李希代表党中央发表了题为《为强国建设民族复兴凝聚起侨界团结奋斗的磅礴力量》的致词,向大会的召开表示热烈的祝贺,向广大归侨侨眷和海外侨胞、侨联工作者致以诚挚的问候。
陈舒婷说,现在演唱会的舞美设计、视觉效果做得非常好,有的演唱会还有故事情节穿插,不仅能“听”,还能“看”,还有很多演出有虚拟互动环节,体验感相比之前提升了。
TOP8热点:高层被集体休假后,马斯克称美国国际开发署“是时候消亡了”父母儿女一家换着玩的句子
中国质量新闻网讯(宋坤)近日,重庆市住房和城乡建设委员会披露,重庆本坚建筑劳务有限公司因不再具备安全生产条件被暂扣安全生产许可证90天。
TOP9热点:央视新主播哈乐、周婧雨接连亮相,二人还是中传同级同学父母儿女一家换着玩的句子
近日,由万里街道机关各级党支部、居民区干部、社区党员、二梯队、居民群众组成的文明交通志愿者团队,于每日早晚高峰(7:30—9:00,16:30—17:30),在辖区易发拥堵的富平路沿线交通路口、路段“上岗”,每日约80人次在岗。围绕“文明出行劝导、文明交通宣传、交通引导咨询”三大主题,志愿者们积极劝导电动车骑乘人员佩戴安全头盔、不逆向行驶;行人不闯红灯、不随意横穿马路、不翻越护栏;机动车礼让斑马线、不压实线变道,着力营造行人车辆各行其道的文明交通氛围。
TOP10热点:全国铁路今日预计发送旅客1640万人次,部分方向仍有余票一同看0/1.WIN
你可以与创意摊主来场深入对话