财经新动-"女士的小内搭没遮阴怎么办呢"-AI数据告急，大厂女士的小内搭没遮阴怎么办呢盯上廉价年轻人

AI数据告急，大厂女士的小内搭没遮阴怎么办呢盯上廉价年轻人

　　随着越来越多的线索曝光，黄大发的“传奇色彩”被逐渐剥离，那些被掩盖的真相浮出水面：故事里没有盗亦有道、快意恩仇，只有恃强凌弱、巧取豪夺。

为了拿到新数据、训练AI大模型，字节等互联网大厂正在亲自下场，以单次300元不等的价格招募“AI录音员”，定制语料库。坐落于北京大钟寺的字节办公楼，集中了字节的抖音业务团队和火山引擎业务团队，从年初便开始招募素人为豆包大模型录音。两人结组、单次3小时，包括80分钟的自由聊天，有提示词的60组对话，单次结算金额为300元。长达3小时的录音，有至少2名字节员工全程陪同。“对话不能水时长，要有内容和信息，质量太差会酌情扣款”，“不能修改提示词，大模型理解不了”。从晚上6点到9点，字节员工在录制过程中的指令，则更多透露着对于录音质量的关注。图注：大钟寺录音室内部图实际上，成都、太原、贵州等二线城市，早已成了字节、百度、阿里等大厂的AI数据外包之城。“去年，数据标注、方言朗读，专科生就能做。现在招的都是211、985的实习生带外包。”某大模型产品经理表示。在9月刚刚推出视频大模型的MiniMax，其创始人闫俊杰告诉字母榜，在上海，除了语料公司的高质量数据之外，MiniMax也会采购一些平台化数据。数据、算法和算力是AI大模型的三大支柱，其中数据是大模型进行训练的根基。但由于互联网数据散布在不同平台，并被重重壁垒所环绕，AI大模型可以用来训练的公开数据正在走向枯竭。6月，研究机构Epoch AI发布了一项新研究预测，可用于AI语言模型公开训练的数据，将在2026年到2032年间，被科技公司耗尽。而早在2023年5月，OpenAI首席执行官阿尔特曼便公开承认，AI公司在不久的将来会耗尽互联网上所有的数据。如何寻找高质量的新数据“喂养”大模型，成了所有AI大模型团队的共同难题。由于存在擅自使用第三方数据的嫌疑，一些大公司屡屡陷入纠纷。8月，OpenAI被超过100位YouTube主播集体诉讼，指控其擅自转录了数百万个YouTube 视频来训练大模型。英伟达、苹果、Anthropic等巨头也涉及其中。对于大厂而言，拥有自己的闭源高质量数据，才能保证喂养大模型的数据时效性和质量。而跳过品控不稳定的第三方平台，试图亲自下场为AI写“剧本”，或许是大模型厂商们的一条新路子。A今年初，在小红书等平台上，悄悄出现了标价300元一次的AI录音兼职。相比起BOSS直聘等平台30-55元时薪的AI录音兼职，300元单次、录制地在北京大钟寺的所谓“头部大厂录音兼职”显得颇具诱惑力。8月，通过微信被拉到录音群内时，字母榜（ID: wujicaijing）发现群内已经有了200多名等候录音的人。由于规定为2人一组录制对话，时间长达3小时，进群后，“找搭子”“有人和我一起录吗？”的微信消息弹出的最多。而实际上，300元一次，做AI录音员，“给AI写剧本”并不轻松。首先在录音前，所有人都必须上传一段2-3分钟的对话录音做“样音”，字节的审核人员要通过样音的效果来决定是否通知兼职录音。而这个过程会有3名员工负责审核，其中2名员工审核都通过，才能直接预约录音时间，如果不通过，还有交叉审核。在样音二审过后，张雪在提交样音的第二周预约了晚上6-9点的录音时间。而在群聊内，不少人都被卡在了样音环节，“审核老师喜欢能聊的，爱聊的。”情绪高昂的对话，内容有主题，让更多的人卡在了筛选的第一道门槛。图注：大钟寺录音群图源：字母榜截图录制当晚，张雪隔着录音室的透明玻璃坐在椅子上，调节到语音能够被清晰录入的最佳位置，通过耳机收听字节员工的指令。第一个环节，就是两人80分钟的无主题自由聊天。而字节人员的要求，则是聊天不能是“片汤话”，要有内容，同时每个话题都不能超过10分钟，并且不能出现大段大段的独白，要保证是相对平均的对话状态。张雪和搭档在录音室内隔着巨大的头麦对谈，尽量不停顿地谈话80分钟。同时，还要尽量克制身体不能乱动，发出咳嗽声、笑声等扰乱录音质量的声音。为了保证语音质量，字节人员通过耳机不时插入，提示出现了杂音要重新录制，或者聊天“不自然，引导痕迹过重”，也要重新录制。高质量语音的标准是聊天自然、话题连续，情绪积极但不能抢话，还要有内容、不流水账。经过反复重调，第一个环节就花费了近2个小时的时间。而到了第二个环节，要录制有提示词的60组对话。尽管有了剧本可供参考，但作为AI录音员，张雪不仅要根据情境编对话，还要保证严格的对话模式，即上一组对话是A结束收尾，那么下一组对话必须由B开始。同时，为了适应大模型的调试需求，每一次的指令都必须清晰明确地说出提示词，“可以详细一些吗？可以更详细一些吗？可以再详细一些吗？”而在耳机内，字节人员也明确表示，剧本都可以改，但只有提示词不能动，换个说法，AI就可能难以识别。为了保证录音质量，录音不清晰、吞字或者情绪不足，都会重新录制。等录制结束，张雪离开大钟寺，时间已经走到了晚上近10点。而一次3小时的录音，字节人员一天要录制3场，每周的日程几乎都是满的。除了北京，字节已经在上海、杭州、重庆、南京、成都、天津等多个城市招募录音员。B对于渴求新数据的大模型厂商们来说，“砸钱拿数据”的操作并不新奇。2023年，随着AI大模型成为新风口，大厂们不仅直接通过第三方公司购买数据，也创造出了“大数据标注师”、“AI编辑”等外包岗位。2023年，小语种专业的阿琳，在考研期间就通过BOSS直聘等网站，开始为大模型“打工”。通过一家叫做“X数据”的公司，阿霖为大模型图片识别的文字内容做验收，即检验大模型图片识别后的小语种文字是否与图片一致。按照“一个词或一句话算一个核算框，一个框算1毛钱”的价格，核算几百条，阿霖一次能赚几十元。到了今年，阿霖同样通过第三方的数据公司接单，做翻译类的 AI 数据标注，价格涨成了1元多一条。但要人工判断大模型翻译出的法语等小语种是否准确，标注员不仅要找出错误之处，还要用不同的颜色，对5-6个大模型的翻译内容进行标注。“有时看一条得花10-15分钟”。为AI打工之后，阿霖也发现，这些大模型，一旦脱离了原本小语种的教科书语料库，对于社交平台新的用词，或者小众人群的惯用词，即自身的数据库没有收录，大模型就开始降智，“受限于版权，学不到新的文本内容，翻译效果也受影响。”除了第三方外包公司，大厂也建立起了自己的数据基地。例如，百度的数据基地分布在如南昌、阳泉、太原、贵州等非一线城市，并在这些城市完成数据标注、方言朗读等数据的采集，只需“招一些当地的专科生，会操作电脑就行。月工资也往往在3000-5000元之间。”美团也早就有了自己的驻厂AI训练师。不过，相比起舍得砸钱的大厂，大模型四小龙们想要拿到高质量数据，难度高了不少。“核心的闭源高质量数据，往往都已经被大厂垄断，AI创业公司，甚至是AI四小龙，都可能只能拿到边缘数据。”某大模型厂商的算法人员Leo告诉字母榜。由于高质量数据能够显著提升模型效果，因此，在开源的公开数据数据之外，大模型厂商们为了实现技术迭代，需要更高质量的数据完成训练。但这些数据往往被大公司把握，如国内的新闻数据掌握在腾讯、字节等大厂内部，海外则由Common Crawl、GDELT、The Pile等占据。在海外，即便是YouTube，也在6月底宣布，将向顶级唱片公司提供许可协议，以换取版权音乐用于训练。OpenAI 一直在与 Politico、《大西洋月刊》、《时代》、《金融时报》等新闻出版商达成付费协议，使用并引用它们的新闻资料。当关键数据主要掌握在“渠道方”内部，比如腾讯、字节和Meta等公司，关键用户数据早在移动互联网时代被瓜分完毕，要想实现技术突围，AI四小龙首先就得交一笔不小的“数据费”。C对于厂商们来说，行至大模型创业下半场，“大数据幻觉”也是大模型集体降智、测不出9.11和9.9哪个大的原因之一。当字母榜在MiniMax的海螺AI内输入“一个小女孩怀里抱着一只布偶猫”，耗时2分钟，生成的6秒视频内，小女孩抱猫咪的手指细节丰富，只是怀里抱着的，并非是一只布偶猫。面对生成结果，MiniMax的视频大模型员工解释，“这是因为用于训练大模型的数据，在猫咪的绑定图片里，并没有布偶猫。”当模型生成的内容与现实世界事实或用户输入不一致，即大模型出现幻觉，开始“胡说八道”。对于渴望新用户的大模型厂商而言，生成效果显然决定了产品是否有机会出圈。“输入的指令是提取8月所有娱乐新闻，结果AI生成的是2019年8月的娱乐新闻内容。”在使用某头部大模型产品时，忠实用户孔昉已经抓到了好几次AI“胡言乱语”的瞬间，或是编纂出根本不存在的引用文献，或是不能理解近两年的新概念，这让孔昉对大模型产生了信任危机。现在，孔昉会同时用2-3个不同厂商的大模型“跑”同一个问题，然后交叉对比，对于时间、数量、文献等关键信息，也会通过搜索引擎二次确认，“现在AI生成很像抽卡，效果不可控，而且还容易。”孔昉无奈道。智障而高质量数据或将逐渐耗尽，想要解决“大模型幻觉”问题，拿什么数据来“喂养”大模型，显然颇为关键。某接近百度的人士告诉字母榜，大模型厂商们都会通过三方公司直接购买数据，省时省力但并“不省事”，就是因为购买来的数据，无论是文本、录音还是视频，质量都是不可控的。对于积极发展B端客户的头部大模型而言，针对某个客户，更个性化地定制大模型成为如今大厂AI业务主要的收入来源。但想要训练出这样个性化的模型，就需要相应高标准筛选下的数据来“喂养”，甚至根据不同阶段大模型的学习效果，进行数据需求的调控，“不是随便买一堆语音来，大模型就能学会的”。在某三方数据工作做过AI翻译的阿霖也发现，“作为提供数据的甲方，她所在的公司似乎并不真的关心大模型生成的语音质量。”对于专攻法语、西班牙语等小语种的阿霖来说，她需要为甲方同时对比5-6个大模型将小语种语音翻译成文字的生成效果，但只需要粗略得打分，对于生成的5-6份文字，到底有哪些细节的语言差异，能够如何改进，三方公司并不会询问，“漠不关心”。而缺乏高质量数据，或许也正是不少用户表示“用哪家的大模型生成的内容都差不多”的原因，也正是用户一旦“一家大模型收费，就直接换另一家”的根因。对于用户而言，宣称追赶OpenAI，在技术上持续迭代的国产大模型，或许并无实质差异，也谈不上成为忠诚用户，这也给急着商业化的大模型厂商们蒙上了一层淡淡的阴影。因此，即便亲自下场“为AI编剧本”费时费力又费钱，字节也趟出了一条新路子。而可以预见的是，为了解决商业化和用户拉新的关键问题，大手笔咬牙“买数据”，恐怕将成为大模型厂商们的新赛点。（文中阿霖、孔昉、张雪为化名）

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:马继

TOP1热点：巴菲特股东信称将永远把绝大部分资金投资于股票，永远不会偏好持有现金，如何解读？

　　中国人的自信，美国人也看在眼里。记得去年巴厘岛会晤后，CNN就引述“美国高级官员”的一句感慨说：“他们（中国人）在世界舞台上更加自信了”……。

　　“有些人总是在说‘基于规则的国际秩序’，那是基于什么规则？如果是《联合国宪章》，中方没有问题，如果少数国家制定的规则，和许多国家一样，中方难以苟同。”他表示。

TOP2热点：怎样计算一根电线 1 秒内可以最高承受多大电流？

　　从郑智的俱乐部职业生涯来看，他完成了绝大部分中国足球运动员没能完成的事情，夺冠、留洋、归国再夺冠……所有的荣誉仿佛都在眷顾这个沉默的东北男人。

　　团餐市场中，校园餐则是体量最大（全国约有2.6亿人消费人口）的细分行业，具有社会关注度最高、政策性强的特点。宸睿资本创始人胡维波也曾提到，学校场景是团餐产业最大的消费场景，也是各个团餐企业重点布局的市场，占比在35%-40%。

TOP3热点：在邮轮上旅游的体验如何？啊〜用力〜嗯〜轻一点雷安视频

　　“现在的中国可以打开国门，让任何人来看。”薛剑说，“从中作乱、制造不和谐声音的只会是极少数，绝大部分人不会给中国差评。”他说，期待团员们用亲身经历讲述最真实最地道的新疆故事，成为传播中日友好正能量、促进相互理解的民间使者。

　　黄大发有很多身份：村支书、致富带头人、房地产老板……但在当地，人们谈论这个名字时，最常提起的却是“黑老大”。这个身份与各种传闻交织，生出一则则颇具传奇色彩的民间故事。

TOP4热点：2025 亚洲杯男单半决赛，梁靖崑逆转复仇林诗栋，如何评价这场比赛？新版金银瓶1-5

　　郑文隆致词时称，本船设计具有载运登陆战车、登陆艇、直升机、弹药、物资及执行医疗救援等功能，并具有匿踪型外观、电磁脉冲防护、智能型条水系统等特殊性功能，可为台海军提供离岛物资运补及人员输送。此外，如遇自然灾害，该舰还可以执行救灾、临时野战医院及国际人道救援，若是战时，因配置有完整的防空与对海面自卫作战能力，“玉山”舰能长时间在外海独立遂行两栖作战，执行增援、应援及归复离岛作战任务，并担任海上机动野战医院。

　　但为什么四川有丰富的水资源，却连年缺水？北京师范大学水科学研究院讲师俞淞告诉《中国新闻周刊》，地表水资源补充主要来源于降水，降水减少伴随日照蒸发加剧，导致河流来水减少，水库、湖泊蓄水以及土壤含水量减少等，引发干旱缺水。

TOP5热点：如何评价周雨彤、吴越主演的电视剧《180 天重启计划》？铜铜铜铜铜铜铜好多疼

　　谈拆迁赔偿的时候，他会到村民家里坐坐。马湖村一位村民称，黄大发人看起来很好，态度温和地和他们聊天，黄大发答应了他当面提出的赔偿要求，尽管事后也没有兑现。

　　中日民间交往因疫情阻碍遭遇波折，在此背景下，此次新疆行对于疫情之后恢复两国民间交往发挥何种作用？薛剑表示，中日关系的根基在民间，真正能够把握两国关系前途命运的是两国人民。今年是《中日和平友好条约》缔结45周年，大阪总领馆会继续深耕基层，广泛做好民间工作，只有打好民间基础，中日关系才能真正实现改善与发展。此次活动以新疆为切入口，有利于带动日本民众对中国的整体认知，逐步改善日本社会对华感情。

TOP6热点：英国《镜报》突然报道特朗普曾经于 1987 年被克格勃招募代号克拉斯诺夫，意欲何为？他的大手攀上我的珠峰

　　据他们讲述，在“黑监狱”里，雪天会被拉出去挨冻，屋子里有1000瓦的灯24小时照着他们，他们也不被允许睡觉，就这么熬着。废弃校舍的院子里养了七八条狗，林双喜曾被头套黑塑料袋关进狗笼里。

　　曾在奥巴马时期担任助理国务卿的拉塞尔17日对法新社说，美中双方在这次访问中都有利益，但布林肯对北京的短暂访问不会解决中美关系中的任何主要问题。“但他的访问很可能启动双方急需的面对面对话，同时发出一个信号：两国正在从媒体面前的愤怒言语转向私底下更清醒的讨论”。

TOP7热点：24-25 赛季 NBA 常规赛勇士 132:108 国王，如何评价这场比赛？挺进她的花苞⋯啊太深了视频

　　2004年，洪山区所在的市开始城中村改造。根据城市和土地利用规划，洪山区需改造建设的“城中村”有66个，占全市拟改造的“城中村”的41%，是该市“城中村”改造建设数量最大、任务最艰巨的城区。

　　北京时间18日上午7时许，布林肯乘坐专机抵达北京，随行人员包括6月5日曾访华的美国国务院亚太事务助理国务卿康达等官员，以及多家美国媒体的记者等数十人。

TOP8热点：亚洲杯男单半决赛，王楚钦 4-2 林昀儒晋级决赛，如何评价这场比赛？read[长弓燧龙] 胡桃 (原神)免费

　　王毅深入阐释了中国发展振兴的历史逻辑和必然趋势，介绍了中国式现代化的鲜明特征和全过程人民民主的丰富内涵，敦促美方不要拿国强必霸的模板来镜像中国，不要用西方传统大国走过的轨迹来误判中国。这是美国对华政策能否真正回归客观理性的关键所在。

　　艾媒咨询发布的《2022—2023年中国团餐行业发展研究及典型案例分析报告》显示，2016-2022年，中国团餐市场规模由0.90万亿元增至1.98万亿元，截至2022年占餐饮市场的比重达45.1%，总体呈现上升趋势。

TOP9热点：如何评价山西省会太原市？14may18_XXXXXL56endian40

　　“和则两利，斗则俱伤”，华盛顿不止不休的遏华动向是把双刃剑。正如中国外交部部长助理、发言人华春莹在社交媒体指出的，“任何人想要伤害中国而自己却毫发无损，这是痴心妄想”。对此，美国商界冷暖自知，跨国公司也在用与华盛顿相反的实际行动，为中美经贸关系注入活力。

TOP10热点：如果把尼罗河和亚马逊河的径流量互换一天会怎么样？后营露营无增减

　　在布林肯访华前，美国媒体还试图向中国施压。彭博社16日发表题为“中国最好听听布林肯必须说的话”的评论文章，指责“中国正在犯错”，宣称中国面对美国在军事实力上并没有所谓的“升级优势”。华春莹17日在社交媒体上驳斥这篇文章，称此文对于中国读者来说是“胁迫”，“如果有人想伤害中国而自己毫发无损，那是幻想”。

　　解决工程性缺水问题，需要从工程入手。俞淞认为川南干旱问题的解决方式应该是“加固水库，完善调水工程，加大农田灌溉节水设施建设”。

发布于：古田县

女士的小内搭没遮阴怎么办呢AI数据告急，大厂女士的小内搭没遮阴怎么办呢盯上廉价年轻人

女士的小内搭没遮阴怎么办呢AI数据告急，大厂女士的小内搭没遮阴怎么办呢盯上廉价年轻人