“数据荒”拦路AI训练,海外科技巨头招式频出,无所不用其极!
2024-06-08 【 字体:大 中 小 】
作者:赵雨荷
来源:硬AI
在AI迅猛发展的大潮下,新闻报道、虚构作品、留言板帖子、维基百科文章、计算机程序、照片、播客和电影剪辑等网络数据,越来越成为人工智能行业的命脉。因为创建创新系统取决于拥有足够的数据,教会AI即时产生类似人类创作的文本、图像、声音和视频。
有研究显示,科技公司可能在2026年前就用完互联网上的高质量数据,因为这些公司使用数据的速度比产生数据的速度快,情况已经非常紧急。
为了应对这一问题,包括OpenAI、Google和Meta等海外科技巨头在搜集数据方面,已经“无所不用其极”,有的甚至开始忽略公司政策以及规避隐私法律。
OpenAI:转码Youtube、“合成”数据据报道,目前AI领域的领头羊OpenAI在2021年末,已经耗尽了互联网上所有可靠的英文文本资源,需要更多数据来训练下一个版本的技术。当时,OpenAI的研究人员创建了一个名为Whisper的语音识别工具。它可以转录YouTube视频中的音频,生成新的对话文本,使人工智能系统更加智能。
尽管这样做可能违反YouTube规则,因为YouTube禁止用户将其视频用于“独立”应用,还禁止通过“任何自动化手段(如机器人、僵尸网络或网络抓取工具)”访问其视频,但OpenAI的团队转录了超过一百万小时的YouTube视频。然后,这些文本被输入到GPT-4的系统中,成为最新版本ChatGPT聊天机器人的基础。
媒体报道,OpenAI的员工知道他们正在涉足法律灰色地带,但他们认为用视频训练人工智能是合理使用。知情人士说,OpenAI的总裁格雷格·布罗克曼(Greg Brockman)就亲自帮助收集YouTube视频数据,以此为基础领导了开发GPT-4的团队。
数据紧缺的问题,也让OpenAI正在开发“合成”数据,即人工智能模型产生的文本、图像和代码,而非人类创造的数据。换句话说,这些系统从它们自己生成的内容中学习。
OpenAI创始人Sam Altman此前说,“合成”数据可以创造额外的数据来开发更好的AI版本,并减少他们对受版权保护数据的依赖。
但有分析认为,建立一个可以自我训练的AI系统说起来容易做起来难。从自己的输出中学习的AI模型可能会陷入一个循环,其中它们加强自己的怪癖、错误和限制。为了应对这一问题,OpenAI和其他机构正在研究如何让两个不同的AI模型一起工作,生成更有用、更可靠的合成数据。一个系统产生数据,而另一个系统判断信息,以区分好坏。研究人员对这种方法是否有效意见不一。
谷歌:修改隐私政策 扩大数据来源尽管一些谷歌员工知道OpenAI已经收集了YouTube视频的数据,但他们没有阻止OpenAI,因为谷歌也使用YouTube视频的转录文本来训练其人工智能模型。这种做法可能侵犯了YouTube创作者的版权。因此,如果谷歌对OpenAI大做文章,可能会引起公众对其自身方法的抗议,人们说。
去年,Google还扩大了其服务隐私条款,允许Google能够使用公开可用的Google Docs、Google Maps上的餐厅评论和其他网上材料,为更多的人工智能产品提供支持。
此前,谷歌的隐私政策规定,公司只能使用公开信息来“帮助训练谷歌的语言模型并构建功能,如谷歌翻译”,但新条款使谷歌可以利用这些数据为其“人工智能模型及构建产品和功能,如谷歌翻译、Bard和Cloud AI功能”。
Meta:版权问题上或铤而走险在AI领域一直处于追赶状态的Meta,去年初遇到了与其竞争对手相同的障碍:数据不足。
有媒体报道,Meta的生成式人工智能副总裁Ahmad Al-Dahle告诉高管,他的团队几乎使用了互联网上所有可用的英语书籍、论文、诗歌和新闻文章来开发模型,除非获取更多数据,否则Meta无法与ChatGPT匹敌。
但要想获得更多数据,版权保护的问题是躲不掉的。该公司去年讨论了购买出版社Simon & Schuster以获取长篇作品,他们还讨论了从互联网上收集版权数据的可能性,即使这可能意味着面临诉讼,因为与出版商、艺术家、音乐家和新闻行业协商许可证需要的时间太长。
有媒体透露,有Meta高管认为,OpenAI似乎在未经允许的情况下使用了受版权保护的材料,Meta也可能会跟随这一“市场先例”。
根据内部会议录音,Meta的高管们同意依据2015年关于作家协会对谷歌的法庭裁决来操作。在那起案件中,谷歌被允许扫描、数字化并在在线数据库中编目书籍,因为谷歌争辩说它仅在线上重现了作品的片段,并转化了原作,这构成了合理使用。
风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
猜你喜欢
729—秋末悔城:金价止跌重回修正!日K趋势再收震荡!
9951
摩尔缠论9——线段顶底职业交易四法则
8737
家有“吃手宝宝”,别忽视,这些原因和对策要知晓_安全感_妈妈_行为
4383
财面儿丨融创房地产被强制执行28亿元
8173
老师会的舞蹈种类越多越厉害你知道如何选择老师吗?
2862
未来10天,天降大喜事,意外之财接踵而至,财运最好的三大星座,年初旺到年尾
1480
【午报】37股涨停!深海科技反弹 神开股份涨停
9522
4月22日北向资金最新动向(附十大成交股)
244
新增21家5A景区!5A还是“金字招牌”吗?
2666
假面骑士Gavv剧场版特典汇总,三妹游玩大阪世博场馆_电风扇_一面_场景
3468
卞志村:多举措提升支付便利
医生:一旦被查出肺癌,5件事万万不能再做了,小心病症迅猛恶化_患者_细胞_肿瘤
4月23日周大福黄金价格1082元克
辟谣!“成立数字人民币银行、招募数字人民币推广员”系谣言
大族激光获得外观设计专利授权:“激光器”
景区85平商铺年租金260万,合不合理市场说了算_游客_天价_商家
妲己为何会变得残忍无比?原来都是他们逼得,只能主动出击_纣王_女娲_白骨
瑞银同意支付511亿美元 以了结美国国税局的税务调查
一图解读美联储3月决议:继续“按兵不动” 年内仍有望降息2次!
邦达亚洲 美联储官员发表鹰派言论 美元指数冲击10400
