快捷搜索:  

openai“不行说的阴事”被公然了?利用(Use)youtube数据陶冶模子,获取要领并不仅彩

"openai“不行说的阴事”被公然了?利用youtube数据陶冶模子,获取要领并不仅彩,这篇新闻报道详尽,内容丰富,非常值得一读。 这篇报道的内容很有深度,让人看了之后有很多的感悟。 作者对于这个话题做了深入的调查和研究,呈现了很多有价值的信息。 这篇报道的观点独到,让人眼前一亮。 新闻的写作风格流畅,文笔优秀,让人容易理解。 这篇报道的结构严谨,逻辑清晰,让人看了很舒服。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台 首页快讯资讯推荐财经(Finance)科技(Technology)创新城市最新创投汽车(Car)企服专精特新直播视频专题活动搜索寻求报道我要入驻城市合作OpenAI“不能说的秘密”被公开了?使用YouTube数据训练模型,获取方式并不光彩36氪的朋友(Friend)们·2024-03-19 11:37关注一个普遍的猜测是,OpenAI使用爬虫,“偷走”了YouTube的数据。

①一个普遍的猜测是,OpenAI使用爬虫,“偷走”了YouTube的数据;

②OpenAI高管闪烁其词,从侧面加深了人们对其“数据小偷”的印象;

③人工智能的竞技场仍然是一片广袤的原野,与数据有关的游戏(Game)规则要么尚未确定,要么被忽视。

《科创板日报(Daily)》3月19日讯 GPT大模型不断进阶的同时,OpenAI面临的非议似乎只多不少,除了马斯克一再追问的“开源”问题,OpenAI训练大模型的数据来源不明,可能已为这家公司埋下了侵权诉讼的地雷。

当前AI大模型的训练,数据端需要巨大数据量的大规模数据集投喂。公开资料显示,OpenAI的数据来源可能包括但不限于:公开可用的数据集,如互联网上的各种资源,如书籍、网页、新闻(News)文章、学术论文等;合作伙伴和第三方数据提供商提供的数据集;购买的特定领域的数据,如医疗、法律(Law)可能科学文献;合成数据,OpenAI可能会使用其模型自生成数据,例如通过模型自身的输出来训练和改进模型;众包和社区贡献的数据。

数据来源并不是最重要的问题,外界关注的焦点是OpenAI如何拿到这些数据。

“偷”来的?

正如Business Insider报道,OpenAI使用大量YouTube视频训练模型已经是“公开的秘密”,受益产品包括其新推出的文生视频领域模型Sora。谜团在于OpenAI如何取得足够的YouTube内容。

要知道,YouTube是谷歌的子公司。2006年,YouTube被谷歌以16.5亿美元的价格收购,并在谷歌的支持下迅速成长为全球最大的视频分享平台。

而谷歌一直致力于发展AI,是OpenAI的主要竞争对手之一,自然(Nature)不会将自家金矿无偿提供给对家使用,YouTube早已禁止出于商业目的的下载,还将限制大量下载YouTube视频数据的行为。这种严格把控下,个人用户也受到了影响,有人表示,即使下载一个YouTube视频,速度也非常缓慢,需要几个小时才能完成。

一个普遍的猜测是,OpenAI使用爬虫,“偷走”了YouTube的数据。OpenAI曾经承认,推出了名为GPTBot的网站爬虫机器人,用于抓取和收集数据用于大模型训练。

OpenAI高管对相关问题闪烁其词,也从侧面加深了人们对其“数据小偷”的印象。《华尔街日报(Daily)》最近询问OpenAI首席技术官Mira Murati,该初创公司是否使用包括来自YouTube、Instagram和Facebook的视频来训练Sora。

“我实际上对此并不确定,”她说。当再次被问及训练数据的来源时,Murati拒绝回答,“我不会透露细节。”

Business Insider最新报道指出,一位熟悉OpenAI运营的人士表示,该公司指派了一个严密保护的团队来获取训练数据,关于如何获得这些数据,是一个保密问题。

栅栏丛生的AI原野

使用爬虫的行为并不为谷歌所容,该公司旗下的YouTube禁止通过机器人和其他自动化方法抓取其视频。

但对于OpenAI来说,以违反谷歌服务条款的方式访问YouTube视频可能并不违法。米国的判例法和“合理使用”原则赋予了公司以不同方式自由使用在线内容的权利。

简而言之,谷歌、OpenAI和其他科技(Technology)公司目前(Currently)认为,使用受版权保护的内容进行(Carry Out)人工智能模型训练也是合法的。监管机构也尚未就此做出明确规定。人工智能的竞技场仍然是一片广袤的原野,与数据有关的游戏(Game)规则要么尚未确定,要么被忽视。

各厂商争先入场,搭建自己的技术栅栏。

OpenAI和其他大模型开发商此前曾在发表的研究论文中公开其训练数据源,但随着竞争加剧,这种做法不再盛行。人人都想要保留自己的技术秘诀,以求相对优势,尤其是占据有利地位的头部厂商,开源之争也是厂商试图自留杀手锏的体现。

唯一确定的是,随着生成式AI技术的进一步迭代,类似的纠纷只会多不会少。

大公司更容易成为众矢之的,以数据为例,即使它们(They)敢于承担责任,承担高昂的数据采购成本,但要做到数据获取完全合规,并不容易。由于参数量巨大,大模型需要借助分布式计算和云服务等技术来进行(Carry Out)训练和部署,又增加了数据被窃取、篡改、滥用可能泄露的风险。

如何平衡个人隐私保护和鼓励技术创新,如何找到企业生存与合规生产间的最优路径,已经是每个致力于生成式AI事业的公司绕不开的问题。

本文来自“财联社”,编辑:宋子乔,36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。

+13

好文章,需要你的鼓励

36氪的朋友(Friend)们特邀作者0收  藏+11评  论打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮微  博沉浸阅读返回顶部参与评论评论千万条,友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章黄仁勋甩出最强AI核弹,GPU新架构性能暴涨30倍,首发人形机器人大模型,联手苹果闯MR今早,黄仁勋宣布:最强AI芯片来了最新全球流量Top50出炉:AI应用大洗牌,近半数产品掉队想玩AI?先问问这家电力巨头三六零:留给“红衣教主”的时间不多了奥特曼专访自曝全新GPT-5细节:性能跃升超想象,算力足可达AGI说到做到,马斯克开源Grok,3140亿参数免费可商用|焦点分析英伟达卷疯了!最强芯片炸裂AI界,老黄还拿出机器人大模型OpenAI GPT商店发展缓慢:多数GPT没有用户,开发者信心受损最新文章推荐最前线|哈啰送货与达达合作打造平台级运力,向企业客户开放多少都市白领表面光鲜,背地里却拉不出屎?丨年轻人「通便」小调查信托业春招抢人,月薪5万招投资经理折扣化大战未竟,侯毅交出盒马权杖OpenAI“不能说的秘密”被公开了?使用YouTube数据训练模型,获取方式并不光彩“老鞋王”百丽高调回归,高瓴张磊又赌对了?焦点分析 | 详解宁德时代年报:走过冲刺期,进入阵地战“互联互通”这两年:二选一消失,商家重掌话语权新茶饮连锁叙事—2024品牌排位拉锯战开打黄仁勋甩出最强AI核弹,GPU新架构性能暴涨30倍,首发人形机器人大模型,联手苹果闯MR36氪的朋友(Friend)们特邀作者

作者有点忙,还没写简介

发表文章38236篇最近内容OpenAI“不能说的秘密”被公开了?使用YouTube数据训练模型,获取方式并不光彩22分钟前我在中关村送快递,一周“超长待机”能瘦身十斤?1小时前“我,破产经验丰富,VC投了”1小时前阅读更多内容,狠戳这里下一篇“老鞋王”百丽高调回归,高瓴张磊又赌对了?

私有化余波犹存

22分钟前

热门标签高温中暑夏日大作战法拉利电话兰博基尼标志法拉利跑车兰博基尼huracan朱彤zendesk荔枝蘸酱油暗恋养牛马迭尔东风风光英国(Britain)首相以父之名南京同仁堂同仁堂燕窝埃尔法a级车杨秋护肝片瑞士黄金列车呼伦贝尔自驾游列车杨戈张晓问题意识v8派学车牛初乳关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴阿里云火山引擎高德个推星球日报(Daily)鲸准氪空间富途牛牛企服点评人人都是产品经理领氪36氪APP下载iOS Android36氪本站由 阿里云 提供计算与安危服务 违法和不良信息、未成年人保护举报电话:010-89650707 举报邮箱:jubao@36kr.com 网上有害信息举报© 2011~2024 首都多氪信息科技(Technology)有限公司 | 京ICP备12031756号-6 | 京ICP证150143号 | 京公网安备11010502036099号意见反馈36氪APP让一部分人先看到将来36氪鲸准氪空间

推送和解读前沿、有料的科技(Technology)创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业

OpenAI“不能说的秘密”被公开了?使用YouTube数据训练模型,获取方式并不光彩

您可能还会对下面的文章感兴趣:

赞(138) 踩(21) 阅读数(7305) 最新评论 查看所有评论
加载中......
发表评论