尽管信心满满,但能够这么顺利的就取得橘子大模型的源代码,还是让Madeline喜出望外。
千寻的安全部门手里有大量的0day漏洞(被黑客发现的,开发者和用户不知道的漏洞),他们所制作的木马就是利用了linux系统中的几个0day漏洞来远程执行代码并获取权限。
千寻根本没有等太久,那个加密包第二天就被柚子科技解密调用了,里面果然是橘子大模型内测后的修复版本。
吴恩德离开后,接替他工作的傅远生虽然满嘴军令状,但心里其实还是忐忑的。
他是内行,虽然此前没有接触过橘子大模型这种类型的神经网络,但BP、LSTM、CNN、RNN、DNN、Seq2Seq等模型还是玩的很熟的。
无论什么神经网络,本质上都没有删除数据这么一说,只能重新训练。
深度学习并不是把数据资料存在某些地方供神经网络调用,而是让神经网络“学习”这些内容,学习后的东西会导致“神经突触”的变化,而大模型的“神经突触”,就是所谓的“参数”。
这些参数的数值变化和相互的连接,就像人类学习的时候神经突触的连接一样,意味着大模型真正“掌握”了训练的知识。
比如一个参数13B(130亿)的大模型,存在一块硬盘上,可能大小有20个G。
让它接受2个T的数据训练后,可能它的大小还是20个G。
大小没有什么变化,但这2个T的资料它却已经完全掌握了。
但既然是模仿人类神经形成的人工智能模型,其实也存在了人类智能的某些问题。
比如说“遗忘”的问题,就是明明学了,过一阵时间之后却发现AI把学过的东西忘了。
AI过度训练后,可能会出现对新数据“想当然”的现象。
就像人类面对新生事物时,明明什么都不明白,却用过往经验进行解释,这在AI领域中叫“过度拟合”。
一堂课老师讲了半本书,前三页你还能听明白,到后面就是听天书,对于AI来说,就是“信息过载。”
人类接触到的信息是片面的情况下,就会导致认知偏差,AI的数据如果集中存在某一种意识形态的内容,同样会导致认知偏差。
林林总总。
更有甚者,原本是个好模型,别人训练都没事,你来训练,要么无法收敛得到结果(可以理解为学不会),要么灾难性遗忘,要么梯度爆炸或消失。
在架构和参数没有太大改动的情况下,能不能训练出可用的大模型,甚至是一门玄学。
AI的训练与调优充满了复杂性和不可预测性。
有时候,一个微小的参数调整或数据处理步骤的变化,就能导致训练结果的巨大差异。
就算傅远生严格按照科学的方法调整超参数,精心选择数据集,并使用最先进的硬件设备,但他仍旧没有足够的信心在短短的一两周时间内,把橘子大模型重新训练一遍去除柚子科技的所有痕迹。
但成了的话,自己可就是AGI之父啊!
升职加薪啊!
成为世界第一的AI权威啊!
又有几个人能抵挡这样的诱惑呢?
而且千寻早就准备好了,如果柚子科技那边反击,甚至放出橘子大模型是他们自我研发的实锤,千寻也不怕。
掌握了十几亿经费的公关一号位可不是吃素的!
哼!
入关之后,自有大儒为我辩经。
先搅浑水,过上半年再持续的岁月史书,柚子科技没多久就成了历史笑柄了!
傅远生实际上手之后,更是喜出望外感觉自己天命加身。
这个橘子大模型和柚子训练框架太踏妈好用了。
无论用什么策略调整参数,几乎训练效果都很好,效率奇高。
应该三天就能完成一轮训练。
公测版本的橘子大模型相较内测版的130亿参数又做了倍计的提升,足足有1500亿的参数。
傅远生指挥自己三个忠实走狗,四个人开始关在小黑屋里闭关,一边去除橘子大模型内的柚子科技的痕迹,针对性的调整参数,一边进行重复训练,尽可能的覆盖这个大模型原本学习的知识。
尤其是那种“你是谁创造的?”之类的问题,必须对大模型进行监督学习,让其遇到类似的问题都能回答是“我是‘闻君一言’,是一个AI助手,千寻公司创造了我。”
或,“千寻的天才工程师们日以继夜的工作和努力,才让我和你见面,开心吗?”
为了彻底避免问题出现,傅远生他们甚至把“柚子科技”、“柚子”及能够联想到的其他词语都作为禁词,禁止修改后的“闻君一言”在任何方式下提及到。
当然,这仍然不能彻底解决问题,不过没关系,千寻只准备公测三天,三天后,马上就宣布公测结束,系统升级,剩下的时间慢慢搞。
总是能把这个问题解决掉的。
傅远生熬夜熬的眼珠通红,这是累红的吗?
不,这是被我那红彤彤的前程照红的!
——
柚子科技官方微博的表态,让所有吃瓜群众都觉得不明所以。
那句有意思还能够解释为反击的话,上面贴的那张集体穿着魔法袍的团队照片什么意思?
想对千寻用个阿瓦达啃大瓜?
你就是当事人啊,啃什么瓜?
看到柚子科技官方发的微博,估计是做贼心虚,千寻管理层几乎全体出动,纷纷开始阴阳怪气起柚子科技。
牛亮,微博认证千寻金融服务事业组副总裁:“难以理解什么样的智商,会相信一家成立不足一年的小公司能够改变世界。”
荆浩,微博认证千寻江米总经理:“十年磨一剑,为千寻点赞,我们永远都是那个追求技术与梦想的少年!@Robert李”
袁山君,微博认证千寻营运副总裁:“童话很美好,但可惜,现实世界不相信童话。千寻从3057年就已经在AI领域每年至少投入上百亿,到如今终于开花结果,可喜可贺。AI行业是资金密集型、技术密集型的行业,不是哪家小公司就能碰瓷的。”
对于这些人的微博,柚子科技都做了转发,每次转发,还都配上那句“有意思”以及那张团队照片。
而舆论的导向,也开始在千寻巨额的公关费用下,开始向攻击柚子科技的方向去引导。
那些冷静分析柚子科技不可能是抄袭者的文章,基本都没有任何流量,而柚子科技的官微之下,则充斥了水军和不明真相的辱骂。
百分之九十九的回复都认为柚子科技的回复是不以为耻反以为荣。
而对这些人,挂着柚子官微的方豫根本不在乎,开着小号跟着一起骂。
由于骂的过于有特点,小号的很多条微博居然还被千寻的很多高管转发了。
千寻和柚子科技的公测是同一天同一时间,都是4月5日清明假期后的第一天上午。
由于柚子科技的公测时间早就公开在4月5日上午十点,为了喝头啖汤,千寻特意将公测时间提早一个小时在上午九点。
不同于柚子科技的按兵不动,这些日子来,千寻可以说是外紧内也紧,媒体上努力控评,内部紧锣密鼓的抓bug做测试。
“请汇总出集团3061年所有研发项目的ROI for R&D,并根据上传的模版形成一个报告。”Robert李在对话栏中输入一行要求。
“闻君一言”同样具有企业api,现在Robert李就是把千寻的备用服务器与企业api进行连接,针对性的开发出的千寻内部ai管理助手。
收到指令后,“闻君一言”很快速的就把千寻3061年所有的研发项目的ROI进行了汇总排列,并依据多标准决策分析(MCDA)方法,对这些项目进行了综合评估,随后又用十几秒的时间生成出了ppt。
Robert李打开ppt一看,嚯,比平时CTO拿上来的报告还清晰。
至于那些可能露馅的测试,他们早就做完了。
“**啪啪。”看到“闻君一言”的优异表现,Madeline带头鼓起了了掌。
而其他的高管们,也都跟着鼓起掌来。
从双手在胸前轻拍,一直到双手高举头顶用力鼓掌,在鼓掌内卷贼的带动下,大会议室中很快就掌声震天。
好像谁鼓掌的动作小了,谁就对公司没有认同感似的。
Robert李看了看Madeline,直到现在,他仍旧觉得心里不太踏实,因此他一直都没有就这件事情发微博。
但此情此景下,他也只能一如既往地微笑着,还拍了拍傅远生的肩膀。
“Robert,明天就是公测了,你作为千寻的唯一领袖,是不是也应该在社交媒体上支持一下‘闻君一言’?。”Madeline带着胜利者的微笑,虽然是建议的口吻,但Robert心里却明白,这就是变相的命令。
Robert李抿了抿嘴,沉默了一会儿。
“Robert?”Madeline对他使了个眼色。
Robert这才发现周围气氛似乎有些古怪,只好微笑了一下,掏出手机发了一条“明天九点,见证奇迹”的微博,随后打趣到:“我看到柚子科技的官微把我们很多高管的微博都转发了,也不知道我这条会不会也被转。”
老板发微博,下面的高管们机灵的马上就开始跟着评论和转发。
同时还得写上几百字的小作文,抒发一下对公司的感恩和对老板的仰慕与崇拜。
打字速度最快的马屁精还没写完小作文呢,就看到已经有人转发了。
艹!谁手这么快?
打开一看,柚子科技?
而且还配图了?
只不过这次他们倒是没配那张团队穿着魔法袍的合影,而是配了一张所有人都眼熟能详的。
吔S啦你。(成熟的读者应当自己补图)
在AI领域,由于AI的黑箱特性,导致抄袭和套皮相比其他IT领域有很大的不一样。
针对一个复杂系统来说,套皮是很麻烦的一件事,亿级的代码量,哪个边边角角有点注释什么的,可能就会露馅。
但大模型不是个软件系统,而是是几十上千甚至上万亿参数组成的神经网络,这使得抄袭和套皮行为难以直接通过代码检查来识别,因为大模型的核心是参数而非显式的代码逻辑。
而模型中的知识,只要重复训练的次数足够多,是能够把过去的知识彻底清洗覆盖掉的。
这也是为什么当初斯坦福的两个学生胆子会大到将清华的llama小钢炮直接套皮说成自己做的大模型。
这件事在爆出来之初,也只是有人从性能上怀疑,因为这三个学生拿出的模型性能表现和小钢炮太像了。
这时候这三个人都没有承认是套皮。
只不过他们只是学生,算力和数据都不太够,无法彻底完成模型的知识覆盖,致使他们的模型居然能和小钢炮的专有特性一样可以识别清华简,这才实锤了他们套皮抄袭。
小钢炮事件之所以能够这么快解决,是因为小钢炮推出的比三个学生拿出的模型早的多,早就打出了名气,再加上有独有特性。但如果抄袭的不是三个学生,而是资源更丰富的大厂呢?如果两者是同时推出的,几乎没有先后呢
千寻的安全部门手里有大量的0day漏洞(被黑客发现的,开发者和用户不知道的漏洞),他们所制作的木马就是利用了linux系统中的几个0day漏洞来远程执行代码并获取权限。
千寻根本没有等太久,那个加密包第二天就被柚子科技解密调用了,里面果然是橘子大模型内测后的修复版本。
吴恩德离开后,接替他工作的傅远生虽然满嘴军令状,但心里其实还是忐忑的。
他是内行,虽然此前没有接触过橘子大模型这种类型的神经网络,但BP、LSTM、CNN、RNN、DNN、Seq2Seq等模型还是玩的很熟的。
无论什么神经网络,本质上都没有删除数据这么一说,只能重新训练。
深度学习并不是把数据资料存在某些地方供神经网络调用,而是让神经网络“学习”这些内容,学习后的东西会导致“神经突触”的变化,而大模型的“神经突触”,就是所谓的“参数”。
这些参数的数值变化和相互的连接,就像人类学习的时候神经突触的连接一样,意味着大模型真正“掌握”了训练的知识。
比如一个参数13B(130亿)的大模型,存在一块硬盘上,可能大小有20个G。
让它接受2个T的数据训练后,可能它的大小还是20个G。
大小没有什么变化,但这2个T的资料它却已经完全掌握了。
但既然是模仿人类神经形成的人工智能模型,其实也存在了人类智能的某些问题。
比如说“遗忘”的问题,就是明明学了,过一阵时间之后却发现AI把学过的东西忘了。
AI过度训练后,可能会出现对新数据“想当然”的现象。
就像人类面对新生事物时,明明什么都不明白,却用过往经验进行解释,这在AI领域中叫“过度拟合”。
一堂课老师讲了半本书,前三页你还能听明白,到后面就是听天书,对于AI来说,就是“信息过载。”
人类接触到的信息是片面的情况下,就会导致认知偏差,AI的数据如果集中存在某一种意识形态的内容,同样会导致认知偏差。
林林总总。
更有甚者,原本是个好模型,别人训练都没事,你来训练,要么无法收敛得到结果(可以理解为学不会),要么灾难性遗忘,要么梯度爆炸或消失。
在架构和参数没有太大改动的情况下,能不能训练出可用的大模型,甚至是一门玄学。
AI的训练与调优充满了复杂性和不可预测性。
有时候,一个微小的参数调整或数据处理步骤的变化,就能导致训练结果的巨大差异。
就算傅远生严格按照科学的方法调整超参数,精心选择数据集,并使用最先进的硬件设备,但他仍旧没有足够的信心在短短的一两周时间内,把橘子大模型重新训练一遍去除柚子科技的所有痕迹。
但成了的话,自己可就是AGI之父啊!
升职加薪啊!
成为世界第一的AI权威啊!
又有几个人能抵挡这样的诱惑呢?
而且千寻早就准备好了,如果柚子科技那边反击,甚至放出橘子大模型是他们自我研发的实锤,千寻也不怕。
掌握了十几亿经费的公关一号位可不是吃素的!
哼!
入关之后,自有大儒为我辩经。
先搅浑水,过上半年再持续的岁月史书,柚子科技没多久就成了历史笑柄了!
傅远生实际上手之后,更是喜出望外感觉自己天命加身。
这个橘子大模型和柚子训练框架太踏妈好用了。
无论用什么策略调整参数,几乎训练效果都很好,效率奇高。
应该三天就能完成一轮训练。
公测版本的橘子大模型相较内测版的130亿参数又做了倍计的提升,足足有1500亿的参数。
傅远生指挥自己三个忠实走狗,四个人开始关在小黑屋里闭关,一边去除橘子大模型内的柚子科技的痕迹,针对性的调整参数,一边进行重复训练,尽可能的覆盖这个大模型原本学习的知识。
尤其是那种“你是谁创造的?”之类的问题,必须对大模型进行监督学习,让其遇到类似的问题都能回答是“我是‘闻君一言’,是一个AI助手,千寻公司创造了我。”
或,“千寻的天才工程师们日以继夜的工作和努力,才让我和你见面,开心吗?”
为了彻底避免问题出现,傅远生他们甚至把“柚子科技”、“柚子”及能够联想到的其他词语都作为禁词,禁止修改后的“闻君一言”在任何方式下提及到。
当然,这仍然不能彻底解决问题,不过没关系,千寻只准备公测三天,三天后,马上就宣布公测结束,系统升级,剩下的时间慢慢搞。
总是能把这个问题解决掉的。
傅远生熬夜熬的眼珠通红,这是累红的吗?
不,这是被我那红彤彤的前程照红的!
——
柚子科技官方微博的表态,让所有吃瓜群众都觉得不明所以。
那句有意思还能够解释为反击的话,上面贴的那张集体穿着魔法袍的团队照片什么意思?
想对千寻用个阿瓦达啃大瓜?
你就是当事人啊,啃什么瓜?
看到柚子科技官方发的微博,估计是做贼心虚,千寻管理层几乎全体出动,纷纷开始阴阳怪气起柚子科技。
牛亮,微博认证千寻金融服务事业组副总裁:“难以理解什么样的智商,会相信一家成立不足一年的小公司能够改变世界。”
荆浩,微博认证千寻江米总经理:“十年磨一剑,为千寻点赞,我们永远都是那个追求技术与梦想的少年!@Robert李”
袁山君,微博认证千寻营运副总裁:“童话很美好,但可惜,现实世界不相信童话。千寻从3057年就已经在AI领域每年至少投入上百亿,到如今终于开花结果,可喜可贺。AI行业是资金密集型、技术密集型的行业,不是哪家小公司就能碰瓷的。”
对于这些人的微博,柚子科技都做了转发,每次转发,还都配上那句“有意思”以及那张团队照片。
而舆论的导向,也开始在千寻巨额的公关费用下,开始向攻击柚子科技的方向去引导。
那些冷静分析柚子科技不可能是抄袭者的文章,基本都没有任何流量,而柚子科技的官微之下,则充斥了水军和不明真相的辱骂。
百分之九十九的回复都认为柚子科技的回复是不以为耻反以为荣。
而对这些人,挂着柚子官微的方豫根本不在乎,开着小号跟着一起骂。
由于骂的过于有特点,小号的很多条微博居然还被千寻的很多高管转发了。
千寻和柚子科技的公测是同一天同一时间,都是4月5日清明假期后的第一天上午。
由于柚子科技的公测时间早就公开在4月5日上午十点,为了喝头啖汤,千寻特意将公测时间提早一个小时在上午九点。
不同于柚子科技的按兵不动,这些日子来,千寻可以说是外紧内也紧,媒体上努力控评,内部紧锣密鼓的抓bug做测试。
“请汇总出集团3061年所有研发项目的ROI for R&D,并根据上传的模版形成一个报告。”Robert李在对话栏中输入一行要求。
“闻君一言”同样具有企业api,现在Robert李就是把千寻的备用服务器与企业api进行连接,针对性的开发出的千寻内部ai管理助手。
收到指令后,“闻君一言”很快速的就把千寻3061年所有的研发项目的ROI进行了汇总排列,并依据多标准决策分析(MCDA)方法,对这些项目进行了综合评估,随后又用十几秒的时间生成出了ppt。
Robert李打开ppt一看,嚯,比平时CTO拿上来的报告还清晰。
至于那些可能露馅的测试,他们早就做完了。
“**啪啪。”看到“闻君一言”的优异表现,Madeline带头鼓起了了掌。
而其他的高管们,也都跟着鼓起掌来。
从双手在胸前轻拍,一直到双手高举头顶用力鼓掌,在鼓掌内卷贼的带动下,大会议室中很快就掌声震天。
好像谁鼓掌的动作小了,谁就对公司没有认同感似的。
Robert李看了看Madeline,直到现在,他仍旧觉得心里不太踏实,因此他一直都没有就这件事情发微博。
但此情此景下,他也只能一如既往地微笑着,还拍了拍傅远生的肩膀。
“Robert,明天就是公测了,你作为千寻的唯一领袖,是不是也应该在社交媒体上支持一下‘闻君一言’?。”Madeline带着胜利者的微笑,虽然是建议的口吻,但Robert心里却明白,这就是变相的命令。
Robert李抿了抿嘴,沉默了一会儿。
“Robert?”Madeline对他使了个眼色。
Robert这才发现周围气氛似乎有些古怪,只好微笑了一下,掏出手机发了一条“明天九点,见证奇迹”的微博,随后打趣到:“我看到柚子科技的官微把我们很多高管的微博都转发了,也不知道我这条会不会也被转。”
老板发微博,下面的高管们机灵的马上就开始跟着评论和转发。
同时还得写上几百字的小作文,抒发一下对公司的感恩和对老板的仰慕与崇拜。
打字速度最快的马屁精还没写完小作文呢,就看到已经有人转发了。
艹!谁手这么快?
打开一看,柚子科技?
而且还配图了?
只不过这次他们倒是没配那张团队穿着魔法袍的合影,而是配了一张所有人都眼熟能详的。
吔S啦你。(成熟的读者应当自己补图)
在AI领域,由于AI的黑箱特性,导致抄袭和套皮相比其他IT领域有很大的不一样。
针对一个复杂系统来说,套皮是很麻烦的一件事,亿级的代码量,哪个边边角角有点注释什么的,可能就会露馅。
但大模型不是个软件系统,而是是几十上千甚至上万亿参数组成的神经网络,这使得抄袭和套皮行为难以直接通过代码检查来识别,因为大模型的核心是参数而非显式的代码逻辑。
而模型中的知识,只要重复训练的次数足够多,是能够把过去的知识彻底清洗覆盖掉的。
这也是为什么当初斯坦福的两个学生胆子会大到将清华的llama小钢炮直接套皮说成自己做的大模型。
这件事在爆出来之初,也只是有人从性能上怀疑,因为这三个学生拿出的模型性能表现和小钢炮太像了。
这时候这三个人都没有承认是套皮。
只不过他们只是学生,算力和数据都不太够,无法彻底完成模型的知识覆盖,致使他们的模型居然能和小钢炮的专有特性一样可以识别清华简,这才实锤了他们套皮抄袭。
小钢炮事件之所以能够这么快解决,是因为小钢炮推出的比三个学生拿出的模型早的多,早就打出了名气,再加上有独有特性。但如果抄袭的不是三个学生,而是资源更丰富的大厂呢?如果两者是同时推出的,几乎没有先后呢