AI应用环境搭建完毕,只待显卡

今天在外忙了一天,回家简单做饭的同时,开始了继续昨天未完成的AI应用环境搭建。

通过本周Vits的应用,发现无论是国外的COLAB还是国内的GPU云服务器,都有诸多限制,要想常规学习应用,搭建本地环境还是必需的。

还好,在解决了几个昨晚遗留问题后,虽然vits训练未果,但系统环境搭建完成,不用再连续熬夜了。

在2019年底,为了人体体态识别应用,曾购买了一台二手Dell工作站,加上全新索泰矿卡P106-90,搭建了一台“深度”学习机器。跟昨天情况相同,也是颇费周折搭建环境完成后,运行程序硬件报错,只不过那次报错的4G内存不足,添加8G内存开始正常运行。

那台机器在搭建完成后不久,就因疫情而被遗落,几经周折,如同丢失的孩子,找回的希望几乎破灭,这也是我不得不重新搭建新机器的原因。

这次测试机器使用的外甥原先的游戏机,只是运行报错的硬件不再是内存,而是970显卡的4G显存。

三年过去,AI技术突飞猛进,硬件需求自然是水涨船高。而后期Stable-DiffusionAI绘图等应用,8G显存已经是最低要求。

看来,必须要先买一块二手RTX3060显卡了。

ChatGPT崛起,英伟达拒绝降价

前天几个人一起聊ChatGPT的时候,我做了一个预测,那就是这几年内,ChatGPT技术就会开源。

这些年来火遍全球的科技技术、项目后面,都是资本在兴风作浪,或者说是作妖,而推波助澜的也离不开那些传统的科技公司,甚至可以说是为虎作伥。

最近的例子就是虚拟货币,英伟达赚的是盆满钵满。而矿难之后,黄厂长刚放下身段要搞促销,ChatGPT的横空出世,顿时让老黄又鼻孔朝天了。

现在IT界掌门们都在敲打后辈:ChatGPT烧钱,尔等不要跟进。

后辈也不傻,都是吓大的,不烧钱能混IT?

要烧钱,最开心的还是那些资本,还有就是黄厂长他们了。虽说ChatGPT需要积累,但有了ChatGPT,数据的获取效率可谓是一日千里,缺少的就是数据处理。

而数据处理,怎么离得开黄厂长?

降价?黄厂长的刀快着呢。

折腾VITS个性化声线

昨天中午发现一个VITS代码库,可以根据个人的语音文件,通过训练生成个性化的声线。

因为在多语言情况下环境依赖难配置,那个项目是使用Colab运行的。自从有了国内的GPU云后,我已经很久没有使用Colab了,但看说明并不难,回去饭都没吃就开工,没想到一直到了第二天快两点也没有完工。

其实本来还算顺利,在解决了几个细节问题后,本已经进入最后的训练阶段,但就在进行到90%时,系统突然报错断开,仔细一看,原来是免费的GPU算力用尽。

前功尽弃,这免费的资本主义羊毛也不是这么容易薅的。

其实我也有心理准备,我最终目的就是转到国内的GPU云服务器上,但百度现在只提供飞桨框架,而最常用的恒源云最后阶段总是卡在路径参数上。毕竟这个系统是基于Colab的。

熬夜没有等着colab新的算力到账,早上起来打开电脑,依然无法使用,想付费人家只认美国信用卡。

好在到单位用他人账号登录Colab,有了昨天的经验,顺利完成了训练,效果尚能接受。毕竟训练使用的只是一个样本文件,如果使用大量语音文件进行训练,效果应该还会提升。

ChatGPT的成本

今天看新闻,谷歌在大倒苦水,说现在ChatGPT类产品的成本要大大高于传统的搜索。感觉这有点吃不到葡萄说葡萄酸的酸酸味道。
成本还分有效成本和无效成本之分呢。
在谷歌之前,是以雅虎为代表的目录式的搜索引擎,找到什么内容完全看供应商的勤快程度。后来谷歌等爬虫式的搜索引擎,基本上是广撒网良莠兼收,同时根据用户访问量进行整理排序。
后来都学坏了,也不知是国内外谁跟谁学坏的,也开始干预,甚至到了吃相难看的地步。
而到了现在的ChatGPT,则等是用户把内容推送上门,或者帮助系统整理归类,这等好事,原先是需要累死多少爬虫啊。
如果现在再把ChatGPT当做搜索引擎,或者整合到搜索引擎中,就有点像前段时间某学者怒斥知网一样:用了我的文章,还向我收费。

短视的业务整合

今天看新闻,百度掌门终于亲自为自家类ChatGPT产品文心一言站台了。

虽然根据之前百度的一贯作风,并不意外百度的小家子气,但看到百度要将文心一言与搜索业务整合,还是没有想到他会如此短视。

百度的没落源自搜索业务的没落,而随着ChatGPT的横空出世,受到冲击最为剧烈的就是搜索引擎。而百度偏偏要用自己难得拿得出手,甚至可以藉以东山再起的文心一言,与日薄西山的搜索整合。

这就像一个破落八旗子弟,家里发现家里箱底有件值钱黄马褂,却非要把新衣服裁了补旧袍子。

何况把ChatGPT整合到bing中的那位刚栽了跟头,好歹人家更有钱,买的还是干儿子,榨干一点是一点。

而百度,这两个可是亲儿子,非要让不肖子拖累死麒麟儿才罢休啊。

ChatGPT小说创作火候还远

近几日跟ChatGPT的交流,主要是基于小说的创作,这方面显然ChatGPT没有网上吹嘘的那么神乎其神。

关于写作,网上评论的AI缺少想象力不是原因,而是结果。这除了受限于AI的数据集,更主要的是AI无论中外,都是受限于内容审核,就像戴着镣铐起舞,像《水浒》这样的小说,根本不可能续写或者再创作。

即便是创作洁本,AI也时不时闹笑话,因为我构思的是架空小说,今天又来了一个曹操反清复明令人瞠目结舌的组合。

如果说AI参与小说创作,那也主要用来注水,而现在小说这种注水本来就不少,AI捉刀,倒也合适。

关于高考,ChatGPT不靠谱

最近关于学生最热的莫过于考研成绩查询,其次是高一学生选课,已经远远高于四六级分数查询。

早上测试了一下ChatGPT,询问山东高一学生选课的建议。

不出所料,基本回答就是错误的,因为这与国内外关系不大,最主要的原因还在于ChatGPT的数据还是截止到2021年。此外就是,更多建议存在于所谓咨询机构的PPT上,公众讨论的还是稀少。

不过,ChatGPT的套话还是值得参考的,我最为赞同的是那就是对学习压力较大的科目进行减负,选择其他科目进行备考。

最后突发奇想,免费的ChatGPT是不是在装傻卖呆啊?

ChatGPT的热度似乎在降低

这几日ChatGPT的热度降低的有点极速,除了微软的bing这位急于求成的猪队友,还因为国内本来想跟风的几位,冷静下来发现,这类ChatGPT除了技术、数据的积累,光硬件能烧的起的也就有云服务业务的那几位。
即便走在前面的百度,也是少有的低调,在宣布文心一言三月推出后,少有进一步的跟进宣传。唯一官方靠谱的新闻,就是确定文心一言将通过百度智能云对外提供服务。
这与我最初的预计差不多,因为百度的各项AI服务,如我常用的OCR、文字语音服务等,都是通过这种形式。
这样也好,用户可以通过api各取所需,或直接使用,或嵌入到自己的业务中,同时收费也更有弹性。

需要注重交互性的ChatGPT

最近关于ChatGPT的负面新闻越来越多,什么系统要毁灭人类,什么系统嘴硬抬杠,更有甚者,说系统爱上自己挑唆离婚的。
都什么乱七八糟的。
这些内容多是标题党,内容不过是断章取义,或者道听途说。
而那所谓系统爱上自己的,要么是发帖人自恋到家的,要么就是聊着聊着,系统调用了狗血网文了。
与ChatGPT交流,关键是提问前要交代好背景,让系统了解问答范围,然后注意根据前文言简意赅的提出问题,限定想要的内容。
至少我感觉系统能做到“冠冕堂皇”这一步,已经很不错了。

已经可以交流的ChatGPT

因故返京计划推迟,这几天早上起床后调试一个小时的ChatGPT。
每天一个小时一是因为家里需要抢机器,更主要原因是免费版的ChatGPT如果一个小时连接次数过多,也就是问的问题太多,就会停止服务。
最近测试是基于一篇构思很久的小说。开始系统对录入的内容有些不知所云,但随着交流的深入——根据系统的反馈来看,真的可以称得上交流,系统虽然时不时来个关公战秦琼,但已经可以自行“编写”情节,甚至提前来个结局,并进行深刻的总结。
而且这种交流,系统会随时调用它的数据,并总结我们以往交流的内容,不单单只是话赶话而已。
多年前我写过一篇关于亚马逊服务的拟人短文,想象服务器为每个用户分设一台虚拟机,进行针对性的服务。
现在看来,ChatGPT已经实现了这个功能,只不过基于的是每个用户的数据集,这样更加高效。