Hermes,严以律己

昨天给Hermes加入hindsight记忆引擎,保证其自学习能力后,又安装了一些基础skill。试着查询五一期间济南的天气,通过Tavily的使用记录看,安装顺利。
下午主要实验了一下爬虫功能,可能也跟网页规范有关,这次跟Hermes交流就顺畅多了,很快就开始按照要求爬取数据,同时看到hindsight也进行了更新。
但到了做晚饭时,脑子不知怎么短路,顺手把Hermes退出了,结果做饭期间查看下载文件,还停留在退出时的数量上。
重启Hermes,文件在继续下载,但Hermes却一直在忙活,检查完进程核查代码。这次自言自语跟以往同我对话一样,也是不停自我批评和自我加码,最后修正一个重要错误后,滚屏结束。而爬取生成文件速度明显加快。
看来这Hermes还是不要轻易退出为好。
昨天大模型使用的是qwen3.6的35B,印象大为改观。

Hermes,交流与沟通

昨天一早把Hermes接入到微信中,非常顺利,跟新加联系人一样,扫了个二维码,发了个确认码就成功了。
之后就忙别的去了,到了傍晚想起测试一下微信操作Hermes,于是想把微信中最近收到的合同扫描件通过Hermes归档管理,结果一折腾就折腾到眼睛快睁不开。
开始以为是本地部署的大模型不给力,切换到deepseek,依然无法实现Hermes把文件上传到指定资料库目录。
一番扯啰后,最后Hermes终于明白我的意思了,完成任务后才生成了skill。
这Hermes聪不聪明跟大模型性能真没关系,他们二者是相对独立的,Hermes有自己的理解和行为方式,以合同归档为例,他认为只需要把文件作为一个占位标志即可,这样管理更为高效。我认为Hermes听不懂我的话,可能他还觉得人类怎么这么笨。
此外,我认为Hermes与大模型相对独立,是因为Hermes在运行中提到一个将PDF转为图片显示的方案,但他却没有意识到deepseek不是一个多模态大模型,无法识别图片的。如果是大模型为主控,是不会最后无法运行才提示的。
看来,这Hermes越来越聪明,不是我们人类教的,而是互相沟通的一个进程。

安装Hermes

昨天显示器到货后就开始安装Hermes。
安装很简单,但过程很漫长,依然是国内网络的问题,主要卡在GitHub的访问上。安装完成后的界面似乎时光倒流,回到了三十年前的CRT显示器面前。
在设置连接了本地gemma4大模型后,试着做第一个skills,从从一个网站爬取京剧剧本。选择这个网站,主要因为这是一个老网站,以现在的标准看,网页简陋而不规范。
过程很不顺利,Hermes爬取的网页开始是缺胳膊少腿,后面则是把无关的HTML元素也爬取下来。我只得一次次纠正提出修改意见。
别说,这Hermes态度老好了,每次都诚心接受错误,表明决心,言语中一再表示这是“最后一次”,让我有当年辅导家里某位小朋友做作业的无力感。
换成qwen3.6,结果还不如gemma4,直接罢工。
于是狠狠心,切换到deepseek v4的flash版,它分析原爬虫程序后指出了问题所在,并进行了修正,完美解决。
看了看费用,花了7分钱。
当然,这是在很多低效率沟通的基础上,如果是那些重复冗余的工作,花的钱就不会这么少了。这也是我此前对龙虾类agent不是很感兴趣的原因:自己有编程能力解决,手工操作未必低效。
题外话,通过使用Hermes发现自己果然是穷鬼出身,因为在使用网页搜索时才知道,原来Hermes就是大名鼎鼎的爱马仕。

首购AOC显示器

最近在用的Acer笔记本,是18年买的,当时图优惠,估计生产年代更早,得小十年了。
笔记本用起来还好,当年的初代katago就是在他上面彻夜大战leelazero,但就是显示器指标实在是差,最近用惯了高清显示器,现在看他的显示器时间长了泪水都能流下了。
换显示器犹豫了很久,先是买不买,后来是买27还是23的,昨晚感觉实在不能再等了,再等这边电梯换装可不想搬上楼了,看到AOC的优惠,还是下单了。
今天显示器到货,箱子比优派小不少,如果上次买的是AOC,估计就不会摔得那么惨了。
买AOC的一个原因是他居然在显示器市场上排名第一了。
当年,谁看得上他啊。

deepseek v4发布,略微失望

昨天deepseek v4发布,我们自己的服务器在停机近一年后,也开机联网了。
ollama升级费了不少周折,但随后下载qwen3.6的35B以及gemma4的26B模型速度非常快。
运行模型后照例询问了一个京剧问答,让其对某剧目的人物进行评价。qwen依然拉胯,令人意外的是,随后老外gemma的回答,没有像qwen那样东扯西扯言多露怯,反而从“哲学”高度进行分析、评价,反而找不出大毛病。
然后登录deepseek的官网,询问同一个问题。在这么多国内外大模型中,deepseek v3是唯一一个回答完美的,这让我不得不怀疑其知识库的来源。
不过让人失望的是,v4版本的知识库虽然更新到25年下半年,但回答的问题内容单薄,且存在误差,可以说是不进反退,不知是否因为官网默认使用的是flash版本而非Pro。
此外,v4的回答同gemma4一样,回答中重侧逻辑而淡化知识,这估计也是开源大模型的趋势吧。

生图模型简单比较

前天OpenAI发布了GTPimage2,吹捧声颇高,这时点发布,应是想挽回点因关闭Sara丢失的面子。
今天看到自己在用的API网站已经支持GTPimage2,价格为banana2的六折,于是试了一下图形转换。相比banana2还是差一些,更不用说bananaPro。可能与image的版本也有关系,后续的VIP版效果可能更好一些。
抛开图片识别和文字理解,image2的风格更为写实,这与bananaPro的华丽感差异尤其明显。
此外,又测试了一下grok。虽然只是免费版,grok的效果却让我颇感意外,他的风格偏向bananaPro,但又在细节上更为细致写实,值得期待。

苹果换帅

最近苹果换帅,特努斯接替库克成为新CEO。
事出略显突然,最近看网上新闻,无论是IT圈还是财经圈,唱衰苹果的评论多起来,似乎苹果到了生死存亡的关头。
哪有这么严重。
只要有手机这基本盘在,苹果的日子就依然“烈火烹油,鲜花着锦之盛”。就像乔布斯重回苹果之时,人家日子其实也很滋润。
但苹果又不得不改变,选择硬件起家的特尼斯应该是要在AI时代硬件软做。
苹果的硬件并不落后,但软件生态却薄弱甚至堪称惨淡,M4在一些应用中只能依托OpenCL达到gtx1060的性能,更不用说本地大模型的应用了。
不过,看看微软,舒坦日子过惯了,想突破,也难。

上下文管理低效问题

近日,Anthropic切断第三方框架(比如OpenClaw)通过Claude订阅服务的调用通道,引发行业震动。

Anthropic官方解释称,有重度用户每月仅支付200美元订阅费,却消耗了价值5000美元的算力资源,给Anthropic带来巨大成本压力。

小米MiMo大模型负责人罗福莉随即发文点评米“第三方框架因上下文管理低效,产生的Token消耗是原生框架的数十倍”。

这个评论的很到位,这不止是OpenClaw的问题,也是所有AI应用的问题。上下文管理本身就各说各有理,模型方如Claude认为要是依靠大模型,而向量数据库方则强调加强数据的管理。

现在第三方框架的加入,更是混乱了。

左右不分,AI的认知混乱

昨天做了一个视频,提示词中强调人物坐下后脱下自己的靴子,然后重新穿回去。结果生成后,角色是脱下左脚靴子,然后穿回到自己右脚。
开始觉得这AI实在是不靠谱。
后来我考虑到,AI犯错可能因为他对人物跟观众的视角出现了错乱。这就像小孩子小时候跟人面对面交流的时候,分不清自己和对方左右手一样。
又查看了一下AI的agent记录,果然,里面记录的是“观众视角的左侧是她的右脚,右侧是她的左脚。她弯腰抬起自己的右脚(观众视角左侧的脚)”。
一旦AI真正能代入角色,那就是一个大的阶段性进步。
但,那样可能也意味着AI的觉醒了。