Jason

独立开发,自由职业


  • 分类

  • 友链

  • 关于

  • 搜索

0423 - 大模型 LLM 与本地数据

发表于 2024-04-23 | 分类于 每天写一点

基本理解了 使用大模型查询本地数据 的流程:

  • 先把本地数据,切割成一小块一小块存储,并计算其向量。方便理解,假设这些数据总共有 10G。
  • 用户查询时,先根据问题,从本地数据库里查询关联的内容,比如 20K。
  • 把这些关联内容,作为上下文背景知识,和原始问题,一起传给大模型提问。
  • 大模型用自己的能力,结果关联的内容,给出回答。

比如,把《消费者权益保护法》作为背景知识,和问题「买东西商家不退货怎么办?」一起丢给大模型。

关键的点:

  • 如果使用 ChatGPT 等模型,很贵很花钱,因为每次都丢一大堆上下文。
  • 如果使用本地大模型,受限于模型质量,回答可能比较差;受限于算力,会比较慢。

还有一种方式,是用自己规范化的数据,对大模型进行再训练、微调,成为自己行业内的大模型。

基本上,这条路不是一般人能搞得起的。

  • 把杂七杂八的数据,规范成统一的格式,比如问答,无比消耗人力物力。高质量、规范化的数据,是成本最不可控的环节。
  • 模型的训练,这又有两条路:一条是训练公有大模型比如 OpenAI,按量付费;一种是自己买硬件、训练自己的本地大模型。都费钱。

如果做出来只是给自己用,基本不划算。

如果做出来可以给行业内的人用、把能力二次销售,有可能可行。

后来注意到,OpenAI 的 Assistants 比较符合需求:可以上传最多 10万个文件、100GB 的数据,然后使用 GPT3 或 GPT4 等模型,从中给出答案。

简单试了下,把我的博客、flomo 笔记导入,然后针对性的问问题,确实能得到本地数据中的答案。

0422 - 牛人 Stephen Wolfram

发表于 2024-04-22 | 分类于 每天写一点

13岁出书,

博导费曼,

好友乔布斯,

开发 Mathematica,

被称为地球上最聪明的人之一。

0421 - 孩子眼里的光

发表于 2024-04-21 | 分类于 每天写一点

今天早上晨读时,我给娃衍伸了很多有意思的内容,比如有人一辈子生活在海上、有人一辈子生活在山上、有人生活在冰屋里 等等。他很有兴趣,我能看到他眼里的光。

这很好,这才是好的教育。

如果孩子眼里没有光,那就让他有。

如果做不到,就先提高自己。

自己没见过高山,怎么才能向孩子描述高山呢。

孩子,是来帮父母修行的。

0420 - 反思补短板教育

发表于 2024-04-20 | 分类于 每天写一点

现在的学校,是补短板教育。典型的,就是【错题集】。啥意思,错题就是你的短板;不能有短板,你得把错题学会。

换个角度看,那些做对的题,孩子是怎么做出来的,有没有用什么巧妙的思维,并没有被关注到(昨天娃做题的一个思路,惊到我了)。

到底是发挥特长,把某方面的能力锻炼到极致;还是木桶教育,各方面都均衡,难有定论。

学校是集体教育、通识教育,一定是木桶教学。要不要强化特长,就要靠家长和孩子自己了。

并且,不同阶段侧重不同。小的时候,还是要注重通识教育,不能有明显短板。慢慢的,涌现出特长,再针对性训练。

特别是,AI 已来。基础的知识、分析、预测,越来越不需要人做。而人要做的,是发现并提出问题、审视 AI 给出的方案并决策。在这个大背景下,教育也要相应调整。

你的娃接触 AI 了吗?甚至,你会用 AI 了吗?

0419 - 又踩了 Air101 的一个坑

发表于 2024-04-19 | 分类于 每天写一点

Air101,休眠唤醒后,会丢失时区信息,垃圾。反馈给官方后,对方不觉得是问题,无语。

好在,目前可以软件绕过去:主动存储时区;每次开机后,再设置一次时区。

国产芯片,底层基本功,还差得挺多。看着只是一个点,反映的是一个面。

1…272829…626
Jason

Jason

记录一位独立开发者的精进之路,分享自由职业者的生存方式。

3129 日志
9 分类
5 标签
RSS
GitHub Twitter Weibo
Links
  • Toolinbox
© 2011 - 2025 Jason 浙ICP备16002197号