沧海周报 084/2024.05.26

这是啥

作者介绍及往期周报,请移步README

资源

1990 年的 Adobe Photoshop 源代码

工具

dbgate

DbGate 是跨平台的数据库管理器。最近我开始使用这个软件管理多个云数据库和本地数据库,在 Mac 上和 Windows 上体验都很良好,强烈推荐。

网站

  1. NocoBase-开源、私有部署的轻量级无代码和低代码开发平台

本周博客

文章

  1. 如何成为业余通晓多种语言的人

  2. 愤怒的时代:为什么人们如此愤怒?

  3. 使用 PostgreSQL 的 RAG

  4. 这个项目还在维护吗?

  5. 世界上最有才华的人

  6. 使用 JavaScript 正则匹配全部 Emoji 表情字符

  7. 世界上最北端的铁路

  8. “3.5%法则”:少数人如何改变世界

  9. Breaking Down Japan&'s Food Culture

  10. 2013 年存在的 38% 的网页在十年后无法再访问

  11. 编写纯文本文件

  12. 对于单个开发人员来说,最高效的堆栈或语言是什么?

  13. 计算机科学家发明了一种高效的新计数方法

  14. 可汗学院的 AI 教育创新

  15. 当柯达与宝丽来开战时

周记

这周我小试了一下 AI,结果并不太理想。

事情是这样的,我有拼多多、抖音、1688 的商品类目信息,我想将其每个类目都精准的匹配到一个淘宝的类目上去。

在使用字符串匹配将比较好实现的标记完以后,剩下一些都是比较难啃的骨头:在语义上人类是很容易理解并识别的, 但是在命名风格、类目分级组织上各家平台差异极大,通过代码硬匹配会有很多误差。我以为这是 AI 理想的用武之地。

我本来想用 OPENAI,其 node.js 的 SDK 很简洁,但是卡在付款这一步。我懒得去折腾了,转向本地部署。 在 Mac mini 上安装 ollama 和 llama3 8b 模型都非常简单。可是结果并不太好,测试了几个任务,无法精准实现任务意图。 我想有 2 个原因,一个是中文翻译的转换问题,一个是这个任务要求输出非常精准的,但是现在 AI 比较擅长总结文本、推理提炼信息,还不太能完全精细化控制其输出。

后来我又发现一个Llama3 的中文社区,他们有提供调优过的中文模型,但是我测试后结果依然不理想。

我想有 2 个改进的思路,一是试试看 RAG,也就是检索增强生成。二是通过优化提示语,来调优其输出。但是目前离实现能用,看起来还有很远的距离,小试一下暂时就放弃了。

还有一件值得记录的事情是,我上一台台式机是 14 年淘宝上买的 2000 元组装整机,目前已经感觉到卡顿和噪音极大,趁着这次 618 想升级一台高配点的电脑。 关于电脑硬件我基本没关注过,平时也没有这方面兴趣。这 2 天一不小心掉进了兔子洞,我实在是没想到都 2024 年了,电子产品这种标准化极高的东西,为什么还这么乱。

我在淘宝和拼多多都看了一些整机配置,都没有特别合自己心意的,为了自己组装,又开始逐一研究每种配件,了解各种名词概念。好吧,经过 2 天的折腾,我也算是能开配置单的人了。

但是我发誓,买完这次,我看都不看,实在不想折腾下一次了,我有严重的选择困难和信息焦虑症。我发现我的生命被浪费了 2 天。