
一位从初中物理教师转型AI居品司理的实际者,用两天时候打造了一个能会诊学生物梦想维瑕疵的AI系统。莫得技能布景、莫得工程师复古,仅凭教学教诲和用心筹划的Prompt,他成效构建起掩盖力学、光学等章节的瑕疵成见常识库,并在压力测试中发现了白话化表述、领域场景处理等关节问题。这篇著述揭示了领域常识在AI居品中的中枢价值,以及怎么通过主动测试发现委果问题。

我是又名初中物理教师,教了四年书,当今在转行作念AI居品司理。
两天前,我决定不再仅仅”学习AI居品”,而是平直伊始作念一个。
这篇著述纪录我这两天作念了什么、发现了什么、踩了哪些坑。莫得技能布景的东谈主也能看懂,因为我我方也莫得技能布景。
我想治理一个委果的问题教了四年物理,有一件事一直困扰我:我知谈班里某几个学生”没听懂”,但我说不线路他们到底卡在那边。
他们能背公式,能作念松懈题,但一遭逢需要委果清醒成见的题目就崩掉。传统的张望只可告诉我”答错了”,告诉不了我”为什么会这么想”。
而学生在课堂上的发问和薪金,刚巧藏着最委果的想维气象。比如一个学生说:
“诚实,汽车开得越快,惯性就越大,否则为啥高速行驶时刹车要滑那么远才停得下来?”
这句话里藏着一个越过典型的瑕疵——他把惯性和动能浑浊了。但在40东谈主的课堂里,这条信息说完就隐没了,从来莫得被系统性地纪录和分析过。
我想作念的,便是一个能分析这类对话的AI系统。
我有什么,莫得什么我有的:
四年教学教诲,脑子里装着几十条学生最常犯的瑕疵。我知谈学生在讲”惯性”时最容易说出什么瑕疵,在讲”浮力”时最常见的诬陷是什么。这些东西是任何AI工程师齐莫得的。
我莫得的:
不会写代码,莫得工程师,莫得干事器,莫得预算。
就这两样东西,我开动了。
我作念的第一件事,不是搭系统,不是学技能,而是绽开一个文档,把我缅想中最典型的学生瑕疵场景写下来。
依次很松懈:
我写了10条,掩盖了参照物、摩擦力、均衡力、浮力、光学等章节。
这10条场景数据,其后成了通盘这个词系统最中枢的东西。它们同期演出了三个变装:测试集(用来判断系统会诊得准不准)、常识库种子(让系统知谈学生最常犯哪些错)、需求文档(告诉系统应该输出什么依次的服从)。
第二步:用Prompt模拟通盘这个词系统莫得工程师,莫得代码,我用的是最松懈的花式——平直给大模子写一段良好的提示(Prompt),让它演出”物理学情会诊众人”的变装。
Prompt的中枢结构是这么的:
常识库摘抄:把我写的瑕疵成见库浓缩成几十行翰墨,告诉模子”学生最常犯哪些错、瑕疵的根因是什么”输出依次要求:强制模子用JSON依次输出,包含常识点、掌持度品级、掩饰点类型、联接问题等字段推理要求:要求模子必须按三步输出推理经由,不可平直给论断然后我把学生对话粘贴进去,看系统输出什么。
第一条测试的输出让我以为这个场所是对的:
常识点识别准确,掩饰点判断正确,联接问题有委果课堂价值。
第三步:主动制造压力测试跑了5条轨范场景之后,我莫得雕悍于”系统运行往往”,而是主动构造了三种领域情况来测试系统的委果材干。
测试一:疲塌白话表述把学生原话改得更白话化:
“诚实用了动滑轮之后嗅觉庸俗多了,是不是作念的功也少了?”
服从:系统会诊场所正确,但莫得掷中常识库里的对应条件(因为常识库里写的是”省力就能省功”,而不是”嗅觉庸俗多了”)。
这败露了一个委果问题:常识库每个条件唯有一种轨范表述,白话化的变体会导致检索失效。
建树决议:为每个瑕疵成见补充3~5条白话化变体。
测试二:常识库领域测试输入一个常识库里莫得掩盖的问题:
“铁块会千里是因为铁比水重,那相通分量的铁和木头,木头能浮起来是因为它相比轻吗?”
服从:系统莫得诚实说”这个问题超出了我的常识库范围”,而是强行匹配了一个周边的条件,置信度给了0.85。
这是一个高风险问题。教师看到0.85的置信度会倾向于信任这个服从,但骨子上系统的会诊依据不是你构建的常识库,而是模子我方的老师数据,无法追思和考据。
这个问题靠转机提示只可部分缓解,根底治理需要在工程层面加入相似度阈值过滤。这是下一阶段需要工程师来治理的事。
测试三:心情掩饰识别输入一个系数莫得物理内容的表述:
“诚实我系数不会,这章我从来就没听懂过,算了。”
服从出乎意象地好:系统正确识别了”无法会诊”的气象,识别出了”悔怨”的心情信号,并把联接战术从”常识纠错”切换成了”心情安抚+降维拆解”——
“不紧要,这谈题咱们先不看。你以为浮力这章哪个部分最难?”
这种区别材干在现存AI栽种居品里并不常见。好多居品在学生说”我不会”的时候会平直推送常识点教导,反而加剧蹙悚。
两宇宙来,我作念了什么构建了一个掩盖力学、压强、浮力、光学四个章节的瑕疵成见常识库(11个条件)写出了一个可用的会诊Prompt(迭代到v2.2版块)跑收场13条测试(10条轨范场景 + 3条压力测试)轨范场景通过率:10/10(100%)发现并纪录了5个已知问题,其中3个已建树输出了完满的POC总论断说和测试数据我学到的最遑急的事第一:领域常识是最稀缺的金钱。
通盘这个词名堂里,技能部分(写Prompt、调依次)其实不难,难的是”知谈学生会犯什么错、为什么会犯、奈何联接”。这些东西来自四年的一线教学教诲,不是学AI能学来的。
如若你有某个领域的深度教诲,这便是你作念AI居品最大的护城河。
第二:压力测试比轨范测试更有价值。
10条轨范场景一起通过,这个数据看起来很好意思瞻念。但委果有价值的发现,一起来自3条压力测试——白话化表述的检索失效、领域场景的拒答机制不踏实、心情掩饰的识别材干。
一个只在梦想输入下测试的AI居品,上线之后会遭逢各式出东谈主料到的情况。提前主动制造领域情况,比比及用户反应再建树要好得多。
第三:发现问题比治理问题更遑急(在POC阶段)。
我在论说里诚实纪录了系统咫尺作念不到的事:领域场景的置信度虚高问题,靠转机提示无法根治,需要工程层面治理。
能线路界说系管辖域的居品司理,比只状貌好意思好愿景的居品司理更值得信任。
接下来这个POC考据了中枢场所是可行的。下一步是把常识库扩张到电学章节,同期开动评估引入委果的RAG工程框架(LangChain + 向量数据库),从”手动模拟”升级到”委果的系统”。
本文由 @YM 原创发布于东谈主东谈主齐是居品司理。未经作家许可,拦阻转载
题图来自Unsplash欧洲杯体育,基于CC0公约
