2025-11
11

Deepseek算是在摆烂吗

By xrspook @ 8:26:32 归类于: 烂日记

AI这东西是很火,但是经过我几天的深度使用以后,又或者说只是对数据分析这个频繁使用以后,Deepseek我越用越恼火。

在完全不知情的时候,你把数据丢给它,它噼里啪啦地发给你一大段东西,感觉很牛逼,但这只是看上去。是牛逼还是傻逼得由你自己去判断,因为那一大段话可能都是扯淡,又或者可能只有一半是对的。这个对与错,首先第一是分析方法选得对不对,分析方法都选错了,也就是方向都不对,也就没必要讨论往后的那堆废话。如果分析方法是对的,但是针对那个结果出来的描述方向却跟你料想的不一致,于是等于只对了一半。自从发现它会乱用方法分析以后,我就开始对它保持怀疑态度。

理论上它的可视化图片生成应该没什么问题了吧?但关键是它就像秀肌肉一样,噼里啪啦地又给你一大堆东西,但你只是想要拿个图来看一下,发现一下规律是不是直观,仅此而已,所以这只是一个测试性的观望,但它就是要给你很多图,组图有,单图也有,同一个图给你好几种款式。简单来说就是让你目不暇接,让你选择困难症。实际上对我这种只是要看一下效果的人来说,可能那些都不合适,我也就没必要花那么精力在某种图或者某些图上面挑选着各种款式。它只知道这组数据通常可以生成这些图,但哪些图最合适还是要由我们自己判断,有可能什么图都不合适。我不知道它为什么有这种回答思路,比如说对某种数据,我要求它给我做个箱形图,你给我做个最简单的就行,然后我就知道我用不用得上。如果我觉得我用得上,我会继续给你提要求说标签是什么,坐标轴是什么,网格线之类的具体要怎么整,但是在提出箱形图这个要求不要搞其它的情况之下,一下子就给了我四个并一个的主图,两个单独大图,用的都是同一组数据,你搞得眼花缭乱,到底要干什么呢?是要我在ABCD里选一个吗?但是你ABCD全部都写在一个脚本里,对小白来说。还要我去判断保留哪些删除哪些。我感觉这波操作是画蛇添足的。估计下一次再提要求的时候,我就要写明要一款箱形图就行了。

作图也好,统计分析也好,最重要的是数据得准,但这几天用下来,我发现一个很严重的问题。无论数据是从Excel表格上传的,还是直接从Excel里复制粘贴过去的文字,作图的时候如果用的格式化是多个列表,通常告诉我。字段长短不一致,无办法操作。为什么会不一致呢?不可能不一致!一开始的时候,我觉得是我的问题,但后来我发现当我把数据整理,然后跟DS格式化之后的那些数据对比,发现居然少了一个或者少了好几个,为什么居然会有这种事情呢?数据获取不准,分析结果毫无意义,作的那些图什么用都没有。如果说图给你好多款,你只留一款,你还能自行删减,但一波数据给它之后,它只给你格式化了部分,接着就给你结果,这个很可怕。我不知道有多少人意识到了这个问题。我不知道是不是这种东西如果你买高级会员就没有这种烦恼。当我发现了这个问题以后,我就明白到,数据给它,顶多是让它给我个建议用什么分析方法。数据源还是得从自己电脑的Excel表里面用Python去实现。一开始我不明白为什么给出的代码运行出来的结果跟DS直接给结果的数值不一样。后来我发现这个字段长度不一致的问题以后我就明白了。另外一个很神经的,还有中国人的图表肯定有中文,但是它默认给我的执行代码生成的图表中文全部是方框,要解决这个东西也很简单,就是要进行中文字体的前置设定。但牛逼的是每一次默认生成的那个代码,运行结果中文永远是方框。我都被你大数据了,你知道我是在哪里使用,你知道我处理的数据有中文,你回答我的那些所有自动生成的文字也都是中文,你怎么就觉得Python生成的那个图可能不需要特别支持中文字符呢?

综上所述,无论是数据的完整性,还是图表的合适度,Deepseek离合格的要求还很远。

2025-11
10

AI的瞎扯

By xrspook @ 8:13:57 归类于: 烂日记

我一直都觉得新手的运气,这个说法非常对,因为从我的经验看来的确就是这么回事。

今年的统计分析我想有所突破,想从以前的可视化跟分析更进一步,又或者准确地来说,从以前一般的可视化分析上更进一步。我需要做一些专业判定的统计分析,但是要做什么统计分析、怎么去做?在我的本科课程里,只略微说到,并没有详细铺开。我的老师在那里略微说的时候,实际上我没有完全搞懂到底什么意思。理论上如果我还继续读研究生,还继续读我这个专业,硕士的课程里就有科学统计。我觉得那个东西无论是在我的专业还是在其他的专业都是通用的。

这一次当我和数据不断打交道之后发现分析方法的确就那些,但经典的科学统计分析方法尤其是针对检验类重复性检验的那些,跟我现在需要处理的那些数据很不一样,数据的数量以及形态很不一样。

比如说如果那是某个实验数据,通过多次重复、通过不同因素排列组合得出来的结果可以直接用那些经典的分析方法套用,最经典的那个是方差分析。方差分析后,还可以针对不同的组合进行进一步的两两分析,最后得出结论。那些分析最终通过查表,直接给出某个值的范围是什么样,给出是一个什么定性结果。但貌似在我记忆之中,20年前老师好像没给我着重说明不同的分析方法的前置条件各自是什么。比如方差分析的前置条件是默认不同组别的数据数据量相等、方差接近、每组数据都应该符合正态分布。符合正态分布,但是方差不相同,会用另外的方法。如果方差跟正态分布都不满足,就只能用非参数的分析方法。所以折腾了一大轮以后,我发现我的数据如果真要较真,只能用非参数的方法。这些是在我折腾了一圈以后才发现的。如果一开始我就有系统地学过科学统计,显然我就不会绕这个弯路,但如果我真没学过,我又能怎么办呢?

当我把两组数据经过脱敏以后交给Deepseek,它滔滔不绝地给蹦出一大堆东西。光看那些文字,你觉得那真的是头头是道,但关键是懂行的人一开始就知道那有毛病。情况就好像是两个人再进行讨论,其中有一个说,月经周期通常是28天,±7天都是合理的,月经量大概是多少,持续时间大概是多少,月经期间会有什么生理反应,可以做什么措施避免那些不良的感受。噼里啪啦说了一大堆,但他报告结束报告之后,发现原来他们需要讨论的对象不是女人,而是老年男性。所以之前那堆关于月经的东西全部都一无是处,可以说是牛头不对马嘴。但你光看那堆东西,又不觉得有什么问题。我觉得Deepseek给我的感觉就是这样,我不知道其它AI怎么样,之所以有这种感受,是因为当我把那组脱敏的数据给Deepseek以后,它给我做了一大通的方差分析和基于方差分析的两两对比,但是当我真的纠结结果以及执行过程的时候,却发现好像我那组数据根本不应该拿去做方差分析。

由此可见,AI牛逼起来的时候真的好厉害,但也不排除它只是在和你瞎扯。

2023-09
6

为什么当年没有这个课程?

By xrspook @ 8:15:11 归类于: 烂日记

如果说大学课程里面我觉得自己还有什么没有学到位,应该回炉努力学习一下的,我觉得应该是数据分析。那个东西是科学研究的基础,不仅仅是科学研究,可以说那是所有科学的基础。什么类型的东西应该套用什么样的模式去得出结论,那些套用的模式又是怎么个操作法。这东西如果光讲应用不讲原理挺简单,也就是把数据丢给某个软件,然后设定某些参数,接着就是等待结果。自动生成的结果一大串,但你需要注意的大概就只有那么几个点,然后就可以判定了,在写论文的时候把一整片结果粘贴上去,那就是正儿八经的结论。但是如果你要深入研究原理,比如这么个操作是根据什么定理的,那个定理到底是怎么个推导,公式很复杂,里面系数看得你眼花缭乱。即便我好不容易懂得如何默写出来,但最终以我烂渣渣的算力,还是不可能算出结果,于是就有了一些专业的软件去完成这些专业的事情,我们需要准备的只是给软件提供素材。

还记得大三大四上某次专业课上,老师说如果你们要读研,那么你们的课程里面就一定会有数据分析这个东西,详细告诉你这些应该如何操作,什么类型的东西怎么个处理、用什么去处理。但因为我没有读研,我的毕业论文也不需要做正交实验之类。本科生的毕业论文基本上是不要求用任何专业的统计工具得出结果,于是这就导致了本科生的专业课程里面没有数据分析这个东西。

我个人觉得这个挺可惜的。无论是数据分析还是文献检索,我觉得都是科学研究最基本的技能。为什么在大二的时候,我们就已经有了文献检索的课程,但是数据分析却始终没有被纳入基础课或者专业课里呢?

周一的晚上,我粗略地翻了一下《深入浅出统计学》那本书,相对于几年前我已经看过的那本《深入浅出数据分析》我觉得《统计学》那本书偏原理多一点,《数据分析》那本书在R语言的应用方面多一点。虽然实际上从根本上说两本书是有交集的。《深入浅出数据统计》那本书虽然很厚,但是当年我很快就看完了,但是几乎是同时买回来的《深入浅出统计学》,我却一直都没有看。这一次之所以我又把这两本书拿出来,是因为今年单位我要写的那篇统计分析我想用一些专业的科学方法得出某些结论。我一向是个现买现用的,但是当我粗略的翻过《深入浅出统计学》那本书之后,我发现里面的例子好像跟我的实际工作没有直接联系,我不能简单的套用。如果说《数据分析》那本书是偏向于应用,那么《统计学》则偏向于原理。现在我要临时抱佛脚,当然我关注的主要是应用,于是这就得出了为什么我要把《深入浅出数据分析》那本书也一并拿出来,结果发现几年前看的书现在再翻,里面的东西我几乎忘记了50%。

现在我的打算是,继续按照我往常的习惯去写我的统计分析,写完那个以后,我不会急于的完结,会继续把这两本书都看完,然后试一下能不能用一些科学的手段为那篇统计分析添砖加瓦。

2021-03
9

酝酿着

By xrspook @ 8:51:01 归类于: 烂日记

无所事事就意味着,我正在酝酿着某些大project,但实际上具体是什么我还没想好。今年一开始的时候,我已经计划着要买一些书,我的书单里面一共有9本书,主要是几个类别,Power BI的、Excel的,Python的,也有其它数据分析类的。内容可能会有些重复,但是因为不是我自己给钱,所以重复也无所谓,最重要的是我要对这些工具有一个了解,然后我才好判断到底哪个才最合适。所以跟之前不一样,我不会每一本都细读,我会快速过一遍,知道他们的用途以及优缺点,然后在进行拿来主义,最终决定哪个或者那些结合才最适合。

现在摆在我面前的是一堆没什么逻辑可言的人,他们想到什么就做什么,同一个表,每个月出来的款式都不一样。为什么每个月都要调整呢?这就意味着一开始设定的那个规则不合理,因为把太多情况都例外出去了,但是有些时候,并不是规则有问题,而是我也说不准那到底是怎么回事,但他们就喜欢搞特殊。为什么要每个月的东西都不一样呢?为什么要为自己设下这些可能犯错的陷阱呢?数据处理这种事跟艺术家搞创作不一样,数据处理的规则老是变,当大量数据来临的时候会措手不及,完全搞不过来。之所以会发生这种事,是因为他们从来都没有从一个大局的层面去思考他们正在做的事,只是在得过且过,做完这个改一改然后下一个,但是这一个跟下一个有什么异同呢?为什么这一个跟下一个就非得用不一样的方式对待呢?他们没考虑过。在不应该做减法的时候做减法是他们经常做的事。之所以这样,大概是因为他们一直以来都没有被一些很死的规则限定住,所以他们老是变。我喜欢用一套规则去弄通所有的东西,于是几乎每次遇到这种人,我都会很烦。我讨厌这种事情,所以我必须做出一个系统性的东西,让他们完全遵照我的规则去做,不再让他们随心所欲。其实这种事,我不是第一个遇到的人,所以肯定已经有一些很成熟的方案,直接买过来就行了,但是我觉得。学习和研究最大的快感是让我做到别人之前有没有做过的事,有没有做过其实无所谓,反正我没见识过。从0到1获得的过程我很享受,我不知道别人会不会。如果可以选的话,很多人宁愿选择遵循别人的规则,而不是设定一套规则让其他人都去执行。我不知道这种制定规则让别人去做的事算不算是女王的范。之所以要这样,我不过不想被他们的乱七八糟搞的我好烦而已。碰到有逻辑的人,我们还可以讨论一下设定条件制定规则,但那些毫无逻辑可言的人。我只能为他们设定规则,然后要求他们必须严格执行。从前的编程是为了解答出别人的题目,而现在的编程,我是要实现自己的目标,虽然那个目标很确切到底是什么我还没想清楚。在我开始之前,我必须要把这个目标明确的定下来,然后才好找方法实现。

不是每个人都喜欢亲自去探索,但我就是那种人。

2019-12
7

2020年的目标:学习R语言

By xrspook @ 21:57:29 归类于: 烂日记

昨天我花了很多时间去研究R语言里面的绘图。R语言这种东西是今年夏天我才开始接触的,当时我看的是head first系列的数据分析。在这本书里面,R语言用得非常多。首次接触那个东西时我就觉得,那个比Excel厉害太多了。作图这种东西,貌似是美工,但实际上,在R语言里面,只要你想得出来,你就可以通过编程去实现,牛逼轰轰的。无论你想得出的,又或者是想不出的功能,它都能做到。突然之间我觉得自己在统计分析这个问题上真的是个白痴。一直以来我都觉得自己在理论知识方面很缺乏,但原来我在技术的使用方面更加是井底之蛙。如果我要提高我的理论水平,如果直接从案例从技术方面入手,也是可以实现的。我得知道别人是怎么做的。别人用什么方式去实现的。为什么别人可以从那个视角去分析问题,而我却没想到。同样的原始数据,为什么别人就能揪出一些我没想到的东西。这一点我必须努力加把劲探索。

昨天从中午开始我就纠结R语言的散点图。散点图这种东西,Excel里也能做,但问题是Excel里面没办法做出矩阵散点图。之所以我中午开始纠结R语言,因为我在几个月前到数据分析教程里知道学习里知道了R语言可以用几句非常简单的编程,绘制出神一般的的矩阵散点图。矩阵散点图这个东西,第一次看到就把我惊呆了。在那之前我见过的散点图只是两坐标或者三坐标上面标注点,绝大多数情况下我只看到过两坐标的。我们大都从点的分布,点的密度,点的聚集模式得出一些规律,找到一些结论。这是以前我一直在做的,我也只看到别人做到了那个程度,但在今年夏天我学习的那本数据分析里面,他们用两维数据作出一个散点图,在用第三维数据对比N个散点图。这些矩阵散点图是一次性做出来的,并不需要一个个的手动合并,而且那些散点图也不需要手工去设行列数。你只需要提出处理数据的要求,他们就会选择最佳的方式表达出来。第一次看到那个的时候,我觉得那简直是屌爆了!前几天我也尝试过用我的数据做矩阵散点图。后来发现,别说散点图,即便是要我提供一个能正确读取数据的csv文件好像也很麻烦。昨天中午,当我把一个一个Excel做出来的散点图罗列堆砌到Word里的时候,我明白到如果只是一两个,没问题,但我需要2个散点图一起做对比,4个散点图一并罗列出来找差异,显然只能使用矩阵散点图的方式,而不能一个一个贴浪费篇幅且让人疲劳。

在学习数据分析那本书的时候,虽然我也用过R语言,但是那纯粹是把书本上的命令行抄写过去,我完全没有动脑筋,所以当我把自己的数据放到R语言里面处理,希望得到我想要的东西的时候,无论我怎么纠结,貌似都得不出我想要的东西。在奋斗了几个小时以后,我才发现原来plot跟xyplot是两个完全不一样东西。plot是R语言的一个原生作图函数,xyplot则需要调用lattice数据包。数据包就像是一个插件,不过lattice那个插件已经常规到已经默认安装在R语言的主体软件里。在折腾的时候,我因为发现plot函数xyplot函数得出来的图不一样,我才明白到了这点。最明显的区别是他俩的图形颜色不一样,坐标轴的字体不一样,以及坐标轴的刻度分布不一样。我个人觉得lattice数据包作出来的图要比R语言原生的好看一些。

昨天我足足折腾了接近12个小时,才稍微得到了我想要的东西。之所以说稍微,是因为某些因素我还不能自如控制,有些参数我纯粹只是停留在猜想的层面。我不能满足自己只知道一些。我也知道有一些轻量级的作图软件大概也可以做到我想要的功能,但既然R语言如此强大,我愿意花更多的时间去认识他拥抱他。

用编程的方式去作图,想想都觉得这实在太牛逼了。于是,昨天晚上我也定下了目标,2020年我要加把劲学习R语言。

© 2004 - 2026 我的天 | Theme by xrspook | Power by WordPress