大学的Data Science专业以及AI

9月份，德州有个data stream platform的conference。不出意外，现在所有的在Big Data有关的会议都是围绕AI的，包括春季在LA的亚马逊AI专场。整个conference有一天的闭门高层会议和两天的Open Conference，都是在讲GenAI的趋势。闭门会议有个专场讨论，讲到今后AI的发展对今天data management领域工作的影响，有人预计目前依赖的data science的数据处理工作，会被LLM替代。具体的说，今天GenAI需要的数据，80%靠data science engineers, 20%靠工具，趋势是今后80%靠LLM，20%靠engineer。

注：闭门会议的所有录像都不会在YouTube上公开发布，闭门会议的对象都是公司高层管理人员或者技术高层，这段谈话应该在网上找不到，但对今后job market肯定有影响。

且不说，预测是否正确。事实是，除了那些专注于提供AI platform的平台公司，过去十年，工业界的leader们都慢慢接受一个事实，原来大数据提倡的数据好处，过去十年中，很多公司没有享受到。大量的项目和金钱花费在数据搬运上，而不是数据分析和数据产品。有些公司得到一些即时数据的好处，但是相比于对大数据的大量资金人力的投入，这点产出不是正向比例的盈利。大数据提倡的数据schema自由的理念，慢慢成为今天大多数公司面临海量的垃圾数据的缘由。garbage in garbage out是目前业界的共识。随着而来对data science的职位需求，也会有相连的反思。

闭门会谈提出的口号是shift the right to the left。什么意思呢，就是push到数据源头去定义和控制数据的质量。然后把ML和AI功能move到靠近数据源头，而不是类似今天，把各种数据堆积到数据湖中，再由ML，LLM来分析生成。

这样的话，可预见对data science职位的需求的减少是可能的。

所谓数据源头，放到职位上的解释就是让SWE负起定义数据和数据质量管理，而不是让下游的data science来在数据湖中潜水挖宝。也就是说，原来指望data science能在浩瀚的数据海洋中帮我们找到珍宝的想法，现在SLT们都知道这是不切实际了。过去十年，我一直在帮公司留意寻找合适的数据定义工具，然而市面上的各种工具，都不能被高效应用。那么我们今天又回到了原点。

2010年最早的大数据产品之一，MONGODB发布会上，developer在台上振臂高呼，schema free的景象好像就在眼前。今天的garbage data，与其说是SWE技术问题不如说是一代SWE的文化和信仰，数据定义自由，数据获得自由。造就今天广泛的数据垃圾和数据安全问题。

我本人对2018年后，大学匆忙上马“data science“ 专业一直有保留想法。

文学城子女教育版面，还有不少家长为孩子铺设的大学教育，依然考虑选择data science这个专业。所以我专门写了这个帖子，提醒家长帮孩子选专业时，多知道一些背景资料。

https://bbs.wenxuecity.com/znjy/7058504.html

原帖甚含蓄，在论坛发帖，很容易引起误会和不必要的争论，特别是那些子女已经在读data science专业或者毕业在职位上的父母的紧张，这种心情都可以理解，同时也让理性讨论变得困难重重。

言归正传。如果有将要升学的孩子，喜欢CS，专业还是CS好。Data Science 专业慎重。一家之言，仅供参考。CS专业不会消失，而是会随着科技的发展，调整课程。内核算法，数学应用，逻辑，数据结构这些核心内容变化不会太大。

现如今最火的AI，属于GenAI(Generative AI)的类别，中文可理解为内容生成性AI。比如CHATGPT。GenAI的性能好坏，严重依靠海量的数据和数据的准确度。这就是为什么Chatgpt可以写文章，因为可靠的用来学习的文章是海量，从有出版开始到今天网络，有几百年的文章都可以用来学习和参考。为什么AI可以写code？因为开源代码的存在，各种考编程的题库，还有各种论坛中讨论和分享的code。有题库就有答案，有成功项目的source code就能够判断什么是可行的code，这些都是可靠数据，可以用来学习判断，可以AI化。还有为什么AI考Step One可以通过，是一样的道理。Step One考试，依靠是现存的知识，特别是记忆的比重还是很大的。Google的AI医疗系统，我没有查到他的病人数据来源。很难想象他们能够用美国病人的数据而没有被公众知道。要知道病人数据的privacy是非常严格的regulation。如果说他们用印度病人的数据，或者病人数据来自其他没有privacy保护的国家，我就不会吃惊了。所以AI 看病离我们还很遥远。扯远了。

那么AI真可以替代CS吗？目前还没看到。每家公司的应用有大众性的场景也有特殊的场景，大众场景的AI可能可以提供，这是基于既然是大众场景，那么场景数据也是大众的，可得到的，可判断的，而且够多够海量。但是特殊场景AI没有可依靠的大量数据用来学习，这还是需要人工来思考设计。

从事CS专业有个特点就是不断的迭代更新。比较合适学习能力特别是自学能力强的人，或者有强烈好奇心，navigate能力强的孩子，不一定要考试成绩好，不一定要数学比赛好。成绩和比赛都是基于已经知道的知识，navigation（找不到合适的中文）是消化知识后的串联，是创意，是解决问题。用中文描述就是脑子灵光的孩子。不然，每隔十年的技术升级淘汰，可能就给拍在沙滩上了。不断更新才能做个弄潮者。

如果在DS火的时候，选这个专业顺利毕业入了行，即使这个职位没了，自然有新的职位可以转。而现在在高中的孩子，知道一下趋势，还是有用的。

Data Science 作为正式的本科专业是非常短的时间。2018前后，各大TOP University才相继开出这个专业，然后遍地开花。而大数据红利已接近尾声。我们幸运的是，大数据泡沫没有爆。市场充足的资金，让这个新技术直接无缝连接到GenAI。而在大数据红火的时候，MIT和Standford都是最早提供相关的Online program(Coursera - S 和 edX - MIT) 。

但是DS本身发展速度非常快，淘汰的也快，比如Hadoop，眼看他起高楼，眼看他楼倒了。DS类知识，更合适用提供即时紧跟技术的选修课或者技术培训的方式，而不是一个新专业的设立。当然这只是我个人意见。MIT好像至今都没有DS专业，但是有很多相关课程，MIT果然是老牌STEM学校，这种做法是非常成熟且对学生负责的。

现在的网友不知道还有多少人记得MIS（信息管理专业），30年前很火吧。现在不见了踪影。Data Science作为本科专业，会不会像MIS那样，昙花一现呢？

大学的Data Science专业以及AI

今日热点

一周热点