- 数据科学50年演进:数智化的基石
- 2023年04月12日来源:北国网
提要:苏萌说,这50年来非常幸运——在信息技术起飞的年代里亲历了数据科学1.0-3.0,见证了每一个关键时刻。3月30日,当他站在2023数据科学峰会的演讲台上,以自身和百分点科技的视角全面解构数据科学的四个代际之时,吸引了上百万人次沉浸式体验这场数据科学穿越之旅。
50年,在这个科技飞速跃迁的时代意味着什么?
对基因科学来说,DNA双螺旋结构被提出之后,涌现出基因克隆、基因组测序等多项技术,直接促进了现代生物技术产业的兴起;
对通信工程来说,低损耗光纤的发明直接推动了数据通信、视频数据流、云计算的发展,造就了当今世界万物互联的生活方式;
对数据科学来说,被提出后的50年中不断丰富自身的内涵和外延,构成了今天数智化时代的基石。
五十年前,很难想象到这些开创性的事件对当今世界的影响。
百分点科技董事长兼CEO 苏萌
苏萌说,这50年来非常幸运——在信息技术起飞的年代里亲历了数据科学1.0-3.0,见证了每一个关键时刻。
3月30日,当他站在2023数据科学峰会的演讲台上,以自身和百分点科技的视角全面解构数据科学的四个代际之时,吸引了上百万人次沉浸式体验这场数据科学穿越之旅。
数据科学1.0:小数据时代 & 求学任教
数据科学从诞生之日起,就与数据演进的每一个阶段息息相关。
1974年发生了三件事:
因科学研究计算机模拟产生了大量数据,需要依靠算法发现其中规律,图灵奖得主Peter Naur首次提出了数据科学(Data Science)的概念:基于数据处理的科学,这标志着数据科学的开端;
IBM发明了结构化查询语言SQL,奠定了关系型数据库的基础;
互联网之父罗伯特.卡恩和文顿.瑟夫成功实验了数据包在网络和电脑之间的信息传输,并公布了TCP/IP协议,这奠定了互联网的基础。
这一年,在远离科技中心的中国东北,苏萌刚刚出生。
之后的30多年里,被称为数据科学的小数据时代,主要面向结构化数据、历史数据和线下数据,运用关系型数据库、统计、ETL和数据仓库等技术,服务于商业和公共事务。
例如,金融行业较早地将数据分析技术应用到风险管理和投资决策等方面;电信运营商通过用户画像进行套餐营销;零售行业通过RFID等技术进行供应链数字化改造。
在小数据时代,数据整合、描述性分析和商业智能分析是重点需求。
这些需求催生了一批老牌的数据科学公司,如SAS、SPSS、MathWorks、Wolfram、Alteryx、Palantir等等,带来了数据科学技术应用的早期繁荣。
在这个信息技术起飞的时期,苏萌以求学和科研为主。
1997年到美国留学,完成了统计学、计量经济学和营销模型等学科的学习,在康奈尔大学师从国际营销模型领域大师 Vithala R. Rao 教授,获得了博士学位。期间也曾就职于全球顶尖的计算软件公司Wolfram, 并推动了数据科学软件Mathematica与三十所中国高校的合作。
2006年,北大在全球范围招聘教授,苏萌从两百多位世界知名高校博士毕业生中脱颖而出,受聘北大光华担任助理教授,成为国内高校引进的博士毕业于美国常青藤大学营销模型专业的第一位全职教授,为硕士博士生开设数据建模方面的课程。
2000年前后,美国的Yahoo、Google、Facebook、Twitter等互联网公司纷纷崛起,中国也出现了BAT等巨头,世界进入到了互联网时代。
互联网开启了崭新的数据空间,为数据科学创造了更大的舞台。
这些互联网企业需要用分布式集群的方式来存储、分析和挖掘海量互联网数据,以提高业务运营和决策效率。2004年,Google 发布MapReduce,随后Hadoop的诞生,一个崭新的时代正在开启。
数据科学2.0:大数据时代 & 创业之初
时隔30多年后,无论是数据量还是数据处理能力,都发生了量变到质变,数据科学迎来了进阶时刻。
2008年也发生了三件事:
这一年,中国网民数量2.53亿,首次超过美国,网民规模跃居世界第一;
这一年,中国使用手机上网的人数占网民总数的近30%,进入了手机上网的大众化阶段;
这一年,自然科学国际顶级期刊《Nature》上首次提出了“Big Data”的概念。这犹如一声惊雷,开启了接下来近10年的数据科学大数据时代。
互联网和移动互联网的浪潮不仅带来了更海量的数据,也催生了数据处理分析技术的更迭。
这个阶段,大数据技术风起云涌,Storm、Spark、Flink等新型分布式计算框架像雨后春笋般不断涌现,极大地提高了数据处理的深度、广度和速度。Python语言开始流行,机器学习开始成为数据科学的重要技术手段。
市场端的数据科学应用以单点技术和场景为主,最典型的包括个性化推荐、数字竞价广告、金融风控等。其中,个性化推荐算法是苏萌在康奈尔大学读书期间跟导师共同的研究方向之一。
2008年,他和几位美国顶尖高校的教授合作发表了一篇关于个性化推荐的文章。
苏萌认为,科研不能只体现在论文的发表上,也应该能真正地为产业带来价值。2009年夏天,怀着这个朴素的想法,他在北大附近的中关村公馆租了一间80平米的小公寓,向家人借了50万元,注册成立了百分点科技,专注于研发个性化推荐引擎的算法与技术实现。之后的几年,服务了2,000多家互联网电商和媒体客户,并成为了国内规模最大的推荐引擎技术服务商。
数据科学赛道的独特性在于,它是利用科学方法、流程、算法和系统从数据中提取价值的跨学科领域,一方面是人才培养门槛高,一方面是要具备领域知识。
百分点科技之所以成为国内用数据科学为产业赋能的先行者,并逐渐成长为标杆性企业,与公司创始团队具备深厚的数据科学理论功底和实践经验分不开。
随着资本与技术人才的涌入,以及大数据技术的采纳周期和新的市场需求,互联网领域的大数据浪潮,迅速扩展到了传统行业,一批龙头企业开始拥抱大数据,探索数字化转型。
他和团队感受到了这股浪潮,并率先将在互联网端沉淀下来的大数据技术应用到To B端的企业数字化转型中,并在服务零售、金融、媒体、制造、地产等各行业头部客户的过程中,积累了扎实的行业知识、业务理解和行业上下游生态。
然而,数据科学被更多人关注是因为Patil和 Davenport于2012年在哈佛商业评论上发表的《数据科学家——21世纪最性感的职业》,让数据科学从象牙塔走向公众视野。
随着商业上的繁荣和大众的广泛关注,各国政府开始将发展大数据提升为国家战略。
美国很早便在国家安全领域利用大数据技术,大家熟知的Palantir辅助抓捕本拉登便是经典案例。早在2012年,美国就通过了《大数据研究和发展计划》,后续每年都不断有政策推出,以促进和规范大数据行业发展。
中国在2015年首次提出“国家大数据战略”,发布《促进大数据发展行动纲要》,并在第二届世界互联网大会上首次提出推进数字中国建设。
从此,“数据”成为了自上而下的焦点,大数据也成为了孕育AI的沃土。而数据科学所承载的释放数据生产力的使命从未改变,为数字化持续提供基础性的价值。
数据科学3.0:AI时代 & 业务进阶
数据科学在AI驱动下,持续进行技术融合,成为数智化时代的技术集大成者。
2016年,AlphaGo击败了围棋世界冠军李世石,以深度学习算法为代表的人工智能技术掀起了一波新的浪潮。
2017年,谷歌迭代了Kubernetes多个版本,以容器化技术解决了应用在云上部署的问题。
2018年,谷歌发布了AutoML技术,Facebook推出了PyTorch深度学习框架,人们可以轻松构建和训练自己的自动化机器学习和深度学习模型。Google提出了BERT预训练语言模型,该技术在自然语言处理领域得到广泛应用。
最近OpenAI发布了大型语言模型GPT4.0,生成式AI作为一种全新的运算模式,就像PC、互联网和云计算一样,会有很多应用程序基于GPT诞生。
新技术和新应用,产生了更加海量和实时的文本、语音、图像和视频等多模态数据,这些数据需要进入到可分析、可解释、可参与预测和决策辅助的场景中来。
近几年,中国对于大数据、AI等技术的重视提到了史无前例的高度。
2017年党的十九大将“数字中国”纳入报告之中,推动互联网、大数据、人工智能和实体经济深度融合,发展数字经济形成新动能。为拓展数字经济领域的全球合作,2017年的世界互联网大会上,中国等多个国家共同发起《“一带一路”数字经济国际合作倡议》。
这一年,对于数据科学工程化的产业转化需求从企业端扩展到了政府端,百分点科技也正式开启了To G业务,将之前在互联网和企业服务沉淀的数据科学产品与技术应用于政务领域,面向数字城市、公安、应急、生态环境、营商环境和统计等领域,构建智慧城市数字底座和场景智能应用,助力政府治理能力提升和治理体系现代化。
这一年,百分点科技第一个国际业务项目落地,开启了新一代信息技术科技企业出海的新篇章。七年来,百分点科技用数据科学技术与产品服务了全球20多个国家。
2017年,百分点科技也发布了DeepMatrix 1.0,该系统融合了大数据与人工智能技术,支持复杂业务问题的自动识别和判断,并可以做出前瞻或实时决策。在算力、数据、算法三重因素的驱动下,DeepMatrix 2.0进一步强化了自然语言处理、动态知识图谱等多项认知智能技术。
2021年,经过多年行业成功实践,百分点科技基于探索出的行业落地新范式,正式推出DeepMatrix 3.0。和前两代产品相比,这一版本在数据治理和数据资产运营层面有所加强,将数据自动化地引入到数据治理过程中,并运用搜索、可视化分析等技术挖掘和发挥数据的价值。
数据科学在不断地发展和变迁之中,保持了其价值的基础性和技术的集大成性。随着技术、数据和场景的深化,政企客户对于数据科学的诉求不再是单一工具和单点技术的支持,而是寻求整体解决方案的介入。
国内外一些领先的厂商开始沉淀通用型的数据科学工具,致力于打造端到端的数据科学解决方案。2019年华为推出了ModelArts和DataArts,打通了大数据和人工智能,实现数据全生命周期治理;2021年阿里云PAI首次进入了Gartner魔力象限,标志着国际市场对于中国顶尖企业的数据科学能力的认可。在这期间,国外的Plantir和Alteryx纷纷迭代自己的产品技术并且完成了上市。
经过13年的技术积累与实践,2023年,百分点科技也推出了一站式价值实现平台——数据科学基础平台DeepMatrix 4.0,服务于数据工程师、数据分析师和数据科学家,助力便捷高效地将数据转化为业务知识并辅助决策和行动,最终释放数据价值。
相比于目前数据科学平台市场上的其它产品,DeepMatrix 4.0具备三方面的独特优势:
首先是一体化。平台中的工具、数据、模型、知识都遵循统一的协议、标准和规范,可以无缝对接和互操作。产品中每个模块都可以独立部署和使用,为用户提供了更多的选择和灵活性,满足不同场景的需求。
二是知识化。平台不断沉淀领域中的数据科学知识,包括程序性知识、事实性知识和概念性知识。传统企业的数字化转型面临着冷启动问题,平台能够借助行业内已有的专业知识为其破局。
三是智能化。数据科学基础平台内置了智能辅助开发系统,可以自动化地辅助开发者选择方案以及完成数据适配,并智能化地进行方案精调和改进。同时,能够在数据治理的多个环节依托知识库及语义理解等智能技术帮助开发者提高效率。
百分点科技进入大数据行业较早,因此得以拥有持续完善迭代自身平台产品的条件,拥有从数字化转型方法论、路径规划、产品工具到项目交付、运营服务的一体化方案构建能力,这是目前很多新兴企业难以做到的。
数据科学4.0:数据原生时代 & 践行使命
对于数据科学的未来发展,苏萌说,数字技术的大融合将产生叠加态,我们将进入原生的数据时代。
未来,全球80亿人和无数的物联网设备连接到网络并成为数据源,不断产生关于他们的活动、认知和智慧的大量数据。我们期待这些数据形成普惠型的生产要素,每个人都能通过数据的生产和使用而获益,形成更加平等的生产关系,更加和谐的社会关系。
在这个阶段,大数据、AI、云计算、智能交互等技术将与物理世界深度融合,数据的模态更丰富、质量更高、时效性更强,算法更先进、算力更强大。更重要的是,企业将利用数据原生应用实现对现实世界的理解和改造,这将极大地释放数据要素红利,促进产业数字化的广度和深度,最终解放生产力。
未来的数据科学将走向平民化,随着数据科学通用工具的一体化和平台化、领域知识的程序化和服务化,交互方式的自然语言化,数据科学技术将像互联网一样普惠大众,业务和决策人员将可以跨过程序员直接与数据进行交互,提高分析和决策效率。
针对数据的科学技术将作为重要生产力推动商业模式和社会组织的变革。数据科学的发展将带来新的社会分工,会有一些业务和商业模式可以不依赖于现实世界而直接生长在数据世界里,进而重塑生产关系和商业秩序。
他总结过去五十年中的发展规律:信息技术创造了数字世界,数字技术推动数字经济不断发展,数字经济促进了人类和组织的社会变革,变革又进一步为创新提供了土壤。
他说,用数据科学构建更智能的世界,是百分点科技的使命,也将是其未来继续不懈努力的方向。