近年,随着企业数字化转型的不断深入,以及对智能化场景应用需求的日趋迫切,使得企业对大数据、人工智能、BI等技术越来越关注。这使得企业在数据应用实践中面临一个问题,到底是选择大数据还是BI?这是其实是两者实际上时相互依赖,相互渗透递进的。
什么是商业智能?
商业智能,英文是Business Intelligence,缩写BI,是用来帮助企业更好地利用数据提高决策质量的技术集合,是从大量的数据中钻取信息与知识的过程。对于概念大家可能一知半解。如什么叫高质量决策的技术集合?什么叫钻取信息与知识?对于完全没有基础的人是很难理解?下面就从到一个餐厅点单开始说起。
餐厅点单的时候,顾客点了一份水煮鱼片,这是一个需求。有了这个需求,餐厅就得照单备菜,这就需要我们把原材料准备好,比如草鱼或青鱼、配菜如豆芽和千张等,备好的菜统一放置到菜架,厨师就可以直接炒菜了。
对应BI,客户点菜等同于企业提出一个业务需求,比如管理者要查看过去一周全国的销售数据,备菜过程就相当于我们要准备一张报表,这张报表要按照需求准备相关数据,比如销售总数据、子产品数据以及相关的销售人员数据等。同样的,这些备好数据从各种数据源抽取后放到“数据仓库”,报表开发人员可以从里面直接找到数据制作报表。
当然,这只是一个简单的流程,真正的过程还涉及很多步骤。比如下锅炒菜之前,你不能直接把鱼丢尽锅里,你还得给鱼开膛破腹,把内脏取出并进行清洗,还要按照客户的需求,将鱼切成一片片的,这是一个把源材料变成一个真正可用可下锅的一个过程。对BI而言,这个过程就是ETL——Extract抽取,把鱼拿出来;Transformation转换,把鱼变成鱼片,完成清洗和转换工作;Loading加载,把洗净的鱼片放到菜架以供随时下锅。
数据的准备过程和菜品原材料的清洗过程是一样的道理,数据是存放在一些数据表中,但是并不是所有的数据都需要抽取出来,只有需要用到的数据才会被抽取(Extract);涉及到一些数据需要去重、合并计算、格式转换等都属于Transformation阶段;Loading,最后把数据统一加载到数据仓库Data Warehouse,数据仓库中有一组表。
源数据的采集和加载也是同样的道理,数据可能是来自外部系统,也可能来自内部的不同业务系统,比如CRM、ERP,也有来自业务人员的EXCEL表格,这些统称为Data Source数据源。
亦策观数台几乎可以连接任何数据源,包括基于文件的源,特定于应用程序的源以及大数据源。无需事先对其进行完全建模或预先聚合数据。观数台自助数据准备工具,为复杂的场景提供强大的数据集成脚本。这些数据准备功能有助于公开数据区域和可能存在问题的业务,可以创建价值而无需外部工具或数据仓库。
这些数据通过ETL工具原封不动的抽取到一个叫做ODS或者STAGING的数据库先存放起来,就类似于把菜买回来先放到厨房,先放起来。后面才有数据的清洗、整理,完毕之后才放到数据仓库,在之后就是制作报表的过程。
观数台 放大图片
在亦策观数台中,ODS数据库作为业务系统和数据仓库之间的一个隔离层,用于存放从业务系统直接抽取出来的数据。一方面ODS数据库使数据从粒度、组织方式等各个方面都保持与业务系统一致,原来由业务系统产生的报表、细节数据的查询自然能够从ODS中进行,降低对业务系统的查询压力。另一方面数据仓库存储的数据都是汇总过的数据,并不存储每笔交易产生的细节数据,在某些特殊的应用中,可能需要对交易细节数据进行查询,这时就需要把细节数据查询的功能转移到ODS来完成,ODS的数据模型按照面向主题的方式进行存储,可以方便地支持多维分析等查询功能。
大数据不是BI的简单升级
随着大数据、AI等技术快速发展,以及大数据应用在行业的落地,企业对BI和大数据的选择陷入到一个“非此即彼”的思维。专业人士告诉你,不必如此。
虽然大数据与BI是两种不同概念和工具,但却是社会发展到不同阶段的产物,大数据对于BI,既有传承,也有发展。大数据和AI在落地应用的过程中需要一系列产品作为技术承载体,而BI就是一个比较理想的承载体。BI可以看成是技术与业务结合的桥梁。当前企业在进行人工智能改造过程中并不能马上脱离原有的信息化体系,既如此,就必须借助于BI来完成智能化过渡。
从思想角度上来看,大数据和BI都是遵循“数据-信息-知识-智慧”的发展过程,两者的区别在于以下几点:
第一,数据来源。BI的数据来源一般为企业内部信息化系统中的数据,大数据的数据来源不仅包含企业内部的信息化系统的数据,还包括各种外部系统、机器设备、数据库的数据。大数据的数据来源更广泛,而且数据更多的来自于云端,可无限扩展。
第二,发展方向。对企业来说,BI是一种管理和思维方式的转变,对企业内部数据进行分析,支撑企业运营与决策,从传统商业模式走向商业智能。大数据除了解决企业业务问题,还包括与行业、产业的深度融合,不同行业所呈现的内容与分析维度各不相同,是用全新的数据技术手段来拓展和优化企业业务。
第三,技术标签。BI的技术标签包括ETL、数据仓库、OLAP、可视化报表。大数据的技术标签则包括Hadoop、MPP、HDFS、MapReduce、流处理等。随着时代的变革与技术的迭代,BI经历了多次优化和变革,新型BI被赋予更多“大数据”潜能,既满足海量实时数据分析,也满足决策型的业务分析。
目前厂商推出一站式大数据分析平台,基本上都是大数据与BI相结合的产物,既解决了大数据和BI之间如何取舍的问题,还融入了AI增强功能。比如亦策观数台就是新一代增强智能协同BI平台,不仅全面支持中文自然语言查询,还能让用户在所有可视化、图表、图形和其他对象中进行选择,并可以使用全局搜索来表现数据、关联和分析。
因此,对于BI、大数据和AI之间的关系,可以理解为,大数据是AI场景应用的重要基础,而AI是大数据的应用的重要领域。大数据的重要价值体现:一是人工智能产品,为智能体提供的数据量越大,智能体运行的效果就会越好,因为智能体通常需要大量的数据进行“训练”和“验证”,从而保障运行的可靠性和稳定性。二是人工智能需要大量的数据作为“思考”和“决策”的基础,另一方面大数据也需要人工智能技术进行数据价值化操作,比如机器学习就是数据分析的常用方式。