-
Kafka 的生成者、消费者、broker 的基本概念
kafka是一款基于发布与订阅的消息系统。它一般被称为“分布式提交日志”或者“分布式流平台”。文件系统或者数据库提交日志用来提供所有事物的持久化记录,通过重建这些日志可以重建系统的状态。同样地,kafka的数据是按照一定顺序持久化保存的,可以按需读取。...
04月23日[解决方案]浏览:17
-
四十一、SparkSQL读取parquet数据源(必须要弄懂)
1.Parquet文件介绍Apache Parquet是Hadoop生态圈中一种新型的列式存储格式,它可以兼容Hadoop生态圈中大多数据的计算框架,如Hadoop, Spark,它也被多种查询引擎所支持,例如Hive, Impala等,而且它是跨语言和平台的。Parquet的产生是由Twitter...
04月23日[解决方案]浏览:26
-
-
从零开始学SQL进阶,数据分析师必备SQL取数技巧,建议收藏
上一节给大家讲到SQL取数的一些基本内容,包含SQL简单查询与高级查询,需要复习相关知识的同学可以跳转至上一节,本节给大家讲解SQL的进阶应用,在实际过程中用途比较多的子查询与窗口函数,下面一起学习。...
04月23日[解决方案]浏览:29
-
SQL窗口函数知多少?
我们在日常工作中是否经常会遇到需要排名的情况,比如:每个部门按业绩来排名,每人按绩效排名,对部门销售业绩前N名的进行奖励等。面对这类需求,我们就需要使用sql的高级功能——窗口函数。...
04月23日[解决方案]浏览:26
-
-
聊一聊SQL Server中的Row_Number
排序函数提供了一个非常好的特性,即在SQL中为结果集中的记录分配编号。SQL中的Row_Number是其中一个函数,它允许我们为结果集数据的行分配排名或编号。根据使用的排序函数的类型,将不同的值分配给不同的行。它们主要有以下几种类型:Row_NumberRankDense_RankNTile在本文中...
04月23日[解决方案]浏览:25
-
PostgreSQL分区表操作:TRUNCATE TABLE技巧与优化
MySQL和PostgreSQL的分区表该如何操作,特别是TRUNCATE PARTITION这个功能,分区表在大数据场景下非常有用,能显著提升查询性能和管理效率。咱们一起来看看这两个数据库在分区表操作上的异同,以及实际应用中的一些技巧和坑。...
04月23日[解决方案]浏览:26
-
sqlserver删除重复数据只保留一条,使用ROW_NUMER()与Partition By
1.使用场景: 公司的小程序需要实现一个功能:在原有小程序上,有一个优惠券活动表。 存储着活动产品数据,但因为之前没有做约束,导致数据的不唯一,这会使打开产品详情页时,可能会出现随机显示任意活动问题。 因此需要把它删除掉。2.那么如何删除呢? 通过翻阅资料发现我们可以通过使用Row_Number( ...
04月23日[解决方案]浏览:23
-
SQL Server 中处理重复数据:保留最新记录的两种方案
大家在项目开发过程中,数据库几乎是每一个后端开发者必备的技能,并且经常会遇到对于数据表重复数据的处理,一般需要去除重复保留最新的记录。今天这里给大家分享两种种方案,希望对大家日常开发能够提供一些帮助!...
04月23日[解决方案]浏览:26