MySQL数据库优化

作者:码农

原文链接:https://segmentfault.com/a/1190000006158186#comment-areajava

当MySQL单表记录数过大时,增删改查性能都会急剧下降,可以参考以下步骤来优化:

单表优化

除非单表数据未来会一直不断上涨,否则不要一开始就考虑拆分,拆分会带来逻辑、部署、运维的各种复杂度,一般以整型值为主的表在千万级以下,字符串为主的表在五百万以下是没有太大问题的。

而事实上很多时候MySQL单表的性能依然有不少优化空间,甚至能正常支撑千万级以上的数据量:

字段

  • 尽量使用TINYINTSMALLINTMEDIUM_INT作为整数类型而非INT,如果非负则加上UNSIGNED
  • VARCHAR的长度只分配真正需要的空间
  • 使用枚举或整数代替字符串类型
  • 尽量使用TIMESTAMP而非DATETIME
  • 单表不要有太多字段,建议在20以内
  • 避免使用NULL字段,很难查询优化且占用额外索引空间
  • 用整型来存IP

索引

  • 索引并不是越多越好,要根据查询有针对性的创建,考虑在WHEREORDER BY命令上涉及的列建立索引,可根据EXPLAIN来查看是否用了索引还是全表扫描
  • 应尽量避免在WHERE子句中对字段进行NULL值判断,否则将导致引擎放弃使用索引而进行全表扫描
  • 值分布很稀少的字段不适合建索引,例如”性别”这种只有两三个值的字段
  • 字符字段只建前缀索引
  • 字符字段最好不要做主键
  • 不用外键,由程序保证约束
  • 尽量不用UNIQUE,由程序保证约束
  • 使用多列索引时主意顺序和查询条件保持一致,同时删除不必要的单列索引

查询SQL

  • 可通过开启慢查询日志来找出较慢的SQL
  • 不做列运算:SELECT id WHERE age + 1 = 10,任何对列的操作都将导致表扫描,它包括数据库教程函数、计算表达式等等,查询时要尽可能将操作移至等号右边
  • sql语句尽可能简单:一条sql只能在一个cpu运算;大语句拆小语句,减少锁时间;一条大sql可以堵死整个库
  • 不用`SELECT *``
  • OR改写成IN:OR的效率是n级别,IN的效率是log(n)级别,in的个数建议控制在200以内
  • 不用函数和触发器,在应用程序实现
  • 避免%xxx式查询
  • 少用JOIN
  • 使用同类型进行比较,比如用’123’和’123’比,123和123比
  • 尽量避免在WHERE子句中使用!=<>操作符,否则将引擎放弃使用索引而进行全表扫描
  • 对于连续数值,使用BETWEEN不用INSELECT id FROM t WHERE num BETWEEN 1 AND 5
  • 列表数据不要拿全表,要使用LIMIT来分页,每页数量也不要太大

引擎

目前广泛使用的是MyISAM和InnoDB两种引擎:

MyISAM

MyISAM引擎是MySQL 5.1及之前版本的默认引擎,它的特点是:

  • 不支持行锁,读取时对需要读到的所有表加锁,写入时则对表加排它锁
  • 不支持事务
  • 不支持外键
  • 不支持崩溃后的安全恢复
  • 在表有读取查询的同时,支持往表中插入新纪录
  • 支持BLOB和TEXT的前500个字符索引,支持全文索引
  • 支持延迟更新索引,极大提升写入性能
  • 对于不会进行修改的表,支持压缩表,极大减少磁盘空间占用

InnoDB

  • InnoDB在MySQL 5.5后成为默认索引,它的特点是:
  • 支持行锁,采用MVCC来支持高并发
  • 支持事务
  • 支持外键
  • 支持崩溃后的安全恢复
  • 不支持全文索引 总体来讲,MyISAM适合SELECT密集型的表,而InnoDB适合INSERTUPDATE密集型的表

系统调优参数

可以使用下面几个工具来做基准测试:

  • sysbench:一个模块化,跨平台以及多线程的性能测试工具
  • iibench-mysql:基于 Java 的 MySQL/Percona/MariaDB 索引进行插入性能测试工具
  • tpcc-mysql:Percona开发的TPC-C测试工具

具体的调优参数内容较多,具体可参考官方文档,这里介绍一些比较重要的参数:

  • back_log:back_log值指出在MySQL暂时停止回答新请求之前的短时间内多少个请求可以被存在堆栈中。也就是说,如果MySql的连接数据达到max_connections时,新来的请求将会被存在堆栈中,以等待某一连接释放资源,该堆栈的数量即back_log,如果等待连接的数量超过back_log,将不被授予连接资源。可以从默认的50升至500
  • wait_timeout:数据库连接闲置时间,闲置连接会占用内存资源。可以从默认的8小时减到半小时
  • max_user_connection: 最大连接数,默认为0无上限,最好设一个合理上限
  • thread_concurrency:并发线程数,设为CPU核数的两倍
  • skip_name_resolve:禁止对外部连接进行DNS解析,消除DNS解析时间,但需要所有远程主机用IP访问
  • key_buffer_size:索引块的缓存大小,增加会提升索引处理速度,对MyISAM表性能影响最大。对于内存4G左右,可设为256M或384M,通过查询show status like ‘key_read%’,保证key_reads / key_read_requests在0.1%以下最好
  • innodb_buffer_pool_size:缓存数据块和索引块,对InnoDB表性能影响最大。通过查询show status like ‘Innodb_buffer_pool_read%’,保证(Innodb_buffer_pool_read_requests – Innodb_buffer_pool_reads) / Innodb_buffer_pool_read_requests越高越好
  • innodb_additional_mem_pool_size:InnoDB存储引擎用来存放数据字典信息以及一些内部数据结构的内存空间大小,当数据库对象非常多的时候,适当调整该参数的大小以确保所有数据都能存放在内存中提高访问效率,当过小的时候,MySQL会记录Warning信息到数据库的错误日志中,这时就需要该调整这个参数大小
  • innodb_log_buffer_size:InnoDB存储引擎的事务日志所使用的缓冲区,一般来说不建议超过32MB
  • query_cache_size:缓存MySQL中的ResultSet,也就是一条SQL语句执行的结果集,所以仅仅只能针对select语句。当某个表的数据有任何任何变化,都会导致所有引用了该表的select语句在Query Cache中的缓存数据失效。所以,当我们的数据变化非常频繁的情况下,使用Query Cache可能会得不偿失。根据命中率(Qcache_hits/(Qcache_hits+Qcache_inserts)*100))进行调整,一般不建议太大,256MB可能已经差不多了,大型的配置型静态数据可适当调大. 可以通过命令show status like ‘Qcache_%’查看目前系统Query catch使用大小
  • read_buffer_size:MySql读入缓冲区大小。对表进行顺序扫描的请求将分配一个读入缓冲区,MySql会为它分配一段内存缓冲区。如果对表的顺序扫描请求非常频繁,可以通过增加该变量值以及内存缓冲区大小提高其性能
  • sort_buffer_size:MySql执行排序使用的缓冲大小。如果想要增加ORDER BY的速度,首先看是否可以让MySQL使用索引而不是额外的排序阶段。如果不能,可以尝试增加sort_buffer_size变量的大小
  • read_rnd_buffer_size:MySql的随机读缓冲区大小。当按任意顺序读取行时(例如,按照排序顺序),将分配一个随机读缓存区。进行排序查询时,MySql会首先扫描一遍该缓冲,以避免磁盘搜索,提高查询速度,如果需要排序大量数据,可适当调高该值。但MySql会为每个客户连接发放该缓冲空间,所以应尽量适当设置该值,以避免内存开销过大。
  • record_buffer:每个进行一个顺序扫描的线程为其扫描的每张表分配这个大小的一个缓冲区。如果你做很多顺序扫描,可能想要增加该值
  • thread_cache_size:保存当前没有与连接关联但是准备为后面新的连接服务的线程,可以快速响应连接的线程请求而无需创建新的
  • table_cache:类似于thread_cache_size,但用来缓存表文件,对InnoDB效果不大,主要用于MyISAM

升级硬件

Scale up,这个不多说了,根据MySQL是CPU密集型还是I/O密集型,通过提升CPU和内存、使用SSD,都能显著提升MySQL性能

读写分离

也是目前常用的优化,从库读主库写,一般不要采用双主或多主引入很多复杂性,尽量采用文中的其他方案来提高性能。同时目前很多拆分的解决方案同时也兼顾考虑了读写分离

缓存

缓存可以发生在这些层次:

  • MySQL内部:在系统调优参数介绍了相关设置
  • 数据访问层:比如MyBatis针对SQL语句做缓存,而Hibernate可以精确到单个记录,这里缓存的对象主要是持久化对象Persistence Object
  • 应用服务层:这里可以通过编程手段对缓存做到更精准的控制和更多的实现策略,这里缓存的对象是数据传输对象Data Transfer Object
  • Web层:针对web页面做缓存
  • 浏览器客户端:用户端的缓存

可以根据实际情况在一个层次或多个层次结合加入缓存。这里重点介绍下服务层的缓存实现,目前主要有两种方式:

  • 直写式(Write Through):在数据写入数据库后,同时更新缓存,维持数据库与缓存的一致性。这也是当前大多数应用缓存框架如Spring Cache的工作方式。这种实现非常简单,同步好,但效率一般。
  • 回写式(Write Back):当有数据要写入数据库时,只会更新缓存,然后异步批量的将缓存数据同步到数据库上。这种实现比较复杂,需要较多的应用逻辑,同时可能会产生数据库与缓存的不同步,但效率非常高。

表分区

MySQL在5.1版引入的分区是一种简单的水平拆分,用户需要在建表的时候加上分区参数,对应用是透明的无需修改代码。

对用户来说,分区表是一个独立的逻辑表,但是底层由多个物理子表组成,实现分区的代码实际上是通过对一组底层表的对象封装,但对SQL层来说是一个完全封装底层的黑盒子。MySQL实现分区的方式也意味着索引也是按照分区的子表定义,没有全局索引。

用户的SQL语句是需要针对分区表做优化,SQL条件中要带上分区条件的列,从而使查询定位到少量的分区上,否则就会扫描全部分区,可以通过EXPLAIN PARTITIONS来查看某条SQL语句会落在那些分区上,从而进行SQL优化,如下图5条记录落在两个分区上:

1
2
3
4
5
6
7
mysql> explain partitions select count(1) from user_partition where id in (1,2,3,4,5);
+----+-------------+----------------+------------+-------+---------------+---------+---------+------+------+--------------------------+
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+----------------+------------+-------+---------------+---------+---------+------+------+--------------------------+
| 1 | SIMPLE | user_partition | p1,p4 | range | PRIMARY | PRIMARY | 8 | NULL | 5 | Using where; Using index |
+----+-------------+----------------+------------+-------+---------------+---------+---------+------+------+--------------------------+
1row in set (0.00 sec)

分区的好处是:

  • 可以让单表存储更多的数据
  • 分区表的数据更容易维护,可以通过清楚整个分区批量删除大量数据,也可以增加新的分区来支持新插入的数据。另外,还可以对一个独立分区进行优化、检查、修复等操作
  • 部分查询能够从查询条件确定只落在少数分区上,速度会很快
  • 分区表的数据还可以分布在不同的物理设备上,从而搞笑利用多个硬件设备
  • 可以使用分区表赖避免某些特殊瓶颈,例如InnoDB单个索引的互斥访问、ext3文件系统的inode锁竞争
  • 可以备份和恢复单个分区

分区的限制和缺点:

  • 一个表最多只能有1024个分区
  • 如果分区字段中有主键或者唯一索引的列,那么所有主键列和唯一索引列都必须包含进来
  • 分区表无法使用外键约束
  • NULL值会使分区过滤无效
  • 所有分区必须使用相同的存储引擎

分区的类型:

  • RANGE分区:基于属于一个给定连续区间的列值,把多行分配给分区
  • LIST分区:类似于按RANGE分区,区别在于LIST分区是基于列值匹配一个离散值集合中的某个值来进行选择
  • HASH分区:基于用户定义的表达式的返回值来进行选择的分区,该表达式使用将要插入到表中的这些行的列值进行计算。这个函数可以包含MySQL中有效的、产生非负整数值的任何表达式
  • KEY分区:类似于按HASH分区,区别在于KEY分区只支持计算一列或多列,且MySQL服务器提供其自身的哈希函数。必须有一列或多列包含整数值

分区适合的场景有:

  • 最适合的场景数据的时间序列性比较强,则可以按时间来分区,如下所示:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
CREATE TABLE members (
firstname VARCHAR(25) NOT NULL,
lastname VARCHAR(25) NOT NULL,
username VARCHAR(16) NOT NULL,
email VARCHAR(35),
joined DATE NOT NULL
)
PARTITION BY RANGE( YEAR(joined) ) (
PARTITION p0 VALUES LESS THAN (1960),
PARTITION p1 VALUES LESS THAN (1970),
PARTITION p2 VALUES LESS THAN (1980),
PARTITION p3 VALUES LESS THAN (1990),
PARTITION p4 VALUES LESS THAN MAXVALUE
);

查询时加上时间范围条件效率会非常高,同时对于不需要的历史数据能很容的批量删除。

  • 如果数据有明显的热点,而且除了这部分数据,其他数据很少被访问到,那么可以将热点数据单独放在一个分区,让这个分区的数据能够有机会都缓存在内存中,查询时只访问一个很小的分区表,能够有效使用索引和缓存

另外MySQL有一种早期的简单的分区实现 - 合并表(merge table),限制较多且缺乏优化,不建议使用,应该用新的分区机制来替代

垂直拆分

垂直分库是根据数据库里面的数据表的相关性进行拆分,比如:一个数据库里面既存在用户数据,又存在订单数据,那么垂直拆分可以把用户数据放到用户库、把订单数据放到订单库。

垂直分表是对数据表进行垂直拆分的一种方式,常见的是把一个多字段的大表按常用字段和非常用字段进行拆分,每个表里面的数据记录数一般情况下是相同的,只是字段不一样,使用主键关联

比如原始的用户表是:

img

垂直拆分后是:

img

垂直拆分的优点是:

  • 可以使得行数据变小,一个数据块(Block)就能存放更多的数据,在查询时就会减少I/O次数(每次查询时读取的Block 就少)
  • 可以达到最大化利用Cache的目的,具体在垂直拆分的时候可以将不常变的字段放一起,将经常改变的放一起
  • 数据维护简单

缺点是:

  • 主键出现冗余,需要管理冗余列
  • 会引起表连接JOIN操作(增加CPU开销)可以通过在业务服务器上进行join来减少数据库压力
  • 依然存在单表数据量过大的问题(需要水平拆分)
  • 事务处理复杂

水平拆分

概述

水平拆分是通过某种策略将数据分片来存储,分库内分表和分库两部分,每片数据会分散到不同的MySQL表或库,达到分布式的效果,能够支持非常大的数据量。

前面的表分区本质上也是一种特殊的库内分表 库内分表,仅仅是单纯的解决了单一表数据过大的问题,由于没有把表的数据分布到不同的机器上,因此对于减轻MySQL服务器的压力来说,并没有太大的作用,大家还是竞争同一个物理机上的IO、CPU、网络,这个就要通过分库来解决

前面垂直拆分的用户表如果进行水平拆分,结果是:

img

实际情况中往往会是垂直拆分和水平拆分的结合,即将Users_A_MUsers_N_Z再拆成UsersUserExtras,这样一共四张表

水平拆分的优点是:

  • 不存在单库大数据和高并发的性能瓶颈
  • 应用端改造较少
  • 提高了系统的稳定性和负载能力

缺点是:

  • 分片事务一致性难以解决
  • 跨节点Join性能差,逻辑复杂
  • 数据多次扩展难度跟维护量极大

分片原则

  • 能不分就不分,参考单表优化
  • 分片数量尽量少,分片尽量均匀分布在多个数据结点上,因为一个查询SQL跨分片越多,则总体性能越差,虽然要好于所有数据在一个分片的结果,只在必要的时候进行扩容,增加分片数量
  • 分片规则需要慎重选择做好提前规划,分片规则的选择,需要考虑数据的增长模式,数据的访问模式,分片关联性问题,以及分片扩容问题,最近的分片策略为范围分片,枚举分片,一致性Hash分片,这几种分片都有利于扩容
  • 尽量不要在一个事务中的SQL跨越多个分片,分布式事务一直是个不好处理的问题
  • 查询条件尽量优化,尽量避免Select * 的方式,大量数据结果集下,会消耗大量带宽和CPU资源,查询尽量避免返回大量结果集,并且尽量为频繁使用的查询语句建立索引。
  • 通过数据冗余和表分区赖降低跨库Join的可能

这里特别强调一下分片规则的选择问题,如果某个表的数据有明显的时间特征,比如订单、交易记录等,则他们通常比较合适用时间范围分片,因为具有时效性的数据,我们往往关注其近期的数据,查询条件中往往带有时间字段进行过滤,比较好的方案是,当前活跃的数据,采用跨度比较短的时间段进行分片,而历史性的数据,则采用比较长的跨度存储。

总体上来说,分片的选择是取决于最频繁的查询SQL的条件,因为不带任何Where语句的查询SQL,会遍历所有的分片,性能相对最差,因此这种SQL越多,对系统的影响越大,所以我们要尽量避免这种SQL的产生。

解决方案

由于水平拆分牵涉的逻辑比较复杂,当前也有了不少比较成熟的解决方案。这些方案分为两大类:客户端架构和代理架构。

客户端架构

通过修改数据访问层,如JDBC、Data Source、MyBatis,通过配置来管理多个数据源,直连数据库,并在模块内完成数据的分片整合,一般以Jar包的方式呈现 这是一个客户端架构的例子:

img

可以看到分片的实现是和应用服务器在一起的,通过修改Spring JDBC层来实现

客户端架构的优点是:

  • 应用直连数据库,降低外围系统依赖所带来的宕机风险
  • 集成成本低,无需额外运维的组件

缺点是:

  • 限于只能在数据库访问层上做文章,扩展性一般,对于比较复杂的系统可能会力不从心
  • 将分片逻辑的压力放在应用服务器上,造成额外风险

代理架构

通过独立的中间件来统一管理所有数据源和数据分片整合,后端数据库集群对前端应用程序透明,需要独立部署和运维代理组件

这是一个代理架构的例子:

img

代理组件为了分流和防止单点,一般以集群形式存在,同时可能需要Zookeeper之类的服务组件来管理

代理架构的优点是:

  • 能够处理非常复杂的需求,不受数据库访问层原来实现的限制,扩展性强
  • 对于应用服务器透明且没有增加任何额外负载

缺点是:

  • 需部署和运维独立的代理中间件,成本高
  • 应用需经过代理来连接数据库,网络上多了一跳,性能有损失且有额外风险。

java代碼重構的經驗總結分享

轉載: http://www.cnblogs.com/jun-ma/p/4967839.html
相關文章: https://www.ibm.com/developerworks/cn/java/j-lo-java8streamapi/
java代碼重構的經驗總結分享
java代碼重構的經驗總結分享

幾天前的壹次上線,腦殘手抖不小心寫了bug,雖然組裏的老大沒有說什麽,但心裏面很是難過。同事說我之所以寫蟲子是因為我討厭if/else,這個習慣不好。的確,if/else可以幫助我們很方便的寫出流程控制代碼,簡潔明了,這個條件做什麽,那個條件做什麽,說得很清楚。說真的,我從來不反對if/else,從經驗上看,越復雜的業務場景下,代碼寫的越簡單單壹,通常越不容易出錯。以結果為導向的現代項目管理方式,這是壹種很有效實踐經驗。

同事說的沒錯,我的確很討厭if/else。這個習慣很大程度是受Thoughtworks壹位咨詢師朋友影響,他經常在我耳邊嶗刀,寫代碼要幹凈,要簡潔,要靈活多變,不要固守城規,不要動不動就if/else,switch/case。初入it領域,我壹直把這句話奉為經典。在以後的學習工作中也時刻提醒自己要讓自己的代碼盡可能的看起來簡潔,不失靈活。不喜歡if/else並不意味著拒絕它,該使用的時候必要使用,比如函數接口入參check,處理異常分支邏輯流程等。通常能不用分支語句,我盡量不會使用,因為我覺得if/else很醜,每每看到if/else代碼,總會以挑剔的眼光看待它,想想能不能重構的更好。大多數時候,關於什麽好的代碼,大家的意見往往分歧很大,每個人都有各自的想法,審查妳代碼的人可能會選擇另壹種實現方式,這並不能說明誰對誰錯。

OO設計遵循SOLID(單壹功能、開閉原則、裏氏替換、接口隔離以及依賴反轉)原則,使用這個原則去審視if/else,可能會發現很多問題,比如不符合單壹原則,它本身就像壹團漿糊,融合了各種作料,黏糊糊的很不幹凈;比如不符合開閉原則,每新增壹種場景,就需要修改源文件增加壹條分支語句,業務邏輯復雜些若有1000種場景就得有1000個分支流,這種情況下代碼不僅僅惡心問題了,效率上也存在很大問題。由此可見,if/else雖然簡單方便,但不恰當的使用會給編碼代碼帶來非常痛苦的體驗。針對這種惡心的if/else分支,我們當然首先想到的去重構它–在不改變代碼外部功能特征的前提下對代碼內部邏輯進行調整和優化,但,如何做呢?前段時間在項目中正好遇到壹個惡心的if/else例子,想在這篇博客裏和大家分享壹下去除if/else重構的歷程。

java代碼重構的經驗總結分享

if/else的惡瘤

有句話說的好–好文章是改出來,同樣,好的代碼也肯定是重構出來的,因為沒有哪個軟件工程師能夠拍著胸脯保證在項目之初代碼設計這塊,就考慮到了所有需求變化可能性的擴展。隨著項目的不斷成長,業務邏輯變的越來越復雜,代碼也開始變的越來越多,原有的設計可能不再滿足需求,那麽此時必須要重構。就系統整體架構而言,重構可能需要很大的改動,可能在架構流程上需要評審;就功能內代碼層次而言,這種重構在我們編碼過程中隨時可以進行,類似於if/else,swicth/case這種代碼的重構也屬於這種類型。今天我們要重構的if/else源碼如下所示,針對不同的status code,CountRecoder對象會執行不同的set方法,為不同內部屬性賦值。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
public CountRecoder getCountRecoder(List countEntries) {
CountRecoder countRecoder = new CountRecoder();
for (CountEntry countEntry : countEntries) {
if (1 == countEntry.getCode()) {
countRecoder.setCountOfFirstStage(countEntry.getCount());
} else if (2 == countEntry.getCode()) {
countRecoder.setCountOfSecondStage(countEntry.getCount());
} else if (3 == countEntry.getCode()) {
countRecoder.setCountOfThirdtage(countEntry.getCount());
} else if (4 == countEntry.getCode()) {
countRecoder.setCountOfForthtage(countEntry.getCount());
} else if (5 == countEntry.getCode()) {
countRecoder.setCountOfFirthStage(countEntry.getCount());
} else if (6 == countEntry.getCode()) {
countRecoder.setCountOfSixthStage(countEntry.getCount());
}
}
return countRecoder;
}

CountRecoder對象是壹個簡單的Java Bean,用於保存壹天之中六種狀態分別對應的數據條目,提供了get和set方法。CountEntry是對應數據庫中每種狀態的數據條目記錄,包含狀態code和以及count兩個字段, 我們可以使用mybatis實現數據庫記錄和java對象之間的轉換。上面getCountRecoder的方法實現了將list轉換為CountRecoder的功能。

看到這段代碼,想必已經有很多人要呵呵了,像壹坨啥啥啥,長得這麽醜,真不知道它”爸媽”怎麽想的,怎麽敢”生”出來。啥都不說了,直接回爐重構吧。重構是門藝術,Martin flow曾寫過壹本書《重構改變代碼之道》,裏面詳細的記錄了重構的方法論,感興趣的朋友可以閱讀壹下。說到重構,通常我們在重構中會遇到壹個問題,那就是如何能夠保證重構的代碼不改變原有的外部功能特征 ?經過TDD訓練的朋友應該知道答案,那就是單元測試,重構之前要寫單元測試,準確的來說應該是補單元測試,畢竟TDD的核心理念是測試驅動開發。對於今天博客中分享的例子,因為代碼邏輯比較簡單,所以偷了懶,省卻了單元測試的歷程。

重構初體驗–反射

要重構上面的代碼,對設計模式精通的人可以立馬可以看出來這是使用策略模式/狀態模式的絕佳場景,將策略模式稍微變換,工廠模式應該也是ok的,當然也有些人會選擇使用反射。對於這些方法,這裏不壹壹列出,主要想講壹下使用反射和工廠模式如何解決消除if/else問題,那先說反射吧,代碼如下所示:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
private static Map methodsMap = new HashMap<>();

static {
methodsMap.put(1, "setCountOfFirstStage");
methodsMap.put(2, "setCountOfSecondStage");
methodsMap.put(3, "setCountOfThirdtage");
methodsMap.put(4, "setCountOfForthtage");
methodsMap.put(5, "setCountOfFirthStage");
methodsMap.put(6, "setCountOfSixthStage");
}

public CountRecoder getCountRecoderByReflect(List countEntries) {
CountRecoder countRecoder = new CountRecoder();
countEntries.stream().forEach(countEntry -> fillCount(countRecoder, countEntry));
return countRecoder;
}

private void fillCount(CountRecoder shippingOrderCountDto, CountEntry countEntry) {
String name = methodsMap.get(countEntry.getCode());
try {
Method declaredMethod = CountRecoder.class.getMethod(name, Integer.class);
declaredMethod.invoke(shippingOrderCountDto, countEntry.getCount());
} catch (Exception e) {
System.out.println(e);
}
}

重構初體驗–所謂模式

使用反射去掉if/else的原理很簡單,使用HashMap建立狀態碼和需要調用的方法的方法名之間的映射關系,對於每個CountEntry,首先取出狀態碼,然後根據狀態碼獲得相應的要調用方法的方法名,然後使用java的反射機制就可以實現對應方法的調用了。本例中使用反射的確可以幫助我們完美的去掉if/else的身影,但是,眾所周知,反射效率很低,在高並發的條件下,反射絕對不是壹個良好的選擇。除去反射這種方法,能想到的就剩下使用策略模式或者與其類似的狀態模式,以及工廠模式了,我們以工廠模式為例,經典的架構UML架構圖通常由三個組成要素:

抽象產品角色:通常是壹個抽象類或者接口,裏面定義了抽象方法
具體產品角色:具體產品的實現類,繼承或是實現抽象策略類,通常由壹個或多個組成類組成。
工廠角色:持有抽象產品類的引用,負責動態運行時產品的選擇和構建
策略模式的架構圖和工廠模式非常類似,不過在策略模式裏執行的對象不叫產品,叫策略。在本例中,這裏的產品是虛擬產品,它是服務類性質的接口或者實現。Ok,按照工廠模式的思路重構我們的代碼,我們首先定義壹個抽象產品接口FillCountService,裏面定義產品的行為方法fillCount,代碼如下所示:

1
2
3
public interface FillCountService {
void fillCount(CountRecoder countRecoder, int count);
}

接著我們需要分別實現這六種服務類型的產品,在每種產品中封裝不同的服務算法,具體的代碼如下所示:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
class FirstStageService implements FillCountService {
@Override
public void fillCount(CountRecoder countRecoder, int count) {
countRecoder.setCountOfFirstStage(count);
}
}

class SecondStageService implements FillCountService {
@Override
public void fillCount(CountRecoder countRecoder, int count) {
countRecoder.setCountOfSecondStage(count);
}
}

class ThirdStageService implements FillCountService {
@Override
public void fillCount(CountRecoder countRecoder, int count) {
countRecoder.setCountOfThirdtage(count);
}
}

class ForthStageService implements FillCountService {
@Override
public void fillCount(CountRecoder countRecoder, int count) {
countRecoder.setCountOfForthtage(count);
}
}

class FirthStageService implements FillCountService {
@Override
public void fillCount(CountRecoder countRecoder, int count) {
countRecoder.setCountOfFirthStage(count);
}
}

class SixthStageService implements FillCountService {
@Override
public void fillCount(CountRecoder countRecoder, int count) {
countRecoder.setCountOfSixthStage(count);
}
}

緊接著,我們需要是實現工廠角色,在工廠內需要實現產品的動態選擇算法,使用HashMap維護狀態code和具體產品的對象之間的映射關系,
就可以非常容易的實現這壹點,具體代碼如下所示:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
public class FillCountServieFactory {

private static Map fillCountServiceMap = new HashMap<>();

static {
fillCountServiceMap.put(1, new FirstStageService());
fillCountServiceMap.put(2, new SecondStageService());
fillCountServiceMap.put(3, new ThirdStageService());
fillCountServiceMap.put(4, new ForthStageService());
fillCountServiceMap.put(5, new FirthStageService());
fillCountServiceMap.put(6, new SixthStageService());
}

public static FillCountService getFillCountStrategy(int statusCode) {
return fillCountServiceMap.get(statusCode);
}
}

客戶端在具體使用的時候就變的很簡單,那getCountRecoder方法就可以用下面的代碼實現:

1
2
3
4
5
6
7
public CountRecoder getCountRecoder(List countEntries) {
CountRecoder countRecoder = new CountRecoder();
countEntries.stream().forEach(countEntry ->
FillCountServieFactory.getFillCountStrategy(countEntry.getCode())
.fillCount(countRecoder, countEntry.getCount()));
return countRecoder;
}

重構初體驗–Java8對模式設計的精簡

和反射壹樣使用設計模式也同樣完美的去除了if/else,但是不得不引入大量的具體服務實現類,同時程序中出現大量的模板代碼,使得我們程序看起來很不幹凈,幸好Java 8之後引入了Functional Interface,我們可以使用lambda表達式來去除這些模板代碼。將壹個接口變為Functional interface,可以通過在接口上添加FunctionalInterface註解實現,代碼如下所示:

1
2
3
4
@FunctionalInterface
public interface FillCountService {
void fillCount(CountRecoder countRecoder, int count);
}

那麽具體的服務實現類就可以使用壹個簡單的lambda表達式代替,原先的FirstStageService類對象就可以使用下面的表達式代替:

(countRecoder, count) -> countRecoder.setCountOfFirstStage(count)
那麽工廠類中的代碼就可以變為:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
`public class FillCountServieFactory {`

private static Map<Integer, FillCountService> fillCountServiceMap = new HashMap<>();

static {
fillCountServiceMap.put(1, (countRecoder, count) -> countRecoder.setCountOfFirstStage(count));
fillCountServiceMap.put(2, (countRecoder, count) -> countRecoder.setCountOfSecondStage(count));
fillCountServiceMap.put(3, (countRecoder, count) -> countRecoder.setCountOfThirdtage(count));
fillCountServiceMap.put(4, (countRecoder, count) -> countRecoder.setCountOfForthtage(count));
fillCountServiceMap.put(5, (countRecoder, count) -> countRecoder.setCountOfFirthStage(count));
fillCountServiceMap.put(6, (countRecoder, count) -> countRecoder.setCountOfSixthStage(count));
}

public static FillCountService getFillCountStrategy(int statusCode) {
return fillCountServiceMap.get(statusCode);
}
`}`

這樣我們的代碼就重構完畢了,當然了還是有些不完美,程序中的魔法數字不利於閱讀理解,可以使用易讀的常量標識它們,在這裏就不做過多說明了。

總結

Craig Larman曾經說過軟件開發最重要的設計工具不是什麽技術,而是壹顆在設計原則方面訓練有素的頭腦。重構的最終結果不壹定會讓代碼變少,相反還有可能增加程序的復雜度和抽象性,就本例中的if/else而言,確實如此。我非常贊同我的壹位朋友說的話,做技術要有追求,沒錯if/else可以在代碼中工作的挺好,也可以很容易的被接替者所理解,但是我們可以有更好的選擇,因為簡單的代碼也可以變得很精彩。多勤多思,也許有壹天真的就可以達到Craig所說的在設計原則方面擁有訓練有素的頭腦,誰說不是這樣呢?加油吧。

How to ORDER BY FIELD VALUE in MongoDB

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65

db.getCollection('form').aggregate([{
'$project': {
'name': 1,
'code': 1,
'handlerUserId': 1,
'handlerName': 1,
'reviewerUserId': 1,
'reviewerName': 1,
'createdUserId': 1,
'createdUserName': 1,
'address': 1,
'tnNumber': 1,
'createdDate': 1,
'updatedDate': 1,
'description': 1,
'formId': 1,
'formNo': 1,
'showFormNo': 1,
'jsonObject': 1,
'formTypeId': 1,
'version': 1,
'supervisorStatus': 1,
'supervisorStatusId':
{
$switch:
{
branches: [
{
case: { $eq : [ '$supervisorStatus', "FORM_NOT_SUBMITTED" ] },
then: 5
},
{
case: { $eq : [ '$supervisorStatus', "FORM_PROCESSING" ] },
then: 4
},
{
case: { $eq : [ '$supervisorStatus', "FORM_SUBMITTED_FOR_REVIEW" ] },
then: 3
},
{
case: { $eq : [ '$supervisorStatus', "FORM_APPROVED" ] },
then: 2
},
{
case: { $eq : [ '$supervisorStatus', "FORM_AUDIT_WAS_REJECTED" ] },
then: 1
}

],
default: 0
}
}
}
},
{
"$sort": {
"weight": -1
}
},
{ "$skip" : 0},

{ "$limit" : 20},

])
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
ProjectionOperation projectOperation = project("name", "code", "handlerUserId", "handlerName", "reviewerUserId", "reviewerName", "createdUserId", "createdUserName", "address", "tnNumber", "createdDate", "updatedDate", "description", "formId", "formNo", "showFormNo", "supervisorStatus", "formTypeId", "version")
.and(ConditionalOperators.switchCases(
ConditionalOperators.Switch.CaseOperator.when(
ComparisonOperators.Eq.valueOf("$supervisorStatus").equalToValue(FormConstant.FORM_STATUS_APPROVED.getKey()))
.then(5),
ConditionalOperators.Switch.CaseOperator.when(
ComparisonOperators.Eq.valueOf("$supervisorStatus").equalToValue(FormConstant.FORM_STATUS_AUDIT_WAS_REJECTED.getKey()))
.then(4),
ConditionalOperators.Switch.CaseOperator.when(
ComparisonOperators.Eq.valueOf("$supervisorStatus").equalToValue(FormConstant.FORM_STATUS_SUBMITTED_FOR_REVIEW.getKey()))
.then(3),
ConditionalOperators.Switch.CaseOperator.when(
ComparisonOperators.Eq.valueOf("$supervisorStatus").equalToValue(FormConstant.FORM_STATUS_NOT_SUBMITTED.getKey()))
.then(2),
ConditionalOperators.Switch.CaseOperator.when(
ComparisonOperators.Eq.valueOf("$supervisorStatus").equalToValue(FormConstant.FORM_STATUS_PROCESSING.getKey()))
.then(1)).defaultTo(0)
).as("supervisorStatusId");
SortOperation sortOperation = sort(DESC, "supervisorStatusId");
SkipOperation skipOperation = new SkipOperation(formListSearchDto.getOffset());
LimitOperation limitOperation = limit(formListSearchDto.getLimit());
TypedAggregation<Form> agg = newAggregation(Form.class,
projectOperation,
sortOperation,
skipOperation,
limitOperation
);
AggregationResults<Form> result = mongoTemplate.aggregate(agg, "form", Form.class);
List<Form> stateStatsList = result.getMappedResults();
long count = this.mongoTemplate.count(query, Form.class);
page = new PageImpl(stateStatsList, pageable, count);

JPA高級動態查詢

1
2
3
4
5
6
7
8
9
10
11
12
13
14
  @Override
public List<String> findAllByUserAndStatusAndDepartmentIn(User user, String key, Department department) {
CriteriaBuilder criteriaBuilder = entityManager.getCriteriaBuilder();
CriteriaQuery<String> query = criteriaBuilder.createQuery(String.class);
Root<User> root = query.from(User.class);
query.select(root.get("id"));
Join<User,Department> join = root.join("departments", JoinType.LEFT);
query.orderBy(criteriaBuilder.desc(root.get("createdDate")));
Predicate restrictions = criteriaBuilder.conjunction();
restrictions = criteriaBuilder.and(join.get("id").in(department.getId()));
query.where(restrictions);
List<String> result = entityManager.createQuery(query).getResultList();
return result;
}

leetcode-35-search-insert-position

Description

Given a sorted array and a target value, return the index if the target is found. If not, return the index where it would be if it were inserted in order.

You may assume no duplicates in the array.

Example 1:

1
2
Input: [1,3,5,6], 5
Output: 2

Example 2:

1
2
Input: [1,3,5,6], 2
Output: 1

Example 3:

1
2
Input: [1,3,5,6], 7
Output: 4

Example 1:

1
2
Input: [1,3,5,6], 0
Output: 0

leetcode-28-implement-strstr

Description

Implement strStr().

Return the index of the first occurrence of needle in haystack, or -1 if needle is not part of haystack.

Example 1:

1
2
Input: haystack = "hello", needle = "ll"
Output: 2

Example 2:

1
2
Input: haystack = "aaaaa", needle = "bba"
Output: -1

Clarification:

What should we return when needle is an empty string? This is a great question to ask during an interview.

For the purpose of this problem, we will return 0 when needle is an empty string. This is consistent to C’s strstr() and Java’s indexOf()).

leetcode-27-remove-element

Description

Given an array nums and a value val, remove all instances of that value in-place and return the new length.

Do not allocate extra space for another array, you must do this by modifying the input array in-place with O(1) extra memory.

The order of elements can be changed. It doesn’t matter what you leave beyond the new length.

Example 1:

1
2
3
4
5
Given nums = [3,2,2,3], val = 3,

Your function should return length = 2, with the first two elements of nums being 2.

It doesn't matter what you leave beyond the returned length.

Example 2:

1
2
3
4
5
6
7
Given nums = [0,1,2,2,3,0,4,2], val = 2,

Your function should return length = 5, with the first five elements of nums containing 0, 1, 3, 0, and 4.

Note that the order of those five elements can be arbitrary.

It doesn't matter what values are set beyond the returned length.

Clarification:

Confused why the returned value is an integer but your answer is an array?

Note that the input array is passed in by reference, which means modification to the input array will be known to the caller as well.

Internally you can think of this:

1
2
3
4
5
6
7
8
// nums is passed in by reference. (i.e., without making a copy)
int len = removeElement(nums, val);

// any modification to nums in your function would be known by the caller.
// using the length returned by your function, it prints the first len elements.
for (int i = 0; i < len; i++) {
print(nums[i]);
}

leetcode-26-remove-duplicates-from-sorted-array

Description

Given a sorted array nums, remove the duplicates in-place such that each element appear only once and return the new length.

Do not allocate extra space for another array, you must do this by modifying the input array in-place with O(1) extra memory.

Example 1:

1
2
3
4
5
Given nums = [1,1,2],

Your function should return length = 2, with the first two elements of nums being 1 and 2 respectively.

It doesn't matter what you leave beyond the returned length.

Example 2:

1
2
3
4
5
Given nums = [0,0,1,1,1,2,2,3,3,4],

Your function should return length = 5, with the first five elements of nums being modified to 0, 1, 2, 3, and 4 respectively.

It doesn't matter what values are set beyond the returned length.

Clarification:

Confused why the returned value is an integer but your answer is an array?

Note that the input array is passed in by reference, which means modification to the input array will be known to the caller as well.

Internally you can think of this:

1
2
3
4
5
6
7
8
// nums is passed in by reference. (i.e., without making a copy)
int len = removeDuplicates(nums);

// any modification to nums in your function would be known by the caller.
// using the length returned by your function, it prints the first len elements.
for (int i = 0; i < len; i++) {
print(nums[i]);
}

leetcode-15-three-sum

Description

Given an array nums of n integers, are there elements a, b, c in nums such that a + b + c = 0? Find all unique triplets in the array which gives the sum of zero.

Note:

The solution set must not contain duplicate triplets.

Example:

1
2
3
4
5
6
7
Given array nums = [-1, 0, 1, 2, -1, -4],

A solution set is:
[
[-1, 0, 1],
[-1, -1, 2]
]

Hello World

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.

Quick Start

Create a new post

$ hexo new "My New Post"

More info: Writing

Run server

$ hexo server

More info: Server

Generate static files

$ hexo generate

More info: Generating

Deploy to remote sites

$ hexo deploy

More info: Deployment

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×