SQL Server服务器CPU爆高解决 - 好文

昨天下午，测试反映trunk测试环境的数据库CPU一直100%，一开始以为是病毒，内网这段时间老是有个挖矿的病毒，查了一下被隔离了，但是数据库还是慢，停掉SQL
server的服务CPU降下来，启动SSQL server的服务器就CPU就到100%，按照正常情况，

SQL Server导致CPU爆高，一般是异常SQL引起，但查询了监控：

查询是RiskControlAnalysis，TaskTrunk库的sql比较多，先分离RiskControlAnalysis看看是否是这个库的原因，分离后CPU还是很高，再分离TaskTrunk库，报错，无法分离，这时怀疑是服务器的磁盘性能问题，停SQL服务，用

CrystalDiskMark 6.0测试一下磁盘的性能，磁盘性能的确不怎样，但是也没差到这样的地步。

后面只能进一步分离TaskTrunk库，分离后，在看服务器CPU，发现正常了，原因就出在TaskTrunk库,后来在看看监控的sql，发现一条查询SQL:

select count(1) from tb_log E where 1=1 and E.taskid=@taskid
　这个tb_log
有3亿条，查询taskid字段没有索引，导致查询IO很慢，进而影响CPU爆高。后重建一张新的tb_log表，并在taskid字段加上索引，以前的表做历史数据。性能问题解决。

现在想想，就一个简单的SQL查询，用DMV性能视图和实时监控的SQL，为何查不出来，这个监控查SQL，他的CPU和时间都不是特别高，并没有特殊异常的情况，而且查数据库也没有未提交的事务在运行。

如果这样的情况出现在线上，解决的时间这么长，肯定会问题。想想有没有简单的方法发现这个SQL，突发灵感，以前查询正在执行的SQL就可以发现这个问题，测试了一下，的确可用：

这个SQL：查询正在执行的SQL

优势： 1，以前的DMV是查已经执行完毕的SQL，如果这个SQL一直假死，性能视图就查不出来

2，和[sp_WhoIsActive]监控出来的sql相比，能很清晰的显示正在执行的sql和等待事件，定位更精准，特别是正在运行的。
--数据库CPU很高，查询问题的SQL，根据时间“等待毫秒”，查出问题的SQL SELECT spid, blocked, DB_NAME(sp.dbid)
AS DBName, program_name, waitresource, sp.waittime 等待毫秒, sp.stmt_start,
lastwaittype, sp.loginame, sp.Status, sp.hostname, a.[Text] AS [TextData],
SUBSTRING(A.text, sp.stmt_start / 2, (CASE WHEN sp.stmt_end = -1 THEN
DATALENGTH(A.text) ELSE sp.stmt_end END - sp.stmt_start) / 2) AS [current_cmd]
FROM sys.sysprocesses AS sp OUTER APPLY sys.dm_exec_sql_text (sp.sql_handle) AS
A WHERE spid > 50 --and lastwaittype='HADR_SYNC_COMMIT' AND Status<>'sleeping'
ORDER BY sp.waittime desc;
　　

热门工具换一换