netcore服务程序暴力退出导致的业务数据不一致的一种解决方案(
? 一: 问题提出 现如今大家写的netcore程序大多部署在linux平台上,而且服务程序里面可能会做各种复杂的操作,涉及到多数据源(mysql,redis,kafka)。成功部署成后台 进程之后,你以为这样就万事大吉了? 却不知当你更新代码时,暴力的kill掉这个进程导致你的业务出现数据不一致,业务流程被破坏等等问题。比如下面这段代码: ? 1. TestService 1 public class TestService 2 { 3 static void Run() 4 { 5 while (true) 6 { 7 Console.WriteLine($"{DateTime.Now}: 1. 获取mysql"); 8 System.Threading.Thread.Sleep(2000 9 Console.WriteLine(${DateTime.Now}: 2. 获取redis10 System.Threading.Thread.Sleep(11 Console.WriteLine(${DateTime.Now}: 3. 更新monogdb12 System.Threading.Thread.Sleep(13 Console.WriteLine(${DateTime.Now}: 4. 通知kafka14 System.Threading.Thread.Sleep(15 Console.WriteLine(${DateTime.Now}: 5. 所有业务处理完毕16 System.Threading.Thread.Sleep(17 } 18 } 19 } ? 2. Main程序 1 void Main(string[] args) 2 3 var bgtask = Task.Run(() => { TestService.Run(); }); 4 5 bgtask.Wait(); 6 } ? ? ? ? 这里不考虑程序的健壮性,只表达这里可能出现的问题,当程序退出后,这里必然会遇到TestService.Run方法出现未执行完的情况,导致数据不一致,比如下 面我简单的部署了一下,可以看到程序到了 5:03:24s之后就结束了,显然破坏了业务逻辑。程序没有完整的执行结束,那问题该怎么解决呢? [root@localhost netcore]# nohup dotnet ConsoleApp4.dll & [1] 4101 [root@localhost netcore]# nohup: ignoring input and appending output to ‘nohup.out’ [root@localhost netcore]# ps -ef | grep dotnet root 4101 2865 0 17:03 pts/0 00:00 dotnet ConsoleApp4.dll root 4118 00 grep --color=auto dotnet [root@localhost netcore]# kill [root@localhost netcore]# tail nohup.out 9/2/18 5:03:06 PM: 2. 获取redis 08 PM: 3. 更新monogdb 10 PM: 4. 通知kafka 12 PM: 5. 所有业务处理完毕 14 PM: 1. 获取mysql 16 PM: 18 PM: 20 PM: 22 PM: 24 PM: . 获取mysql [1]+ Done nohup dotnet ConsoleApp4.dll [root@localhost netcore]# ? ?? 二:思考 kill 命令 要解决这个问题,大家一定要从kill命令入手, 在centos上进行kill ?-x pid 的时候,不知道有多少人了解了这个命令,除了常见的 kill -9 pid ,其实还有很多其 他的数字,则代表其他的意思,可以通过kill -l 看一下。 1 [root@localhost ~]# kill -l 2 1) SIGHUP 2) SIGINT 3) SIGQUIT 4) SIGILL ) SIGTRAP 3 6) SIGABRT 7) SIGBUS 8) SIGFPE 9) SIGKILL 10) SIGUSR1 4 11) SIGSEGV 12) SIGUSR2 13) SIGPIPE 14) SIGALRM 15) SIGTERM 5 16) SIGSTKFLT 17) SIGCHLD 18) SIGCONT 19) SIGSTOP 20) SIGTSTP 6 21) SIGTTIN 22) SIGTTOU 23) SIGURG 24) SIGXCPU 25) SIGXFSZ 7 26) SIGVTALRM 27) SIGPROF 28) SIGWINCH 29) SIGIO 30) SIGPWR 8 31) SIGSYS 34) SIGRTMIN 35) SIGRTMIN+1 36) SIGRTMIN+2 37) SIGRTMIN+3 9 38) SIGRTMIN+4 39) SIGRTMIN+5 40) SIGRTMIN+6 41) SIGRTMIN+7 42) SIGRTMIN+8 10 43) SIGRTMIN+9 44) SIGRTMIN+10 45) SIGRTMIN+11 46) SIGRTMIN+12 47) SIGRTMIN+13 11 48) SIGRTMIN+14 49) SIGRTMIN+15 50) SIGRTMAX-51) SIGRTMAX-13 52) SIGRTMAX-12 12 53) SIGRTMAX-54) SIGRTMAX-55) SIGRTMAX-56) SIGRTMAX-8 57) SIGRTMAX-7 13 58) SIGRTMAX-59) SIGRTMAX-60) SIGRTMAX-61) SIGRTMAX-3 62) SIGRTMAX-2 14 63) SIGRTMAX-64) SIGRTMAX ? ?其中里面的 2. ? SIGNIT ?(Ctrl+C) 3. ? SIGQUIT (退出) 9. ? SIGKILL ? (强制终止) 15. SIGTERM (终止) ? 都可以让程序退出,好了,线索出来了,那我能不能让程序捕获到kill命令发出的这Sigxxx信号呢??? 通过寻找资料之后的一阵浑身痉挛,你明白了原来只有 -9是不能让程序捕获到,其他的程序都能捕获,那么既然能捕获,我就可以在捕获的事件中做程序的安全退出。 大概的脑图就像下面这样: ? 三:研究如何捕获 ? ? ? ? ? ? ?在core 2.0之后,获取sigterm就非常简单了,可以在当前应用程序域中挂载一个ProcessExit 事件,在ProcessExit中让应用程序安全的退出。 ? 然后还有一个问题就是,如何在ProcessExit中通知TestService结束执行呢? 这里就用到了CancellationTokenSource 这种线程安全的取消协调机制,思考之后 画出来的脑图大概是这个样子,不一定对,但是逻辑大概出来了。。。 ? 四: 问题解决 ? ? 有了上面的脑图,写起代码就快啦~~~ ? 1. Main函数 1 3 var cts = new CancellationTokenSource(); 4 { TestService.Run(cts.Token); }); 6 7 AppDomain.CurrentDomain.ProcessExit += (s,e) => 8 {DateTime.Now} 后台测试服务,准备进行资源清理!10 11 cts.Cancel(); //设置IsCancellationRequested=true,让TestService今早结束 12 bgtask.Wait(); 等待 testService 结束执行 13 14 Console.WriteLine(${DateTime.Now} 恭喜,Test服务程序已正常退出!15 16 Environment.Exit(0 }; 18 19 Console.WriteLine(${DateTime.Now} 后端服务程序正常启动!20 21 22 } ? ? ?Main函数中做了如上的变更,将CancellationToken传递给 Run方法,这样当我执行Cancel的时候,Run方法就能感知到Token的变化,然后就是调用Wait等待 TestService执行结束。 ? 2. TestService Run(CancellationToken token) 7 if (token.IsCancellationRequested) break; 8 17 Console.WriteLine($18 System.Threading.Thread.Sleep(19 20 21 } ? ?? ? ? ? TestService的while循环里面,在周期轮训的开头,加上一个IsCancellationRequested的判断,如果Cancel()方法被调用,IsCancellationRequested就会变 成true,从而让本方法感知到外界让我结束,所以本逻辑就不再进行下一个周期了,从而保证业务逻辑的完整。 ? 五:部署 ? ? ? ? 为了更好的表达效果,我加了很多的日志,还是采用nohup的模式来观察一下程序的流转过程。 1 [root@localhost netcore]# nohup dotnet ConsoleApp1.dll & 2 [2] 4487 3 [root@localhost netcore]# nohup: ignoring input and appending output to ‘nohup.out’ 5 [root@localhost netcore]# dotnet 6 root 4487 1 11 pts/ dotnet ConsoleApp1.dll 7 root 4496 auto dotnet 8 [1]- Done nohup dotnet ConsoleApp1.dll 9 [root@localhost netcore]# 10 [root@localhost netcore]# tail -100 nohup.out 11:17 PM: . 获取mysql 17 PM 后端服务程序正常启动! 19 PM: . 获取redis 21 PM: . 更新monogdb 15 23 PM: . 通知kafka 16 25 PM: . 所有业务处理完毕 17 27 PM: 29 PM: 19 31 PM: 20 33 PM: 21 35 PM: 22 37 PM: 23 39 PM: 24 41 PM: 25 43 PM: 26 45 PM: 27 47 PM: 28 49 PM: 29 50 PM 后台测试服务,准备进行资源清理! 30 51 PM: 31 53 PM: 32 55 PM: 33 57 PM 恭喜,Test服务程序已正常退出! ? ? ? 大家可以清楚的看到,5:11:49 收到了system给过来的kill通知,但是程序还是等到了5:11:57才真正的结束自己,这样是不是就保证了业务流程免遭破坏呢? 好了,本篇就说到这里,希望对你有帮助。 ? (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
- asp.net – 从数据库加载时,DateTime.Kind设置为未指定,而不
- asp.net-mvc-3 – 在编辑模板中,如何将javascript放在head部
- ASP.NET -- WebForm -- .aspx与.aspx.cs文件
- asp.net-mvc – 具有指定操作的Response.RedirectToRoute
- asp.net-mvc – 从.Net MVC View获取HTML而不实际在浏览器中
- asp.net-core – 如何在ASP.NET Core中共享汇编信息?
- 使用ASP.NET MVC 3和实体框架4.1代码首先在SQL CE 4.0中存储
- asp.net-mvc – 如何防止MVC3 html转义我的验证消息?
- asp.net – 为什么在Visual Studio 2010中禁用“使用自定义
- asp.net-mvc – MvcContrib.MVC3-ci和Mvc.Contrib NuGet包之
- asp.net – 使用Spark视图引擎在局部视图中使用不
- 使用.net数据注释验证颜色(十六进制值)
- asp.net-web-api – Web API / JsonMediaTypeFor
- asp.net-mvc – 强类型MVC视图中的linq groupby
- asp.net-mvc – ASP.Net MVC Razor Views – 在构
- ABP官方文档(四十)【ASP.NET Core】
- asp.net – 如何对缓存层进行单元测试
- ASP.NET TreeView:Checked更改后的PostBack?
- asp.net-mvc-3 – 在远程部署MVC3时获取“CS0103
- asp.net – 使用installshield在安装后运行解决方