背景

笔者开发PySpark任务时【别问为神马不用Java和Scala打Jar包的方式，PySpark不需要打包所以开发效率极高，早点搞完早点下班】，遇到一个令所有SQL Boy都很头疼的问题，那就是一旦Python脚本中出现中文，该PySpark任务就报错且无法运行。所以人才们当然是异常机智，先搞个中间表把中文改成拼音，PySpark跑完了再搞个Hive On Tez任务把拼音改回中文，这种笨办法只适合于中文值的种类屈指可数的场景。

由于PySpark任务不能像Hive On Tez任务那样由DataPhin自动解析血缘和依赖，还不支持中文，所以SQL Boy们也是一度灰常嚣张，总觉得Hive On Tez任务就是最好的任务。只有遇到Tez极其严重的性能问题，才会想起来Spark的好处。

作为曾经的平台开发攻城狮，自然是不能让这股风气蔓延，不然大家都变成SQL Boy了，还和Oracle数据库开发攻城狮有啥区别。。。势必解决这个问题。

解决方式

既然Py文件中不能写中文，而我又要用中文，那么借鉴Java开发中常见的前后端Json传参的方式，我也可以Shell给Py文件动态传参，这样Py文件中就完美的规避了中文的明文，自然Py不会报错，而参数值又可以让Python调用系统方法拿到。所以可以这么尝试：

echo "START"
cat > zhiyong.py <

 
经过验证，果然可以show出传入的中文参数！！！ 
原理 
这个cat重定向的py文件不支持直接写中文，大概率是Encoder的问题。但是Shell本身可以正常写中文参数，说明Linux Node的中文语言包和character set正常，那么只需要在外层的Shell预先构建变量，再通过spark-submit提交这个py文件时传入这些内容为中文的String参数，即可在Python脚本中动态获取到变量的值，再去拼接SQL字符串给Spark的算子使用。Python文件中依旧不能有明文的中文。 
SQL和拼接的其它中文字符串的注释可以用#注释掉，写在Shell的头上。 
进一步排查 
这么做，给SQL Boy们使用已经足够了，毕竟他们之前只搞过Oracle数据库开发当然也就只会SQL，除此之外没啥会的东西了。 
但是从平台开发的视角，其实还是可以做进一步的分析。笔者的PyCharm一般是用Python3.7，这么搞PySpark任务即便有中文也跑的很欢快。出现这种情况，首先发现租来的阿里云DataPhin还是老掉牙的Python2.6，那么： 
echo "START"
cat > zhiyong.py <
 
给Py文件的头上+个这玩意儿，期望当然是可以识别中文。 
但是本地、扔服务器都可以跑有中文参数/SQL的PySpark任务，就是扔DataPhin跑不起来。。。 
于是手动cat生成的py文件，发现了惊天大秘密：DataPhin解析有问题，把#的这一行当Linux的注释给filter了。。。 
属实无语的操作。。。 
所以更改脚本的解析方式，或者把基础环境的python升级到3.7都是个比shell传参更好的主意。平台的事情，就不是SQL Boy能解决的了。 
转载请注明出处：https://lizhiyong.blog.csdn.net/article/details/129699142


            
            
                
                
                词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。
                            
            
                
                    上一篇：10个杀手级应用的Python自动化脚本

                
                
                    下一篇：摸索graphQL在前端vue中使用过程（三）                
            
            
            
                
                相关内容


    

    
    
        
        
            
            
                
                
                    
                    
                        
                        热门资讯
                        
                    
                    
                
                
            
            
            
            

                                
                
                    
                    
                        
                    
                    
                    
                    
                        嘉兴男子与妻争吵，突然将行李箱...
                        近日，浙江嘉兴一对夫妻因琐事发生争吵，丈夫突然将装满衣物的行李箱从6楼扔到楼下，引发关注。11月22...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        李圣律师遇袭案二审现反转，被告...
                        
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        三地107家律所齐聚丰台，京津...
                        11月22日，京津冀律师驿站举办“党建业务深度融合 促进行业规范发展”主题活动，发布“百千万行动计划...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        家装预付资金安全困局如何破解，...
                        家装预付资金安全困局如何破解 专家提出：建立“先验收后付款”装修资金存管制度 预交数万元甚至数十万元...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        工行安康解放路支行积极开展《反...
                        为深入贯彻落实《国家金融监督管理总局安康监管分局办公室关于开展<反有组织犯罪法>宣传活动的通知》要求...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        重庆公布育儿补贴制度实施方案
                        原标题：每孩每年3600元 重庆公布育儿补贴制度实施方案 11月21日，记者了解到，市卫生健康委、市...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        十五运会组委会在深总结本届赛事...
                        深圳新闻网2025年11月22日讯（深圳报业集团记者 林炜航）11月21日，十五运会组委会在深圳市民...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        中国军视网：日本妄言击沉福建舰...
                        本文转自【中国军视网】； 日本首相高市早苗发表涉台错误言论，公然挑战一个中国原则，甚至还有日本无知政...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        重磅！东莞长安50万㎡产城发布...
                        在当下竞争激烈的市场环境中，中小企业如何突破成本压力，找到一片既能扎根成长又能眺望未来的理想栖息地？...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        毕马威：政策、资本等多维着力 ...
                        由毕马威联合长三角G60科创走廊创新研究中心主办的“长三角高端装备新质领袖榜单发布仪式”于11月21...