使用python识别垃圾unicode字符串
发布时间:2020-12-20 11:41:35 所属栏目:Python 来源:网络整理
导读:我的脚本是从csv文件中读取数据,csv文件可以有多个英语或非英语单词串. 有时候文本文件有垃圾字符串,我想识别那些字符串并跳过这些字符串并处理其他字符串 doc = codecs.open(input_text_file,"rb",'utf_8_sig')fob = csv.DictReader(doc)for row,entry in e
我的脚本是从csv文件中读取数据,csv文件可以有多个英语或非英语单词串.
有时候文本文件有垃圾字符串,我想识别那些字符串并跳过这些字符串并处理其他字符串 doc = codecs.open(input_text_file,"rb",'utf_8_sig') fob = csv.DictReader(doc) for row,entry in enumerate(f): if is_valid_unicode_str(row['Name']): process_futher def is_valid_unicode_str(value): try: function return True except UnicodeEncodeError: return false csv输入: "Name" "?¨?¢a |