判断txt文件字符集 您所在的位置:网站首页 怎么查看文件字符集 判断txt文件字符集

判断txt文件字符集

2024-07-12 17:00| 来源: 网络整理| 查看: 265

    在提取txt文件时,发现个别文件的文字出现乱码,很是烦恼。后发现问题与txt文件所用字符集有关,在提取文件内容之前先行判断文件所用字符集,根据字符集有针对性地提取,情况有所改善。

   具体方法为,提取文件前四个字节,这四个字节提示txt所用的字符集,具体如下:

if ( first3Bytes[0] == (byte) 0xFF && first3Bytes[1] == (byte) 0xFE ) { charset = "UTF-16LE"; } //FEFF 开头,为UTF-16BE else if ( first3Bytes[0] == (byte) 0xFE && first3Bytes[1] == (byte) 0xFF ) { charset = "UTF-16BE"; } //EFBBBF 开头,为UTF-8 else if ( first3Bytes[0] == (byte) 0xEF && first3Bytes[1] == (byte) 0xBB && first3Bytes[2] == (byte) 0xBF ) { charset = "UTF-8"; } //FFFE 开头,为unicode else if(first3Bytes[0]==(byte)0xFF&&first3Bytes[1]==(byte)0xFE){ charset = "unicode"; } //FEFF 开头,为unicode big endian else if(first3Bytes[0]==(byte)0xFE&&first3Bytes[1]==(byte)0xFF){ charset="unicode big endian"; } //其他情况默认为GBK编码 else{ charset="GBK"; }

这里,因为处理的文件大部分为中文,所以默认其他情况为GBK编码,也许不够严谨,但是可以处理大部分的情况。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有