字符集问题的初步探讨(四)

link:

http://www.eygle.com/special/NLS_CHARACTER_SET_04.htm

4. 导入导出及转换

导入导出是我们常用的一个数据迁移及转化工具,因其导出文件具有平台无关性,所以在跨平台迁移中,最为常用。
在导出操作时,非常重要的是客户端的字符集设置,也就是客户端的NLS_LANG设置。
NLS_LANG参数由以下部分组成:

> >
> > > > NLS_LANG=

  1<language>_<territory>.<clients characterset="">
  2&gt;     
  3&gt;     
  4&gt;       
  5&gt;     &gt;   
  6  
  7---  
  8      
  9    
 10    NLS_LANG各部分含义如下:
 11    **LANGUAGE指定:**
 12    -Oracle消息使用的语言
 13    -日期中月份和日显示
 14    **TERRITORY指定**
 15    -货币和数字格式
 16    -地区和计算星期及日期的习惯
 17    **CHARACTERSET:**
 18    -控制客户端应用程序使用的字符集
 19    通常设置或者等于客户端(如Windows)代码页	
 20    或者对于unicode应用设置为UTF8
 21    在Windows上查看当前系统的代码页可以使用chcp命令:
 22    
 23    
 24    
 25
 26&gt; 
 27&gt;     E:\&gt;chcp  
 28&gt;     &gt; 
 29&gt;      活动的代码页: 936  
 30  
 31---  
 32  
 33
 34
 35代码页936也就是中文字符集 GBK,在Microsoft的官方站点上,我们可以遭到关于936代码页的具体编码规则,请参考以下链接: 
 36
 37  
 38http://www.microsoft.com/globaldev/reference/dbcs/936.htm 
 39
 40我们看一个简单的测试,来了解一下这几个参数的作用:    
 41
 42
 43&gt; 
 44&gt;     E:\&gt;set NLS_LANG=SIMPLIFIED CHINESE_CHINA.ZHS16GBK
 45&gt;     
 46&gt;     E:\&gt;sqlplus "/ as sysdba"
 47&gt;     
 48&gt;     SQL*Plus: Release 9.2.0.4.0 - Production on 星期六 11月 1 22:51:59 2003
 49&gt;     
 50&gt;     Copyright (c) 1982, 2002, Oracle Corporation.  All rights reserved.
 51&gt;     
 52&gt;     
 53&gt;     连接到:
 54&gt;     Oracle9i Enterprise Edition Release 9.2.0.4.0 - Production
 55&gt;     With the Partitioning, Oracle Label Security, OLAP and Oracle Data Mining options
 56&gt;     JServer Release 9.2.0.4.0 - Production
 57&gt;     
 58&gt;     SQL&gt; select sysdate from dual;
 59&gt;     
 60&gt;     SYSDATE
 61&gt;     ----------
 62&gt;     01-11月-03
 63&gt;     
 64&gt;     已选择 1 行。
 65&gt;     
 66&gt;     SQL&gt; exit
 67&gt;     从Oracle9i Enterprise Edition Release 9.2.0.4.0 - Production
 68&gt;     With the Partitioning, Oracle Label Security, OLAP and Oracle Data Mining options
 69&gt;     JServer Release 9.2.0.4.0 - Production中断开
 70&gt;     
 71&gt;     E:\&gt;set NLS_LANG=AMERICAN_AMERICA.ZHS16GBK
 72&gt;     
 73&gt;     E:\&gt;sqlplus "/ as sysdba"
 74&gt;     
 75&gt;     SQL*Plus: Release 9.2.0.4.0 - Production on Sat Nov 1 22:52:24 2003
 76&gt;     
 77&gt;     Copyright (c) 1982, 2002, Oracle Corporation.  All rights reserved.
 78&gt;     
 79&gt;     
 80&gt;     Connected to:
 81&gt;     Oracle9i Enterprise Edition Release 9.2.0.4.0 - Production
 82&gt;     With the Partitioning, Oracle Label Security, OLAP and Oracle Data Mining options
 83&gt;     JServer Release 9.2.0.4.0 - Production
 84&gt;     
 85&gt;     SQL&gt; select sysdate from dual;
 86&gt;     
 87&gt;     SYSDATE
 88&gt;     ---------
 89&gt;     01-NOV-03
 90&gt;     
 91&gt;     1 row selected.
 92&gt;     
 93&gt;     SQL&gt;
 94&gt;     				  
 95  
 96---  
 97  
 98  
 99查看客户端NLS_LANG设置可以使用以下方法: 
100
101&gt; 
102&gt;     
103&gt;     Windows使用:
104&gt;     
105&gt;     
106&gt;     echo %NLS_LANG%
107&gt;     如:
108&gt;     E:\&gt;echo %NLS_LANG%
109&gt;     AMERICAN_AMERICA.ZHS16GBK
110&gt;     
111&gt;     
112&gt;     
113&gt;     
114&gt;     Unix使用:
115&gt;     
116&gt;     env|grep NLS_LANG
117&gt;     如:
118&gt;     /opt/oracle&gt;env|grep NLS_LANG
119&gt;     NLS_LANG=AMERICAN_CHINA.ZHS16GBK
120&gt;     
121&gt;     	Windows客户端设置,可以在注册表中更改NLS_LANG,具体键值位于:
122&gt;     HKEY_LOCAL_MACHINE\SOFTWARE\ORACLE\HOMExx\
123&gt;     xx指存在多个ORACLE_HOME时系统编号。
124&gt;     
125&gt;       
126  
127---  
128  
129导入和导出是客户端产品,同SQL*PLUS和Oralce Forms一样,因此,使用EXP/IMP工具将按照NLS_LANG定义的方式转换字符集。 
130
131导出使用的字符集将会记录在导出文件中,当文件导入时,将会检查导出时使用的字符集设置,如果这个字符集不同于导入客户端的NLS_LANG   
132设置,字符集将根据导入客户端NLS_LANG设置进行转换,如果必要,在数据插入数据库之前会进行进一步转换。 
133
134通常在导出时最好把客户端字符集设置得和数据库端相同,这样可以避免在导出时发生不必要的数据转换,导出文件将和数据库具有相同的字符集。   
135即使将来会把导出文件导入到不同字符集的数据库中,这样做也可以把转换延缓至导入时刻。 
136
137当进行数据导入时,主要存在以下两种情况:   
1381.源数据库和目标数据库具有相同字符集设置   
139这时,只需要设置NLS_LANG等于数据库字符集即可导入(前提是,导出使用的是和源数据库相同字符集,即三者相同) 
140
1412.源数据库和目标数据库字符集不同   
142如果我们导出时候使用的NLS_LANG是和源数据库相同的字符集,那么导入时就可以设置客户端NLS_LANG等于导出时使用的字符集,这   
143样转换只发生在数据库端,而且只发生一次。 
144
145例如:   
146如果进行从WE8MSWIN1252到UTF8的转换   
1471)使用NLS_LANG=AMERICAN_AMERICA.WE8MSWIN1252导出数据库。   
148这时创建的导出文件包含WE8MSWIN1252的数据   
1492)导入时使用NLS_LANG=AMERICAN_AMERICA.WE8MSWIN1252   
150这时转换仅发生在insert数据到UTF8的数据库中。 
151
152以上假设的转换只在目标数据库字符集是源数据库字符集的超集时才能转换。如果不同,一般就需要进行一些特殊的处理。 
153
154我们简单看一下导入的转换过程(以Oracle8i为例): 
155
1561.确定导出数据库字符集环境   
157通过读取导出文件头,可以获得导出文件的字符集设置   
1582.确定导入session的字符集,即导入Session使用的NLS_LANG环境变量   
1593.IMP读取导出文件   
160读取导出文件字符集ID,和导入进程的NLS_LANG进行比较   
1614.如果导出文件字符集和导入Session字符集相同,那么在这一步骤内就不需要转换   
162如果不同,就需要把数据转换为导入Session使用的字符集。   
163然而这种转换只能在单byte字符集之间进行。   
164我们看一个测试:   
165
166
167&gt; 
168&gt;     E:\nls2&gt;set NLS_LANG=AMERICAN_AMERICA.US7ASCII
169&gt;     
170&gt;     设置导入session NLS_LANG为US7ASCII
171&gt;     
172&gt;     E:\nls2&gt;e:\oracle\ora8i\bin\imp eygle/eygle file=Sus7ascii-Cus7ascii-exp817.dmp fromuser=eygle touser=eygle tables=test
173&gt;     
174&gt;     这个导出文件是从US7ASCII数据库导出,导出客户端NLS_LANG也是US7ASCII
175&gt;     
176&gt;     Import: Release 8.1.7.1.1 - Production on Fri Nov 7 00:59:22 2003
177&gt;     
178&gt;     (c) Copyright 2000 Oracle Corporation.  All rights reserved.
179&gt;     
180&gt;     Connected to: Oracle8i Enterprise Edition Release 8.1.7.1.1 - Production
181&gt;     With the Partitioning option
182&gt;     JServer Release 8.1.7.1.1 - Production
183&gt;     
184&gt;     这时导入,在DMP文件和NLS_LANG之间不需要进行字符集转换。
185&gt;     
186&gt;     Export file created by EXPORT:V08.01.07 via conventional path
187&gt;     import done in US7ASCII character set and ZHS16GBK NCHAR character set
188&gt;     import server uses ZHS16GBK character set (possible charset conversion)
189&gt;     export server uses UTF8 NCHAR character set (possible ncharset conversion)
190&gt;     . . importing table                         "TEST"          2 rows imported
191&gt;     Import terminated successfully without warnings.
192&gt;     				  
193  
194---  
195  
1965.对于多Byte字符集的导入(如:UTF8)   
197需要设置导入Session字符集和导出字符集相同   
198否则就会遇到:IMP-16 "Required character set conversion (type %lu to %lu) not supported" 错误。   
199: 
200
201&gt; 
202&gt;     E:\nls2&gt;set NLS_LANG=AMERICAN_AMERICA.ZHS16GBK
203&gt;     
204&gt;     导入Session字符集设置为ZHS16GBK
205&gt;     导入US7ASCII的导出文件
206&gt;     
207&gt;     E:\nls2&gt;e:\oracle\ora8i\bin\imp eygle/eygle file=Sus7ascii-Cus7ascii-exp817.dmp fromuser=eygle touser=eygle
208&gt;     
209&gt;     Import: Release 8.1.7.1.1 - Production on Fri Nov 7 00:38:55 2003
210&gt;     
211&gt;     (c) Copyright 2000 Oracle Corporation.  All rights reserved.
212&gt;     
213&gt;     
214&gt;     Connected to: Oracle8i Enterprise Edition Release 8.1.7.1.1 - Production
215&gt;     With the Partitioning option
216&gt;     JServer Release 8.1.7.1.1 - Production
217&gt;     
218&gt;     IMP-00016: required character set conversion (type 1 to 852) not supported
219&gt;     IMP-00000: Import terminated unsuccessfully
220&gt;     
221&gt;     在从导出文件US7ASCII到导入 NLS_LANG设置为ZHS16GBK的过程中,不支持单Byte字符集向多Byte转换,报出以上错误。
222&gt;     				  
223  
224---  
225  
2266.导入Session字符集应该是导出字符集的超级,否则,专有的字符将难以正确转换。   
2277.当数据转换为导入Session字符集设置以后,如果导入Session字符集不同于导入数据库字符集,这时还需要最后一步转换,这要求导入数据库字符   
228集是导入session字符集的超级,否则某些专有字符将不能正常转换。   
229我们继续看上面的两个过程,这里有这样两个原则:   
2301.如果NLS_LANG的设置和数据库相同,那么数据(在传输过程中当然是2进制码)不经过转换就直接插入数据库中。   
2312.如果NLS_LANG的设置和数据库不同,那么数据需要转换后才能插入数据库中。   
232我们再回头来看上面的第一个例子:   
233: 
234
235&gt; 
236&gt;     Export file created by EXPORT:V08.01.07 via conventional path
237&gt;     import done in US7ASCII character set and ZHS16GBK NCHAR character set
238&gt;     import server uses ZHS16GBK character set (possible charset conversion)
239&gt;     export server uses UTF8 NCHAR character set (possible ncharset conversion)
240&gt;     . . importing table                         "TEST"          2 rows imported
241&gt;     Import terminated successfully without warnings.
242&gt;     
243&gt;     这时候经过第一步转换后的数据,US7ASCII到ZHS16GBK丢失首位,原样插入数据库,我们看到这时数据库中存放的就是错误的字符(在后面  
244&gt;     &gt; 部分我们做了详细的转换):
245&gt;     
246&gt;     E:\nls2&gt;sqlplus eygle/eygle
247&gt;     
248&gt;     SQL*Plus: Release 9.2.0.4.0 - Production on Fri Nov 7 00:35:39 2003
249&gt;     
250&gt;     Copyright (c) 1982, 2002, Oracle Corporation.  All rights reserved.
251&gt;     
252&gt;     
253&gt;     Connected to:
254&gt;     Oracle8i Enterprise Edition Release 8.1.7.1.1 - Production
255&gt;     With the Partitioning option
256&gt;     JServer Release 8.1.7.1.1 - Production
257&gt;     
258&gt;     SQL&gt; select * from test;
259&gt;     
260&gt;     NAME
261&gt;     --------------------
262&gt;     2bJT
263&gt;     test
264&gt;     				  
265  
266---  
267  
268在Oracle9i中,以上情况略有不同。</clients></territory></language>
Published At
Categories with 数据库类
Tagged with
comments powered by Disqus