[python] how to extract (unicode) code point

reference: http://stackoverflow.com/questions/7291120/python-and-unicode-code-point-extraction

#python3
for i in range(1,100000): # try range(44032,55203) for Korean
print(i, chr(i), repr(chr(i)), repr(chr(i).encode('utf8')))
if i%30==0:
input("Enter to continue")

#python2

for i in range(1,100000):

print i, unichr(i), repr(unichr(i)), repr(unichr(i).encode('utf8'))

if i%30==0:

raw_input("Enter to continue")

#result

1 u'\x01' '\x01'

2 u'\x02' '\x02'

3 u'\x03' '\x03'

4 u'\x04' '\x04'

5 u'\x05' '\x05'

6 u'\x06' '\x06'

7 u'\x07' '\x07'

8 u'\x08' '\x08'

...snipped...

241 ñ u'\xf1' '\xc3\xb1'

242 ò u'\xf2' '\xc3\xb2'

243 ó u'\xf3' '\xc3\xb3'

244 ô u'\xf4' '\xc3\xb4'

245 õ u'\xf5' '\xc3\xb5'

246 ö u'\xf6' '\xc3\xb6'

247 ÷ u'\xf7' '\xc3\xb7'

248 ø u'\xf8' '\xc3\xb8'

249 ù u'\xf9' '\xc3\xb9'

250 ú u'\xfa' '\xc3\xba'

251 û u'\xfb' '\xc3\xbb'

252 ü u'\xfc' '\xc3\xbc'

253 ý u'\xfd' '\xc3\xbd'

254 þ u'\xfe' '\xc3\xbe'

255 ÿ u'\xff' '\xc3\xbf'

256 Ā u'\u0100' '\xc4\x80'

257 ā u'\u0101' '\xc4\x81'

258 Ă u'\u0102' '\xc4\x82'

...snipped...

44032 가 u'\uac00' '\xea\xb0\x80'

44033 각 u'\uac01' '\xea\xb0\x81'

44034 갂 u'\uac02' '\xea\xb0\x82'

44035 갃 u'\uac03' '\xea\xb0\x83'

44036 간 u'\uac04' '\xea\xb0\x84'

44037 갅 u'\uac05' '\xea\xb0\x85'

44038 갆 u'\uac06' '\xea\xb0\x86'

44039 갇 u'\uac07' '\xea\xb0\x87'

44040 갈 u'\uac08' '\xea\xb0\x88'

...snipped...

이 블로그의 인기 게시물

[맞춤법] 안돼(o) vs 안되(x); 안돼요(o) 안되요(x); 안되지(o) vs 안돼지(x);

source: http://k.daum.net/qna/view.html?qid=0FKVD&l_cid=Q&l_st=1 쉽게 구분하는 방법만 말씀드리겠습니다. 안돼요는 안되어요가 줄어든 말입니다. 예를 들어보겠습니다. 당신이 그러면 안되지. 당신이 그러면 안돼지. 첫번째 문장이 맞고 두번째 문장이 틀립니다. 두번째 문장을 '당신이 그러면 안되어지'로 바꾸면 말이 이상하지요. '안돼지'로 쓸 수 있는 것은 '안되어지'로 쓸 수 있는 것입니다. 요즘 사업이 잘 안(돼서 되서) 죄송합니다. '돼서'와 '되서' 가운데 어떤 것이 맞을까요? 사업이 잘 '안되어서'가 말이 되니까 '안돼서'가 맞습니다. 즉, 이 두가지를 쉽게 구분하는 방법은 '돼' 자리에 '되어'를 넣어봐서 말이 되면 '돼'고 말이 안되면 '되'를 쓰면 됩니다. 아니면 되 자리에 하를 넣어보고 돼 자리에 해를 넣어서 어색하지 않으면 그대로 쓰면 됩니다. 안되요는 안하요가 되니 틀린 말이고 안돼요는 안해요가 되니 맞는 말입니다. 결국 안돼요가 표준어입니다.

자세한 내용 보기

[hooking, 후킹, 훅킹] Hooking이란?

source: http://jinhokwon.blogspot.kr/2013/01/hooking.html Hooking 이란? [출처] http://blog.daum.net/guyya/2444691 훅킹(Hooking)이란 이미 작성되어 있는 코드의 특정 지점을 가로채서 동작 방식에 변화를 주는 일체의 기술 이다. 훅이란 낚시바늘같은 갈고리 모양을 가지는데 여기서는 코드의 중간 부분을 낚아채는 도구라는 뜻으로 사용된다. 대상 코드의 소스를 수정하지 않고 원하는 동작을 하도록 해야 하므로 기술적으로 어렵기도 하고 운영체제의 통상적인 실행 흐름을 조작해야 하므로 때로는 위험하기도 하다. 훅킹을 하는 방법에는 여러 가지가 있는데 과거 도스 시절에 흔히 사용하던 인터럽터 가로채기 기법이나 바로 앞에서 알아본 서브클래싱도 훅킹 기법의 하나라고 할 수 있다. 이외에도 미리 약속된 레지스트리 위치에 훅 DLL의 이름을 적어 주거나 BHO(Browser Helper Object)나 응용 프로그램 고유의 추가 DLL(Add in)을 등록하는 간단한 방법도 있고 PE 파일의 임포트 함수 테이블을 자신의 함수로 변경하기, CreateRemoteThread 함수로 다른 프로세스의 주소 공간에 DLL을 주입(Injection)하는 방법, 메모리의 표준 함수 주소를 덮어 쓰는 꽤 어려운 방법들도 있다. 이런 고급 훅킹 기술은 이 책의 범위를 벗어나므로 여기서는 소개만 하고 다루지는 않기로 한다. 이 절에서 알아볼 메시지 훅은 윈도우로 전달되는 메시지를 가로채는 기법으로 다양한 훅킹 방법중의 하나이다. 메시지 기반의 윈도우즈에서는 운영체제와 응용 프로그램, 또는 응용 프로그램 사이나 응용 프로그램 내부의 컨트롤끼리도 많은 메시지들을 주고 받는다. 훅(Hook)이란 메시지가 목표 윈도우로 전달되기 전에 메시지를 가로채는 특수한 프로시저이다. 오고 가는 메시지를 감시하기 위한 일종의 덫(Trap)인 셈인데 일단 응용 프로그램이 훅 프로시저를 설치하면 메시지가 ...

자세한 내용 보기

[인코딩] MS949부터 유니코드까지

UHC = Unified Hangul Code = 통합형 한글 코드 = ks_c_5601-1987 이는 MS사가 기존 한글 2,350자밖에 지원하지 않던 KS X 1001이라는 한국 산업 표준 문자세트를 확장해 만든 것으로, 원래 문자세트의 기존 내용은 보존한 상태로 앞뒤에 부족한 부분을 채워넣었다. (따라서 KS X 1001에 대한 하위 호환성을 가짐) 그럼, cp949는 무엇일까? cp949는 본래 코드 페이지(code page)라는 뜻이라 문자세트라 생각하기 십상이지만, 실제로는 인코딩 방식이다. 즉, MS사가 만든 "확장 완성형 한글 ( 공식명칭 ks_c_5601-1987 ) "이라는 문자세트를 인코딩하는 MS사 만의 방식인 셈이다. cp949 인코딩은 표준 인코딩이 아니라, 인터넷 상의 문자 송수신에 사용되지는 않는다. 하지만, "확장 완성형 한글" 자체가 "완성형 한글"에 대한 하위 호환성을 고려해 고안됐듯, cp949는 euc-kr에 대해 (하위) 호환성을 가진다. 즉 cp949는 euc-kr을 포괄한다. 따라서, 윈도우즈에서 작성되어 cp949로 인코딩 되어있는 한글 문서들(txt, jsp 등등)은 사실, euc-kr 인코딩 방식으로 인터넷 전송이 가능하다. 아니, euc-kr로 전송해야만 한다.(UTF-8 인코딩도 있는데 이것은 엄밀히 말해서 한국어 인코딩은 아니고 전세계의 모든 문자들을 한꺼번에 인코딩하는 것이므로 euc-kr이 한국어 문자세트를 인코딩할 수 있는 유일한 방식임은 변하지 않는 사실이다.) 물론 이를 받아보는 사람도 euc-kr로 디코딩을 해야만 문자가 깨지지 않을 것이다. KS X 1001을 인코딩하는 표준 방식은 euc-kr이며 인터넷 상에서 사용 가능하며, 또한 인터넷상에서 문자를 송수신할때만 사용.(로컬하드에 저장하는데 사용하는 인코딩방식으로는 쓰이지 않는 듯하나, *nix계열의 운영체제에서는 LANG을 euc-kr로 설정 가능하기도 한걸...

자세한 내용 보기

Jinuine Blog

이 블로그 검색