소프트 하이픈

Soft hyphen
소프트 하이픈용 ISO 기호

컴퓨팅과 식자, 부드러운 하이픈에서(ISO8859:0xAD, 유니 코드 .mw-parser-output .monospaced{font-family:monospace,monospace}U+00AD 에브리 소프트'HYPHEN, HTML:&#x.AD, 또는&#173, 또는&수줍음,)또는 음절 하이픈(ExtendedBinaryCodedDecimalInterchangeCode:0xCA), 약식 SHY 코드 포인트 일부 코드화 문자 세트에서 선을 가로질러 보이는 하이픈을 사용하는 키워드를 입력하여 단어의 목적 위한 거잖아요. 인코딩된 텍스트가 수신인에 의해 선으로 분할될 것인지, 아니면 발신인에 의해 이미 사전 포맷된 것인지에 따라, 이러한 목적을 위해 부드러운 하이픈 문자를 사용하는 두 가지 대안적인 방법이 등장했다.[1][2][3]

수신인이 포맷할 텍스트

수신인에 의해 행으로 분할될 텍스트에서 SHY 문자의 사용은 일부 워드 프로세싱 파일 형식뿐만 아니라 1999년 이후의 HTML유니코드 규격에 의해 고려된 응용 프로그램 컨텍스트다. 이러한 맥락에서, 소프트 하이픈은 임의 하이픈 또는 선택 하이픈이라고도 할 수 있다. 텍스트가 다시 흐를 경우 불편한 곳에서 줄 바꿈을 강요하지 않고 하이픈으로 끊어진 곳을 텍스트로 지정하는 데 사용되는 보이지 않는 마커 역할을 한다. 끝에 단어를 싸고 나서야 비로소 눈에 띈다. 소프트 하이픈의 유니코드 의미론 및 HTML 구현은 여러 면에서 유니코드의 제로 폭 공간과 유사하며, 소프트 하이픈이 보이지 않을 때 어느 한쪽에 있는 문자의 연석을 보존한다는 예외도 있다. 반면에 제로 폭의 공간은 렌더링하지 않더라도 눈에 보이는 문자로 간주되기 때문에 커닝 메트릭스를 갖지 않는다.

HTML에서 소프트 하이픈의 효과를 나타내기 위해, 다음 텍스트의[4] 단어를 소프트 하이픈으로 구분하였다.

마거릿 아레You­Grieving­OvergoldGoldengrove­UnleavingleLeaves­Like­ThethThingsofOfmanMan­YouwithWithyourYourreshFresh­Thoughts­Care­For­Can­유우아히아시TheHeart­Grows­Older­It­Will­To­Such­Sights­Colder­By­Nor­SpareA­Sigh­비록 ­Worlds­Of­Wanwood­Leafme­Lie­And­Yet­You­Will­Weep­And­Know­Why ­Now­No­Matter­Child­The­Name­Sorrows­Springs­Are『The­Same­Nor­Mouth』Had­No­Nor­MindExpressed』What­HeartheartWrengeOfofGhost­Guhed.­It­Is­ TheBlight­Man­Was­Born­For­It­Is­Margaret­유무른포르

소프트 하이픈을 지원하는 HTML 브라우저에서 창 크기를 조정하면 단어 경계에서만 위의 텍스트를 다시 구분하고 각 줄 끝에 하이픈을 삽입한다.

발신자에 의해 미리 포맷된 텍스트

또한 SHY 문자는 특정 일반 텍스트 파일, VT100 스타일의 터미널 에뮬레이터 또는 프린터로 전송되는 텍스트 또는 페이지 설명 언어로 표현된 페이지와 같이 단락이 이미 선으로 분할된 텍스트에서도 사용된다. 이것은 원래 EBCDICISO 8859-1 표준에 의해 고려되었으며 많은 VT100 터미널 에뮬레이터에서 구현된 애플리케이션 컨텍스트다.[1][2]

여기서 샤이(SHY)는 보통 일반 하이픈과 시각적으로 구분할 수 없는 가시적인 하이픈이지만, 오로지 선 파단만을 목적으로 삽입된 것이다. 여기서의 부드러운 하이픈의 목적은 단어의 원래 철자의 일부였을지도 모르는 보통의 하이픈과 그것을 구별하는 것이다. 이러한 구별은 이미 포맷된 텍스트를 재사용하는데 도움이 된다. 단어의 포장을 하는 동안 삽입된 줄 바꿈과 부드러운 하이픈을 제거하여 텍스트를 다시 포맷되지 않은 형식으로 변환해야 할 때. 예를 들어, 단말기 에뮬레이터의 복사 또는 붙여넣기 기능은 줄 바꿈을 공백 문자로 대체하고, 공백 문자 바로 뒤에 오는 문자를 포함하여 부드러운 하이픈을 제거할 수 있다.

이러한 이유로 소프트 하이픈을 출력하는 애플리케이션은 많은 Unix/Linux 시스템에서 man 페이지를 표시하기 위해 사용되는 groff 텍스트 포맷터다.

인코딩 및 정의

코드화된 문자 집합의 SHIE 문자(대략적으로 시간 순서대로):

  • EBCDIC는 SHY 문자(0xCA 16진수)를 위치 202(0xCA 16진수)에 배치했다.[1][5] IBM은 그 목적을 "프로그램이 라인을 조정할 때 제거될 수 있는 [] 줄 끝에 있는 단어를 나누는 데 사용되는 하이픈"[6]으로 정의했다.
  • 독일 표준 DIN 31626은 0x8D를 긴 단어로 음절 경계를 표시하기 위한 "인쇄 제어 문자"인 "옵션 음절 제어(OSC)"로 정의하는 C1 제어 코드 세트를 정의했다. 이 C1 제어 세트는 1979년에 등록되었다([7]참고: 이는 ISO/IEC 6429 C1 제어 코드와 동일하지 않음). OSC(Operating System Command)
  • ISO 8859-1:1986(라틴 1)은 EBCDIC로부터 SHY를 물려받았지만, 이를 "소프트 하이픈"이라 부르고, 0xAD(헥사데시멀) 위치에 놓았으며, 그 목적을 "단어 내에 줄 바꿈이 성립되었을 때 사용하기 위한 것"이라고 명시했다. 다른 ISO 8859 부품은 이 부품이 부족한 ISO 8859-11(라틴/타이)을 제외하고 동일한 위치에 배치했다.
  • IBM 코드 페이지 850(ISO 8859-1 문자를 모두 포함하는 MS-DOS 문자 집합)은 240 = 0xF0 위치에 배치했다.
  • SGML의 "숫자 및 특수 그래픽"(Isonum) 문자 도면요소 집합(ISO 8879:1986)에는 ISO 8859-1 소프트 하이픈에 대한 "­"가 포함되어 있다.
  • 유니코드 1.0(1991)과 ISO 10646(1993)은 ISO 8859-1에서 처음 256개의 코드 위치를 차지하여 U+00AD의 유니코드 코드 포인트에서 SHY를 발생시켰다.
  • HTML 2(1995)는 SGML의 "­" 문자 엔터티를 통합했지만, 분명히 사용을 금지했다.
  • HTML 4(1999)는 문자의 목적을 서식 후 줄 끝에 하이픈으로만 보이는 하이픈으로 다시 정의했다.
  • 유니코드 4.0(2002)은 SHY 문자의 범주를 종전의 "Pd"(paptation, dash)에서 "Cf"(기타, 포맷)로 변경하여 문자에 대한 해석을 HTML 4의 그것과 일치시켰다.

텍스트 형식 지정 언어로 하이픈 연결 기회를 표시하기 위한 기타 명령어(SHY의 HTML 4 및 유니코드 4.0 해석과 유사함

보안 문제

소프트 하이픈은 이메일 스팸에서 악의적도메인이나 URL을 가려내는 데 사용되어 왔다.[9][10]

참고 항목

참조

  1. ^ Jump up to: a b c Jukka Korpela (January 2011). "Soft hyphen (SHY) – a hard problem?". Tampere University of Technology. Retrieved 8 April 2011.
  2. ^ Jump up to: a b Markus G. Kuhn (4 June 2003). "Unicode interpretation of SOFT HYPHEN breaks ISO 8859-1 compatibility" (PDF). Unicode Technical Committee. L2/03-155R.
  3. ^ Eric Muller (14 August 2002). "Yes, SOFT HYPHEN is a hard problem". Unicode Technical Committee. L2/02-279.
  4. ^ 시연 텍스트는 시에서 가져온 것이다.
  5. ^ "Extended Binary-Coded Decimal Interchange Code - S/390". comsci.us. Retrieved 8 April 2011.
  6. ^ "Glossary". IBM. Retrieved 8 April 2011.
  7. ^ DIN (15 July 1979). Additional Control Functions for Bibliographic Use according to German Standard DIN 31626 (PDF). ITSCJ/IPSJ. ISO-IR-040.
  8. ^ "Commonly Confused Characters". Greg Baker, Simon Fraser University. Retrieved 12 July 2011.
  9. ^ "Spammers Using Soft Hyphen To Hide Malicious URLs". Slashdot. 7 October 2010. Retrieved 8 April 2011.
  10. ^ "Soft Hyphen – A New URL Obfuscation Technique". Symantec. Retrieved 8 April 2011.