내가 많이 쓰는 간단한 방식은
String pattern = "[Tt]he"; // [A-Za-z] \\s \\w \\d
boolean matched = "the".matches(pattern); //=> true : 시작^ 끝$까지 포함해서정확히 일치해야 함.
(참고: https://codechacha.com/ko/java-regex/)
알파벳/숫자/언더바만 포함되었는지 체크하려면..
String pattern = "^[\\w]*$";
boolean a = "abc123".matches(pattern);
알파벳/숫자 만 체크하려면..
String pattern = "^[a-zA-Z0-9]*$";
boolean a = "abc123".matches(pattern);
그룹에서 \1 즉 "\\1"은 첫번째 엘리먼트를 뜻함. = m.group(1)
\\b (바운더리) 는 이스케이프 캐릭터로서 단어를 찾을때 앞뒤에 넣으면 좋음.
중복된 단어 하나로 만들기 예제
// String regex = "\\b(\\w+)\\b(?=.*\\b\\1\\b)";
// String regex = "(\\b\\w+)(\\W\\1\\b)+";
//이것도 잘되나 String regex = "\\b(\\w+)(\\s\\1)+\\b";
String regex = "(\\w+)(\\s\\1)+"; //이게 제일 심플하면서 어느정도 동작 확인.
//스페이스 제외하고 앞부분만을 word로 보는듯.
Pattern p = Pattern.compile(regex, Pattern.CASE_INSENSITIVE);
String input = in.nextLine();
Matcher m = p.matcher(input);
// Check for subsequences of input that match the compiled pattern
while (m.find()) {
// System.out.println("==" + m.group() + "," + m.group(1)+".");
input = input.replaceAll(m.group() , m.group(1));
}
// Prints the modified sentence.
System.out.println(input);
Regex Test 사이트는 https://regex101.com/
java API: https://docs.oracle.com/javase/8/docs/api/java/util/regex/Pattern.html
Regex자료는 여기서 참고: Ref
표현식 | 설명 |
^ | 문자열의 시작, [^a-z] 에서는 NOT의 의미로 쓰임. |
$ | 문자열의 종료 |
. | 임의의 한 문자 (문자의 종류 가리지 않음) 단, \ 는 넣을 수 없음 |
* | 앞 문자가 없을 수도 무한정 많을 수도 있음 |
+ | 앞 문자가 하나 이상 |
? | 앞 문자가 없거나 하나있음 |
[] | 문자의 집합이나 범위를 나타내며 두 문자 사이는 - 기호로 범위를 나타낸다. []내에서 ^가 선행하여 존재하면 not 을 나타낸다. |
{} | 횟수 또는 범위를 나타낸다. => {1,3} 콤마를 써야 함. |
() | 소괄호 안의 문자를 하나의 문자로 인식 |
| | 패턴 안에서 or 연산을 수행할 때 사용 |
\s | 공백 문자 |
\S | 공백 문자가 아닌 나머지 문자 |
\w | 알파벳이나 숫자 (언더바도 체크함) |
\W | 알파벳이나 숫자를 제외한 문자 |
\d | 숫자 [0-9]와 동일 |
\D | 숫자를 제외한 모든 문자 |
\ | 정규표현식 역슬래시(\)는 확장 문자 역슬래시 다음에 일반 문자가 오면 특수문자로 취급하고 역슬래시 다음에 특수문자가 오면 그 문자 자체를 의미 |
(?i) | 앞 부분에 (?i) 라는 옵션을 넣어주면 대소문자를 구분하지 않음 |
▲ 출처 : http://lng1982.tistory.com/141