컴퓨터 & IT (Computer & IT)/Linux
[Linux/sed] html 태그 없애기
UltraLowTemp-Physics
2021. 7. 2. 16:03
sed 편집기를 이용하면, html 태그들을 손쉽게 제거할 수 있다.
기본적으로 html 태그들은 아래와 형식을 가지고 있다.
(1) <tag>
(2) </tag>
따라서, html 태그만 제거하는 sed 편집기의 명령어는 아래와 같다.
$ sed 's/<[^>]*>//g' html_file
- 태그의 부등호 <>와 부등호 내부의 값(태그)를 빈칸으로 대체한다.
만일 빈 줄까지 제거하는 경우에는 아래와 같이 sed 편집기를 이용하면 된다.
$ sed 's/<[^>]*>//g ; /^$/d' html_file