본문 바로가기
컴퓨터 & IT (Computer & IT)/Linux

[Linux/sed] html 태그 없애기

by Physics 2021. 7. 2.
728x90

sed 편집기를 이용하면, html 태그들을 손쉽게 제거할 수 있다. 

기본적으로 html 태그들은 아래와 형식을 가지고 있다. 
  (1) <tag> 
  (2) </tag> 

따라서, html 태그만 제거하는 sed 편집기의 명령어는 아래와 같다. 

$ sed 's/<[^>]*>//g' html_file

   - 태그의 부등호 <>와 부등호 내부의 값(태그)를 빈칸으로 대체한다. 

만일 빈 줄까지 제거하는 경우에는 아래와 같이 sed 편집기를 이용하면 된다. 

$ sed 's/<[^>]*>//g ; /^$/d' html_file
728x90

댓글