HTML文書のタグ取り

HTML書類について、ヘッダ部分を削除した後、タグをスペースに置き換えます。


#tag.html
text = ""

while line = gets
  newline = line.gsub(/<[Hh][Ee][Aa][Dd]>.*<\/[Hh][Ee][Aa][Dd]>/,"")
  text += newline
end

print text.gsub(/<.*>/,' ')
print "\n"


実行する場合には、Ktermなどのターミナルから

$ ruby tag.rb hoge.html > hoge.txt

のように入力してください。


Back