Mai jos regăsiți un scurt tutorial despre cum să extrageți conținutul din HTML utilizând nokogiri și cum să salvați acest conținut într-un fișier text (.txt).
Cerințe preliminare:
- instalați nokogiri (gem install nokogiri);
- obțineți un fișier .html care să aibă conținut (ex: test.html);
- creați un fișier text (ex: tags.txt).
Codul Ruby aferent:
Cod: Selectaţi tot
require 'nokogiri'
doc = File.open("/Users/admin/Desktop/test.html") { |f| Nokogiri::HTML(f) }
puts "### Scrap"
begin
file = File.open("/Users/admin/Desktop/tags.txt", "w")
#use css selector to target the node that contains content
doc.css('span.select-menu-item-text.js-select-button-text.js-navigation-open').each do |span|
puts span.content
file.write(span.content.to_s + "\n")
end
rescue IOError => e
#some error occur, dir not writable etc.
ensure
file.close unless file.nil?
end
Autor thread: stefanciprian, Echipa Specialişti IT
Mulțumesc