Pagina 1 din 1

Cum să extrageți și salvați cu nokogiri conținutul din HTML într-un fișier text

Scris: 15 Aug 2017, 14:56
de specialist it
Salut,

Mai jos regăsiți un scurt tutorial despre cum să extrageți conținutul din HTML utilizând nokogiri și cum să salvați acest conținut într-un fișier text (.txt).

Cerințe preliminare:

- instalați nokogiri (gem install nokogiri);
- obțineți un fișier .html care să aibă conținut (ex: test.html);
- creați un fișier text (ex: tags.txt).

Codul Ruby aferent:

Cod: Selectaţi tot

require 'nokogiri'

doc = File.open("/Users/admin/Desktop/test.html") { |f| Nokogiri::HTML(f) }

puts "### Scrap"

begin
file = File.open("/Users/admin/Desktop/tags.txt", "w")
        #use css selector to target the node that contains content
	doc.css('span.select-menu-item-text.js-select-button-text.js-navigation-open').each do |span|
	  puts span.content
	  file.write(span.content.to_s + "\n")
	end
rescue IOError => e
#some error occur, dir not writable etc.
ensure
	file.close unless file.nil?
end
Pentru întrebări, vă stăm la dispoziție.

Autor thread: stefanciprian, Echipa Specialişti IT

Mulțumesc