Utilisez le combinateur d'analyseurs Scala pour analyser les fichiers CSV

Question

Utilisez le combinateur d'analyseurs Scala pour analyser les fichiers CSV

Demandé el 21 de Février, 2011: Quand la question a-t-elle été
8879 affichage: Nombre de visites la question a
3 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Je suis en train d'écrire un fichier CSV à l'aide de l'analyseur Scala analyseur combinators. La grammaire est basé sur RFC4180. Je suis venu avec le code suivant. Il fonctionne presque, mais je n'arrive pas à séparer les différents enregistrements. Qu'ai-je manqué?

object CSV extends RegexParsers {
  def COMMA   = ","
  def DQUOTE  = "\""
  def DQUOTE2 = "\"\"" ^^ { case _ => "\"" }
  def CR      = "\r"
  def LF      = "\n"
  def CRLF    = "\r\n"
  def TXT     = "[^\",\r\n]".r

  def file: Parser[List[List[String]]] = ((record~((CRLF~>record)*))<~(CRLF?)) ^^ { 
    case r~rs => r::rs
  }
  def record: Parser[List[String]] = (field~((COMMA~>field)*)) ^^ {
    case f~fs => f::fs
  }
  def field: Parser[String] = escaped|nonescaped
  def escaped: Parser[String] = (DQUOTE~>((TXT|COMMA|CR|LF|DQUOTE2)*)<~DQUOTE) ^^ { case ls => ls.mkString("")}
  def nonescaped: Parser[String] = (TXT*) ^^ { case ls => ls.mkString("") }

  def parse(s: String) = parseAll(file, s) match {
    case Success(res, _) => res
    case _ => List[List[String]]()
  }
}


println(CSV.parse(""" "foo", "bar", 123""" + "\r\n" + 
  "hello, world, 456" + "\r\n" +
  """ spam, 789, egg"""))

// Output: List(List(foo, bar, 123hello, world, 456spam, 789, egg)) 
// Expected: List(List(foo, bar, 123), List(hello, world, 456), List(spam, 789, egg))

Mise à jour: le problème est résolu

La valeur par défaut RegexParsers ignorer les espaces, y compris l'espace, tabulation, retour chariot et les sauts de ligne à l'aide de l'expression régulière [\s]+. Le problème de l'analyseur au-dessus de l'impossibilité de séparer les enregistrements est à cause de cela. Nous avons besoin de désactiver skipWhitespace mode. Remplacer les espaces définition juste [ \t]} ne résout pas le problème, car il ignore tous les espaces dans les champs (donc "foo bar" dans le CSV devient "foobar"), ce qui est indésirable. La mise à jour de la source de l'analyseur est donc

import scala.util.parsing.combinator._

// A CSV parser based on RFC4180
// http://tools.ietf.org/html/rfc4180

object CSV extends RegexParsers {
  override val skipWhitespace = false   // meaningful spaces in CSV

  def COMMA   = ","
  def DQUOTE  = "\""
  def DQUOTE2 = "\"\"" ^^ { case _ => "\"" }  // combine 2 dquotes into 1
  def CRLF    = "\r\n" | "\n"
  def TXT     = "[^\",\r\n]".r
  def SPACES  = "[ \t]+".r

  def file: Parser[List[List[String]]] = repsep(record, CRLF) <~ (CRLF?)

  def record: Parser[List[String]] = repsep(field, COMMA)

  def field: Parser[String] = escaped|nonescaped


  def escaped: Parser[String] = {
    ((SPACES?)~>DQUOTE~>((TXT|COMMA|CRLF|DQUOTE2)*)<~DQUOTE<~(SPACES?)) ^^ { 
      case ls => ls.mkString("")
    }
  }

  def nonescaped: Parser[String] = (TXT*) ^^ { case ls => ls.mkString("") }



  def parse(s: String) = parseAll(file, s) match {
    case Success(res, _) => res
    case e => throw new Exception(e.toString)
  }
}

Demandé el 21 de Février, 2011 par Rio

Answer 1

3 Réponses

Answer 2

30voto

extempore Points 8016

Ce que vous avez manqué, c'est un espace. J'ai ajouté quelques améliorations supplémentaires.

 import scala.util.parsing.combinator._

object CSV extends RegexParsers {
  override protected val whiteSpace = """[ \t]""".r

  def COMMA   = ","
  def DQUOTE  = "\""
  def DQUOTE2 = "\"\"" ^^ { case _ => "\"" }
  def CR      = "\r"
  def LF      = "\n"
  def CRLF    = "\r\n"
  def TXT     = "[^\",\r\n]".r

  def file: Parser[List[List[String]]] = repsep(record, CRLF) <~ opt(CRLF)
  def record: Parser[List[String]] = rep1sep(field, COMMA)
  def field: Parser[String] = (escaped|nonescaped)
  def escaped: Parser[String] = (DQUOTE~>((TXT|COMMA|CR|LF|DQUOTE2)*)<~DQUOTE) ^^ { case ls => ls.mkString("")}
  def nonescaped: Parser[String] = (TXT*) ^^ { case ls => ls.mkString("") }

  def parse(s: String) = parseAll(file, s) match {
    case Success(res, _) => res
    case _ => List[List[String]]()
  }
}

Répondu el 21 de Février, 2011 par extempore (8016 Points )

Answer 3

7voto

Maciej Biłas Points 920

Avec la bibliothèque Scala Parser Combinators issue de la bibliothèque standard Scala à partir de la version 2.11, il n’ya aucune bonne raison de ne pas utiliser la bibliothèque beaucoup plus performante Parboiled2. Voici une version de l'analyseur CSV dans le DSL de Parboiled2:

 /*  based on comments in https://github.com/sirthias/parboiled2/issues/61 */
import org.parboiled2._
case class Parboiled2CsvParser(input: ParserInput, delimeter: String) extends Parser {
  def DQUOTE = '"'
  def DELIMITER_TOKEN = rule(capture(delimeter))
  def DQUOTE2 = rule("\"\"" ~ push("\""))
  def CRLF = rule(capture("\n\r" | "\n"))
  def NON_CAPTURING_CRLF = rule("\n\r" | "\n")

  val delims = s"$delimeter\r\n"
  def TXT = rule(capture(!anyOf(delims) ~ ANY))
  val WHITESPACE = CharPredicate(" \t")
  def SPACES: Rule0 = rule(oneOrMore(WHITESPACE))

  def escaped = rule(optional(SPACES) ~
    DQUOTE ~ (zeroOrMore(DELIMITER_TOKEN | TXT | CRLF | DQUOTE2) ~ DQUOTE ~
    optional(SPACES)) ~> (_.mkString("")))
  def nonEscaped = rule(zeroOrMore(TXT) ~> (_.mkString("")))

  def field = rule(escaped | nonEscaped)
  def row: Rule1[Seq[String]] = rule(oneOrMore(field).separatedBy(delimeter))
  def file = rule(zeroOrMore(row).separatedBy(NON_CAPTURING_CRLF))

  def parsed() : Try[Seq[Seq[String]]] = file.run()
}

Répondu el 11 de Juillet, 2014 par Maciej Biłas (920 Points )

Answer 4

3voto

Daniel C. Sobral Points 159554

L'espace par défaut des analyseurs syntaxiques RegexParsers est \s+ , ce qui inclut les nouvelles lignes. Ainsi, CR , LF et CRLF ne pourront jamais être traités, car ils sont automatiquement ignorés par l'analyseur.

Répondu el 21 de Février, 2011 par Daniel C. Sobral (159554 Points )

Utilisez le combinateur d'analyseurs Scala pour analyser les fichiers CSV

Mise à jour: le problème est résolu

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Utilisez le combinateur d'analyseurs Scala pour analyser les fichiers CSV

Mise à jour: le problème est résolu

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: