DEMO源码:SpringBatchCSV
本文将通过一个完整的实例,与大家一起讨论运用Spring Batch对CSV文件的读写操作。此实例的流程是:读取一个含有四个字段的CSV文件(ID,Name,Age,Score),对读取的字段做简单的处理,然后输出到另外一个CSV文件中。
工程结构如下图:
JobLaunch类用来启动Job, CsvItemProcessor类用来对Reader取得的数据进行处理, Student类是一个POJO类,用来存放映射的数据。 inputFile.csv是数据读取文件, outputFile.csv是数据输出文件。
application.xml文件配置如前篇文章,不再赘述。
batch.xml文件中Job配置如下:
<job id="csvJob"> <step id="csvStep"> <tasklet transaction-manager="transactionManager"> <chunk reader="csvItemReader" writer="csvItemWriter" processor="csvItemProcessor" commit-interval="1"> </chunk> </tasklet> </step> </job>
batch.xml文件中csvItemReader配置如下:
<!-- 读取csv文件 --> <bean:bean id="csvItemReader" class="org.springframework.batch.item.file.FlatFileItemReader" scope="step"> <bean:property name="resource" value="classpath:inputFile.csv"/> <bean:property name="lineMapper"> <bean:bean class="org.springframework.batch.item.file.mapping.DefaultLineMapper"> <bean:property name="lineTokenizer" ref="lineTokenizer"/> <bean:property name="fieldSetMapper"> <bean:bean class="org.springframework.batch.item.file.mapping.BeanWrapperFieldSetMapper"> <bean:property name="prototypeBeanName" value="student"></bean:property> </bean:bean> </bean:property> </bean:bean> </bean:property> </bean:bean><bean:bean id="student" class="com.wanggc.springbatch.sample.csv.Student"></bean:bean> <!-- lineTokenizer --> <bean:bean id="lineTokenizer" class="org.springframework.batch.item.file.transform.DelimitedLineTokenizer"> <bean:property name="delimiter" value=","/> <bean:property name="names"> <bean:list> <bean:value>ID</bean:value> <bean:value>name</bean:value> <bean:value>age</bean:value> <bean:value>score</bean:value> </bean:list> </bean:property> </bean:bean></pre>
这种方式与DB的读操作非常类似。lineMapper类似于ResultSet,文件中的一行类似于Table中的一条记录,被封装成的FieldSet,类似于RowMapper。至于怎么将一条记录封装,这个工作由lineTokenizer的继承类DelimitedLineTokenizer完成。DelimitedLineTokenizer的delimiter属性决定文件的一行数据按照什么分解,默认的是“,”, names属性标示分解的每个字段的名字,传给fieldSetMapper(本实例用的是BeanWrapperFieldSetMapper)的时候,就可以按照这个名字取得相应的值。fieldSetMapper的属性prototypeBeanName,是映射Pojo类的名字。设置了此属性后,框架就会将lineTokenizer分解成的一个FieldSet映射成Pojo对象,映射是按照名字来完成的(lineTokenizer分解时标注的名字与Pojo对象中字段的名字对应)。
总之,FlatFileItemReader读取一条记录由以下四步完成:1,从resource指定的文件中读取一条记录;2,lineTokenizer将这条记录按照delimiter分解成Fileset,每个字段的名字由names属性取得;3,将分解成的Fileset传递给fieldSetMapper,由其按照名字映射成Pojo对象;4,最终由FlatFileItemReader将映射成的Pojo对象返回,框架将返回的对象传递给Processor。
csvItemProcessor实现的是ItemProcessor类。此类接受Reader映射成的Pojo对象,可以对此对象做相应的业务逻辑处理,然后返回,框架就会将返回的结果传递给Writer进行写操作。具体实现代码如下:
package com.wanggc.springbatch.sample.csv;import org.springframework.batch.item.ItemProcessor; import org.springframework.stereotype.Component;
/**
-
ItemProcessor类。 */ @Component("csvItemProcessor") public class CsvItemProcessor implements ItemProcessor<Student, Student> {
/**
- 对取到的数据进行简单的处理。
- @param student
-
处理前的数据。
- @return 处理后的数据。
- @exception Exception
-
处理是发生的任何异常。
/ @Override public Student process(Student student) throws Exception { / 合并ID和名字 / student.setName(student.getID() + "--" + student.getName()); / 年龄加2 / student.setAge(student.getAge() + 2); / 分数加10 / student.setScore(student.getScore() + 10); / 将处理后的结果传递给writer */ return student; } }
<!-- 写CSV文件 --> <bean:bean id="csvItemWriter" class="org.springframework.batch.item.file.FlatFileItemWriter" scope="step"> <bean:property name="resource" value="file:src/outputFile.csv"/> <bean:property name="lineAggregator"> <bean:bean class="org.springframework.batch.item.file.transform.DelimitedLineAggregator"> <bean:property name="delimiter" value=","></bean:property> <bean:property name="fieldExtractor"> <bean:bean class="org.springframework.batch.item.file.transform.BeanWrapperFieldExtractor"> <bean:property name="names" value="name,age,score"></bean:property> </bean:bean> </bean:property> </bean:bean> </bean:property> </bean:bean>
这样,一条数据的读、处理、写操作就基本完成了。当然,读和写也可以自己写类来处理,只是要注意继承FlatFileItemReader和FlatFileItemWriter就可以了。
实例中用到的Student类代码如下:
package com.wanggc.springbatch.sample.csv;/** Pojo类_Student / public class Student { /* ID / private String ID = ""; /* 名字 / private String name = ""; /* 年龄 / private int age = 0; /* 分数 */ private float score = 0; /getter 和setter已删除/ }
实例输出结果如下:
本文的配置要注意以下两点:
1, 注意Writer的resource要写成“file:”形式,不能用“classpath:”形式。
2, 如果将Job配置中commit-interval属性配置为大于1时,每次commit的都是最后一条记录,前面读取的被覆盖了。具体原因不明,如果将Reader的fieldSetMapper属性自己重写,就可以解决这个问题。(注:student bean添加scope属性可以解决此问题:scope:"prototype".2011/12/16)
下次,将和大家一起讨论关于XML文件的读写问题。