java解析word文档有哪些方法

java解析word文档有哪些方法,第1张

java读取word文档时,虽然网上介绍了很多插件poi、java2Word、jacob、itext等等,poi无法读取格式(新的API估

计行好像还在处于研发阶段,不太稳定,做项目不太敢用);java2Word、jacob容易报错找不到注册,比较诡异,我曾经在不同的机器上试过, *** 作

方法完全一致,有的机器不报错,有的报错,去他们论坛找高人解决也说不出原因,项目部署用它有点玄;itxt好像写很方便但是我查了好久资料没有见到过关

于读的好办法。经过一番选择还是折中点采用rtf最好,毕竟rtf是开源格式,不需要借助任何插件,只需基本IO *** 作外加编码转换即可。rtf格式文件

面看来和doc没啥区别,都可以用word打开,各种格式都可以设定。

----- 实现的功能:读取rtf模板内容(格式和文本内容),替换变化部分,形成新的rtf文档。

----- 实现思路:模板中固定部分手动输入,变化的部分用$info$表示,只需替换$info$即可。

1、采用字节的形式读取rtf模板内容

2、将可变的内容字符串转为rtf编码

3、替换原文中的可变部分,形成新的rtf文档

主要程序如下:

public String bin2hex(String bin) {

char[] digital = "0123456789ABCDEF".toCharArray()

StringBuffer sb = new StringBuffer("")

byte[] bs = bin.getBytes()

int bit

for (int i = 0i <bs.lengthi++) {

bit = (bs[i] &0x0f0)

>>4

sb.append("\\'")

sb.append(digital[bit])

bit = bs[i] &0x0f

sb.append(digital[bit])

}

return sb.toString()

}

public String readByteRtf(InputStream ins, String path){

String sourcecontent =

""

try{

ins = new

FileInputStream(path)

byte[] b

= new byte[1024]

if (ins == null) {

System.out.println("源模板文件不存在")

}

int bytesRead = 0

while (true) {

bytesRead = ins.read(b, 0, 1024)// return final read bytes

counts

if(bytesRead == -1) {// end of InputStream

System.out.println("读取模板文件结束")

break

}

sourcecontent += new String(b, 0, bytesRead)// convert to string

using bytes

}

}catch(Exception e){

e.printStackTrace()

}

return sourcecontent

}

以上为核心代码,剩余部分就是替换,从新组装java中的String.replace(oldstr,newstr)方法可以实现,在这就不贴了。源代码部分详见附件。

运行源代码前提:

c盘创建YQ目录,将附件中"模板.rtf"复制到YQ目录之下,运行OpreatorRTF.java文件即可,就会在YQ目录下生成文件名如:21时15分19秒_cheney_记录.rtf

的文件。

package com

import java.io.File

import java.io.FileInputStream

import java.io.FileWriter

import java.io.IOException

import java.io.InputStream

import java.io.PrintWriter

import java.text.SimpleDateFormat

import java.util.Date

public class OperatorRTF {

public String strToRtf(String content){

char[] digital = "0123456789ABCDEF".toCharArray()

StringBuffer sb = new StringBuffer("")

byte[] bs = content.getBytes()

int bit

for (int i = 0i <bs.lengthi++) {

bit = (bs[i] &0x0f0)

>>4

sb.append("\\'")

sb.append(digital[bit])

bit = bs[i] &0x0f

sb.append(digital[bit])

}

return sb.toString()

}

public String replaceRTF(String content,String replacecontent,int

flag){

String rc = strToRtf(replacecontent)

String target = ""

if(flag==0){

target = content.replace("$timetop$",rc)

}

if(flag==1){

target = content.replace("$info$",rc)

}

if(flag==2){

target = content.replace("$idea$",rc)

}

if(flag==3){

target = content.replace("$advice$",rc)

}

if(flag==4){

target = content.replace("$infosend$",rc)

}

return target

}

public String getSavePath() {

String path = "C:\\YQ"

File fDirecotry = new File(path)

if (!fDirecotry.exists()) {

fDirecotry.mkdirs()

}

return path

}

public String ToSBC(String input){

char[] c =

input.toCharArray()

for (int i =

0i <c.lengthi++){

if (c[i] == 32){

c[i] = (char) 12288

continue

}

if (c[i] <127){

c[i] = (char) (c[i] + 65248)

}

}

return new

String(c)

}

public void rgModel(String username, String content) {

// TODO Auto-generated method stub

Date current=new Date()

SimpleDateFormat sdf=new java.text.SimpleDateFormat("yyyy-MM-dd

HH:mm:ss")

String targetname = sdf.format(current).substring(11,13) + "时"

targetname += sdf.format(current).substring(14,16) + "分"

targetname += sdf.format(current).substring(17,19) + "秒"

targetname += "_" + username +"_记录.rtf"

String strpath = getSavePath()

String sourname = strpath+"\\"+"模板.rtf"

String sourcecontent = ""

InputStream ins = null

try{

ins = new FileInputStream(sourname)

byte[] b = new byte[1024]

if (ins == null) {

System.out.println("源模板文件不存在")

}

int bytesRead = 0

while (true) {

bytesRead = ins.read(b, 0, 1024)// return final read bytes

counts

if(bytesRead == -1) {// end of InputStream

System.out.println("读取模板文件结束")

break

}

sourcecontent += new String(b, 0, bytesRead)// convert to string

using bytes

}

}catch(Exception e){

e.printStackTrace()

}

String targetcontent = ""

String array[] = content.split("~")

for(int i=0i<array.lengthi++){

if(i==0){

targetcontent = replaceRTF(sourcecontent, array[i], i)

}else{

targetcontent = replaceRTF(targetcontent, array[i], i)

}

}

try {

FileWriter fw = new FileWriter(getSavePath()+"\\" +

targetname,true)

PrintWriter out = new PrintWriter(fw)

if(targetcontent.equals("")||targetcontent==""){

out.println(sourcecontent)

}else{

out.println(targetcontent)

}

out.close()

fw.close()

System.out.println(getSavePath()+" 该目录下生成文件" +

targetname + " 成功")

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace()

}

}

public static void main(String[] args) {

// TODO Auto-generated method stub

OperatorRTF oRTF = new OperatorRTF()

String content =

"2008年10月12日9时-2008年10月12日6时~我们参照检验药品的方法~我们参照检验药品的方法~我们参照检验药品的方法~我们参照检验药品的方法"

oRTF.rgModel("cheney",content)

}

}

在安装Office2003以后,有一个ActiveX控件被安装到了系统中,这个控件位于“Program Files/Microsoft Office/OFFICE11/owssupp.dll”。通过这个控件,客户端页面上的JavaScript就可以激活本地的Office软件,来实现打开、编辑Office文档。(另,Office XP应该就已经包含这个ActiveX控件了。)首先,用Script创建一个本地的对象:

openDocObj = new ActiveXObject("SharePoint.OpenDocuments.2") // 为了兼容Office XP,可以创建“SharePoint.OpenDocuments.1”

然后,调用openDocObj的相应的方法。比如打开服务器上的一个Office文档:

openDocObj.ViewDocument("http://www.abc.com/documents/sample.doc")openDocObj对象会根据参数中不同的Office文档类型(.doc、.xls、.ppt)来打开不同的程序(Word、Excel、PowerPoint)。ViewDocument()方法还有一个重载签名,可以让我们手工指定激活哪个程序来打开文档:

openDocObj.ViewDocument("http://www.abc.com/documents/sample.doc", 要激活的程序的ProgID)那么要打开Office程序在线编辑文件又如何?

openDocObj.EditDocument("http://www.abc.com/documents/sample.doc")就可以直接激活Word,在Word里面编辑文档,然后直接点击Word里面的保存功能,就可以将文件保存会服务器上了。注意:为了让Word能将编辑后的文档直接保存会服务器,访问Web站点的当前上下文的Windows Identity必须对服务器的相应目录(即“http://www.abc.com/documents”这个虚拟目录所对应的服务器上的物理路径)有相应的写权限,否则保存动作会失败。编辑完成后,EditDocument()会返回一个bool值,来反映编辑 *** 作是否成功。

我们还可以通过打开服务器上的一个文档模版,来创建一个新的文档:

openDocObj.CreateNewDocument("http://www.abc.com/documents/sampleTemplate.dot", "http://www.abc.com/documents/")就可以使用“http://www.abc.com/documents/sampleTemplate.dot”这个模版来创建一个新的文档,默认新文档的保存地点是“http://www.abc.com/documents/”。创建新文档时使用的程序取决于模版文件的类型(比如.dot模版会对应Word)。新文档的保存同样需要注意权限问题。CreateNewDocument()方法同样会返回一个bool值来反映 *** 作是否成功。

CreateNewDocument()方法的第一个参数,除了可以使用一个模版的地址外,还可以直接指定为希望用来创建新文档的客户端程序的ProgID。

<html>

<head>

<title>

test_word

</title>

<Script Language="JavaScript">

function Validator()

{

var openDocObj

openDocObj = new ActiveXObject("SharePoint.OpenDocuments.2")openDocObj.EditDocument("C:/Inetpub/wwwroot/前言.doc")}

</script>

</head>

<body bgcolor="#ffffff">

<h1>

<input type="button" name="word" value="word" onclick="Validator()">

</h1>

</body>

</html>

ApachePOI

可以满足你的需求,我觉估计也是唯一靠谱的选择了。

是一个开源的解析Office文件的Java库。

我以前用它来给单位的内容管理客户端做过Word文档展示。

总的来说,POI库就是把各种Office文件解析成一种文档树。

当时我是修改了一下POI的一个例子程序把word转成html文件来显示的。

有很多支持的包,我用的是poi包,注意版本,要和excel版本相符。然后网上有例子,直接可以拿到数据,怎么显示出来就简单了。


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/yw/11997704.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-20
下一篇2023-05-20

发表评论

登录后才能评论

评论列表(0条)

    保存