LINEトークでOCRができるプログラムを3時間程度で開発したという記事を見て、JavaでOCRを試してみました。JavaでOCRを実現するのに、無料APIがありましたので早速使ってみます。
開発環境
IDE:Eclipse
Java8
FW:なし。ネイティブで作成
API:tess4j
<tess4jセットアップ>
Maven: https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j
言語認識ファイル: https://github.com/tesseract-ocr/tessdata
uploadフォルダを作成
Viewから受け取ったファイルを置く場所を作成します。
ファイルの作成場所は、
WebContent/WEB-INF/upload
としてください。
Filter Classでutf-8を設定
まずは、文字化け防止のためFilterクラスを作成し、utf-8を設定します。
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 | package filter; import java.io.IOException; import javax.servlet.Filter; import javax.servlet.FilterChain; import javax.servlet.FilterConfig; import javax.servlet.ServletException; import javax.servlet.ServletRequest; import javax.servlet.ServletResponse; import javax.servlet.annotation.WebFilter; /** * Servlet Filter implementation class filter */ @WebFilter ( "/filter" ) public class filter implements Filter { /** * Default constructor. */ public filter() { // TODO Auto-generated constructor stub } /** * @see Filter#destroy() */ public void destroy() { // TODO Auto-generated method stub } /** * @see Filter#doFilter(ServletRequest, ServletResponse, FilterChain) */ public void doFilter(ServletRequest request, ServletResponse response, FilterChain chain) throws IOException, ServletException { // TODO Auto-generated method stub // place your code here request.setCharacterEncoding( "utf-8" ); response.setContentType( "text/html:charset=utf8" ); // pass the request along the filter chain chain.doFilter(request, response); } /** * @see Filter#init(FilterConfig) */ public void init(FilterConfig fConfig) throws ServletException { // TODO Auto-generated method stub } } |
Servlet作成
Servletを作成する前に、こちらから実装したい言語ファイルをダウンロードし、ローカルに作業フォルダを作成して、言語ファイルを格納します。
今回、作業フォルダは C:\\Users\\workとしました。
言語ファイルは、この作業フォルダ直下にtessdataフォルダを作成し、セットしました。 C:\\Users\\work\\tessdata
001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 026 027 028 029 030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 048 049 050 051 052 053 054 055 056 057 058 059 060 061 062 063 064 065 066 067 068 069 070 071 072 073 074 075 076 077 078 079 080 081 082 083 084 085 086 087 088 089 090 091 092 093 094 095 096 097 098 099 100 101 102 | package Controller; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import java.util.List; import javax.imageio.ImageIO; import javax.servlet.ServletException; import javax.servlet.annotation.MultipartConfig; import javax.servlet.annotation.WebServlet; import javax.servlet.http.HttpServlet; import javax.servlet.http.HttpServletRequest; import javax.servlet.http.HttpServletResponse; import javax.servlet.http.Part; import net.sourceforge.tess4j.ITessAPI.TessPageIteratorLevel; import net.sourceforge.tess4j.ITesseract; import net.sourceforge.tess4j.Tesseract; import net.sourceforge.tess4j.TesseractException; import net.sourceforge.tess4j.Word; /** * Servlet implementation class TextChangeServlet */ @WebServlet ( "/TextChange" ) @MultipartConfig (location = "C:\\Users\\work" , maxFileSize = 500 * 500 ) public class TextChangeServlet extends HttpServlet { private static final long serialVersionUID = 1L; /** * @see HttpServlet#HttpServlet() */ public TextChangeServlet() { super (); // TODO Auto-generated constructor stub } /** * @see HttpServlet#doGet(HttpServletRequest request, HttpServletResponse response) */ protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { request.getRequestDispatcher( "/WEB-INF/views/textChange.jsp" ).forward(request, response); } /** * @see HttpServlet#doPost(HttpServletRequest request, HttpServletResponse response) */ protected void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { File uploadDirectory = new File(request.getServletContext().getRealPath( "/WEB-INF/upload" )); Part part = request.getPart( "file" ); String filename = part.getSubmittedFileName(); part.write(getServletContext().getRealPath( "/WEB-INF/upload" + "/" + filename)); // 検証用 System.out.println(uploadDirectory); ITesseract tesseract = new Tesseract(); tesseract.setDatapath( "C:\\Users\\work\\tessdata" ); //言語ファイル格納先 // 日本語と英語で言語を変更 String lang = request.getParameter( "lang" ); switch (lang) { case "jpn" : tesseract.setLanguage( "jpn" ); //言語を選択 break ; case "eng" : tesseract.setLanguage( "eng" ); //言語を選択 break ; default : System.out.println( "error" ); } File file = new File(uploadDirectory + "/" + filename); BufferedImage img = ImageIO.read(file); try { List&lt;Word&gt; wordList = tesseract.getWords(img, TessPageIteratorLevel.RIL_BLOCK); String str = tesseract.doOCR(img); System.out.println(wordList); System.out.println(str); request.setAttribute( "str" , str); request.getRequestDispatcher( "/WEB-INF/views/textChange.jsp" ).forward(request, response); } catch (TesseractException e) { // TODO 自動生成された catch ブロック e.printStackTrace(); img = null ; } } } |
@MultipartConfig(location = “C:\\Users\\work”, maxFileSize = 500*500)
@MultipartConfigでは、”location”で作業ファイルへの絶対パスを設定します。”maxFileSize”で、アップロードファイルの許容サイズを設定します。アップロードサイズを超えた場合、Webコンテナが IllegalStateExceptionをスローします。
POST通信がされたら、画像をuploadフォルダに入れる→変換言語の認識→tess4jで画像からテキストを判断→JSPに変換内容をはきだす流れになります。
JSP作成
WEB-INF直下にlibフォルダを作成し、JSTLを格納する。JSP上部でtaglib呼び出し。
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 | <%@ page pageEncoding="UTF-8"%> <%@ taglib prefix="c" uri="http://java.sun.com/jsp/jstl/core"%> <! DOCTYPE html> < html lang = "ja" > < head > < meta charset = "UTF-8" > < title >画像から文字を起こすよ</ title > </ head > < body > < h1 >画像から文字をおこします</ h1 > < p >文字を起こしたい画像をアップロードしてください。</ p > < ul > < li >< strong >注意事項</ strong ></ li > < li >画像は1枚のみアップロードしてください。PDFも1枚のみ</ li > < li >アップロード画像の容量は500MBまでです。</ li > </ ul > < form action = "" method = "post" enctype = "multipart/form-data" > < p > 文字起こしをしたい言語を選択してください:< select name = "lang" > < option value = "jpn" selected>日本語</ option > < option value = "eng" >英語</ option > </ select > </ p > < input type = "file" name = "file" />< br /> < input type = "submit" value = "アップロード" /> </ form > < section > < pre style = "font-size:16px; color:red;" >< c:out value = "${str}" /></ pre > </ section > </ body > </ html > |
以上!!