找回密码
 立即注册
查看: 47|回复: 0

C#获取图片中文字 Tesseract最新中文语言包chi_sim

[复制链接]

60

主题

4

回帖

204

积分

中级会员

积分
204
发表于 2024-4-11 11:37:51 | 显示全部楼层 |阅读模式

  1. // 图片的路径,这可以是PDF中提取出来的图片  
  2. string imagePath = "C:\\Users\\Administrator\\Desktop\\111\\22222.jpg";
  3. //eng=英语  chi_sim=中文简体
  4. using (var engine = new TesseractEngine("./tessdata", "chi_sim", EngineMode.Default))
  5. {
  6.      using (var img = PixConverter.ToPix(new Bitmap(imagePath)))
  7.      {
  8.          using (var page = engine.Process(img))
  9.          {
  10.              var text = page.GetText();
  11.              Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());
  12.              Console.WriteLine("Text (GetIterator):");
  13.              Console.WriteLine(text);
  14.          }
  15.      }
  16. }
复制代码


https://github.com/tesseract-ocr/tessdata

下载后的中文语言文件名为:chi_sim.traineddata

下载的chi_sim.traineddata文件,放在Tesseract-OCR\tessdata目录下,例如D:\Program Files\Tesseract-OCR\tessdata

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|充电资源网

GMT+8, 2024-5-19 00:18 , Processed in 0.098342 second(s), 26 queries .

Powered by Discuz! X3.5

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表