文章目录

准备

添加输入法语言

德语键位

录德语

德语标注要求

画框规范

画框方向(标注前将文字转为正向)

框的上下界点问题

框的形式要求(贴字而不压字)

属性介绍

文字模糊的情况

一行中部分模糊的处理方式

文字不全的情况

整体可以看出文字内容,画框加涂抹属性

文字被截断部分大于1/3的处理方式

德语或者特殊语种里具有数字,中英文字,或其他特殊符号的情况

特殊样例

关于倒影字的问题

看得清的要画框

看不清的忽略不画框

关于符号的问题

字前的项目符号

下划线、省略号等问题

其余特殊符号

转写规范

德语OCR的一些细节问题确认-0323

被截断的字母是涂抹横德语

转写文本不一致

间距大了要分开框

不是德语,属性标错了

横竖属性分错

特殊符号

准备

添加输入法语言

设置-时间和语言-语言-选项-添加其他语言-选择德语(德国)

德语键位

y 和 z 互换了,[,;,' 和 / 这四个变了,剩下没变

录德语

按 q 拉框,选好后按 1 闭合,q 拉框属性里不选 模糊,有的部分遮挡,或者字母被划了横线,或者拍照不全,属性选 涂抹

横行的选取,为 德语横;竖行的,为 德语竖;英语/数字占比大于德语的时候,只标注德语

几个点的,就选几点框,四个点的不用选下边界点

逗号后面加个空格,再加别的字

5 是删除,比如删除拉框或者点

加点:按 q,然后将光标放到框上,显示十字时左键,就加点了

鼠标右键移动图片

没闭合的拉框断点了,按 v 继续打点

按 2 返回上一步

字母中间超过两个空格,就分开拉框

符号是英文半角

下面两张图为 横,不是 竖

德语标注要求

OCR图片标注需要进行画框和图片内容转写两项主要操作

只标注德语,其他语言不用标注

画框规范

画框方向(标注前将文字转为正向)

- 一行一框( 错行的要单独框,例如插入字符,划掉字符在上面或下面写等等)

- 不允许跨行框

- 拼音不能和底下字符一起框,属于两行!

- 画框原则只能单行,不可按区域,(公式除外)并且顺时针画框。

框的上下界点问题

框的形式要求(贴字而不压字)

属性介绍

德语横、德语竖:德语指语种,横竖指文字排版。(需转写内容,德语属性里的中英文需要转写。)

德语横属性和打点顺序:

涂抹横德语、涂抹竖德语:德语被截断、遮挡、因反光文字看不全等情况下用涂抹属性,横竖指文字排版,文字被截断部分超过1/3判断不出来什么字可以忽略不框。(需转写内容,涂抹德语属性里的中英文需要转写。)

文字模糊的情况

一行中部分模糊的处理方式

由于图片本身模糊或者反光等问题导致的一行文字中:

前半部分清楚,中间部分模糊,后半部分清楚

前半部分清楚,后半部分模糊

只框到清楚可辨认的部分转写。

前半部分模糊,后半部分清楚

只框到清楚可辨认的部分转写。

一行中大部分模糊,几个清楚的:画框转写能辨认的德语字符

一行中大部分清楚,个别模糊的:整个一行框,正常标属性。一行字中有个别无法辨认,用※代替,有几个字看不清就用几个※。

文字不全的情况

(文字被截断,文字被树叶、电线等障碍物遮挡、反光、文字缺笔少画等情况称为文字不全。)

涂抹属性仅针对德语语种 。

整体可以看出文字内容,画框加涂抹属性

文字被截断部分大于1/3的处理方式

忽略,不画框转写(不要纠结于三分之一具体是多少,这里也只是一个概数,取决于人眼是否辨识清楚)

德语或者特殊语种里具有数字,中英文字,或其他特殊符号的情况

数字,符号,中英文,其他能用英语字符打出来的单词如果和德语在一行的框内且占比小于德语在这一行的占比则需要转写,这一框的属性由该框内德语的属性决定:

不抠出来画框,跟本行文字一起拉框转写加属性。

单独出现的数字,符号,中英文和德语不在一行:不框

成分配料表等表格形式的图片,按照表格框来对德语进行画框操作。

数字(或中英文字)和德语在一行的:

数字(或中英文字)和德语间距大,则只需框德语;间距小或和德语有是一句话(有语义联系)则一行框,且数字需要转写。

德语和数字(或中英文字)在一行,德语比例占比特别小的情况:

单框德语部分画框转写。

和德语在一行且占比小于德语,但某个符号或单个字母在一个单词里打不出来的话这个单词或符号空出来不用拉框转写,只框两边的德语转写。 备注:可以空出来不拉框转写的部分以单词为单位

特殊样例

画框时贴字不压字,框与框之间可以重叠交叉

竖向的中文、英文需要画竖框

根据间隔区域,一行一行或一列一列的画框

特殊图片画框样例:

字体大小或位置有明显的差距,需要画在不同的框内

键盘无法打出的特殊符号不用框进来

印章上需要的文字使用多边形,框成一个整体

中间出现无法转写特殊符号或表情符号等其他情况,以符号为界分开画框

关于倒影字的问题

看得清的要画框

看不清的忽略不画框

关于符号的问题

字前的项目符号

只要能标出来的,都画框,无法转写的框文字部分即可。

项目符号和后面的正文之间存在大于或等于三个字符,则项目符号不需要再拉框转写

下划线、省略号等问题

前后无文字的下划线、省略号忽略不框

前后有文字的:下划线上无文字的,无论下划线多长,标注一个_即可,下划线上有文字的,依然忽略不标下划线;

省略号象征性的目测下长度,标注出来,一般同一张图,格式一样的省略号长度一致,标注一个,其余复制即可。

其余特殊符号

类图形符号不框,能打出的特殊符号只有前后有字的时候才需要画框,单独存在的特殊符号不框

类图形符号:

d. 如果纯图没有文字或特别模糊不容易画框的点击 “标为坏数据”按钮

转写规范

转写文字时完全和图片保持一致,包括数字,大小写也要和图片保持一致。

文字被截断、信息不全,属于涂抹属性,涂抹属性仅针对德语语种。备注:被截断的部分(画面外)超过字母的三分之一就不用框了。

一行字中有个别无法辨认,用※代替,有几个字看不清就用几个※,若大部分看不出来,只拉框转写能辨认的部分 。

模糊占比超过50%和德语占比少于50%的图片坏数据处理。

德语OCR的一些细节问题确认-0323

被截断的字母是涂抹横德语

转写文本不一致

手写体需要转写吗?统一标还是不标?还是说看清的标,看不清的整体不标?

间距大了要分开框

数字和德语质检的空格问题

这种前面有数字的是否需要和后面的德语框在一起. 如果框在一起前面的数字打正常大小还是打正常上下角标 ⁰¹²³⁴⁵⁶⁷⁸₁₂₃₄₅₆₇₈₉₀

什么是语义关系?什么是语义信息?如何判断数字是不是语义里的?

反馈是说要框在里面,因为是语义里有。但是不知道怎么判断这个数字是不是语义里的。 之前俄语数字和后面的单词大小差距过大画2个框,现在变成1个框?

第一种标法:1.Waschen 正确✔

第二种标法:Waschen 错误×

框一起。字符大小不一样,但是字符紧凑要框一起。

反馈说至少含有一个德语字符?整行需要画框加转写。另外,以前俄语俄语和数字大小差太大需要分开框。什么情况下可以框成一个框?

第一种标法:Inhalt. 195ml e 正确✔

第二种标法: Inhalt. 错误×

框一起。字符大小不一样,但是字符和数字间距3个空格以内,紧凑要框一起。

反馈是说这个空格很多而且没有语义所以不用框。但是这个图片在照相的时候就不是平行的,没有办法准确看出来是不是空了三个格。而且数字后面紧挨着的单词首字母大写了,也应该是有语义的。

如果19和后面的德语在一行:

第一种标法:19 In 错误×

第二种标法:In 正确✔

统一不管是不是一句话(是否有语义关系),数字和德语质检3个空格或以上不用拉数字进框。

字前的项目符号和正文超过三个字符了不用框一起?

大于等于三个字符前面的符号和数字统一不标 正确✔

首字母过大时如何标?

特殊符号和德语在一行时的转写问题:可否统一一个网址?

最基本的搜狗符号大区+网页版符号大全,一般句前符号都是可以转写的。

不是德语,属性标错了

整篇都是德语的情况下侧页漏出的部分是否按德语截取

下图的德语字符加数字如何标?

单独拉框转写:T2

T属于德语字符,拉框转写

如果有字符被遮挡了三分之一以上,就框到这个字符前,但是这个字符前的组合不能判断这个框内的文字是不是德语,按英语处理。规范里规定英语不框也不转写。

网址问题

任何国家网址都是英文字母组成的,www.ferror-wien.de 的属性是什么?

网址统一认定为英文

横竖属性分错

下图德语横的加点正确加点顺序应该是怎样的?请举例说明德语竖属性的加点属性

特殊符号

模糊符号:※

上下标:⁰¹²³⁴⁵⁶⁷⁸₁₂₃₄₅₆₇₈₉₀

双逗号:„

菱形框:◆ ◇

®

*

„"

显示前半内容后半内容用省略号_德语 OCR相关推荐

  1. 显示前半内容后半内容用省略号_2015年广东中考满分作文赏析:特别的一朵花_1500字...

    阅读下面的文字并根据需要撰写 特殊的,意思是"与众不同,而不是与众不同".生活中,微笑,表情,问候:或旅行,球类运动,友谊:甚至一缕阳光 阅读下面的文字并根据需要撰写 特殊的,意思 ...

  2. 显示前半内容后半内容用省略号_作文写作指导:如何修改作文?

    作文写作指导:如何修改作文? 一.有关文章修改的名言 1.文章不厌百回改,反复推敲佳句来 2.善作不如善改 3.何其芳:古往今来,凡是文章写得好的人,大概都在修改上用过功夫. 4.叶圣陶:写完了一篇东 ...

  3. 显示前半内容后半内容用省略号_九年级语文下册第四单元写作修改润色课件新人教版...

    版权声明:以上文章中所选用的图片及文字来源于网络以及用户投稿,由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用,如果有侵权请立即联系:55525090@qq.com,我 ...

  4. 前后端分离后 前端获得session数据_机器学习模型部署--打通前后端任督二脉

    ## 前言 ### 学历与定位 近日在某论坛,有网友提问道:搞机器学习是不是要博士或是硕士学历,是不是要求很高,顶会论文?本科生或者更低学历的,是不是就没有机会了?从最近公司的招聘来看,算法工程师的 ...

  5. word文档怎么找回误删的文件_Word、Excel文档误删内容后保存,如何恢复或找到删除前的...

    Word文档被别人误删内容后进行了保存,如何恢复或找到删除前的文件? 首先打开前一晚文档所在的文件夹,工具--文件夹选项--查看,在"隐藏文件和文件夹"这一栏里,选中"显 ...

  6. java二维数组从键盘更改_互换二维数组的行列。要求数组的行数、列数以及各元素均从键盘输入;输出互换前数组内容和互换后数组内容。(要求循环输入进行测试)Java...

    1. 互换二维数组的行列.要求数组的行数.列数以及各元素均从键盘输入:输出互换前数组内容和互换后数组内容.(要求循环输入进行测试) package com.mingrisoft; import jav ...

  7. KindEditor中使用val()获取content内容后图片不显示

    场景 使用KindEditor进行图片上传后,在js部分通过.val()获取内容后, 所获取的图片的<imgsrc=""其中img标签与src连接在了一起导致图片不能显示. ...

  8. shell - 在文本中的前一行或后一行添加一行内容,指定行前后增加一行内容

    linux的sed工具是十分强大的,能很容易的实现在某关键词的前一行或后一行增加内容.今天在批量修改tomcat的日志时就用到了该功能. 一.在某行的前一行或后一行添加内容 具休操作如下: #匹配行前 ...

  9. jquery获取url最后一个斜杠前、后的内容

    jquery获取url最后一个斜杠前.后的内容 1.js $(function() {// content css3var htmlHref = window.location.href;htmlHr ...

最新文章

  1. c#运行shell命令
  2. python语言的取余运算符_Python 中用于整数除法取余的运算符是()_学小易找答案...
  3. Hyper-V + CentOS7 网络设置(视频教程)
  4. cefsharp重写默认js弹窗(alert/confirm/prompt)
  5. JAVA-数据类型-复习
  6. c# 微服务学习_资深架构师学习笔记:什么是微服务?
  7. php显示json,PHP解决JSON中文显示问题
  8. excel超链接怎么设置_Excel表格使用超链接提示由于本机限制的解决方法
  9. deliphi 字符串分割_delphi中拆分字符串的函数
  10. php git server,server.php
  11. ContentObserver
  12. WordPress更新提示无法创建目录的解决方案
  13. Web前端大作业—— 饮食餐饮网站 咖啡网站pc端带轮播(5个页面)HTML+CSS+JavaScript 学生美食网页设计作品 学生餐饮文化网页模板
  14. Java中hash算法细述
  15. 规范国内省份名称【Java】
  16. 在Win32下使用OpenGL
  17. 中专计算机的听课记录,计算机听课记录.doc
  18. 一支笔的测试用例——【经典常问面试题】
  19. nao机器人导入自己写的python程序_python程序控制NAO机器人行走
  20. tomcat启动子容器启动失败tomcat org.apache.catalina.LifecycleException异常的解决办法

热门文章

  1. 量化交易之vnpy篇 - 几种同步发单模式(中金所股指锁仓模式、最小单边轧差操作模式、双边同步模式,净头寸模式)
  2. ARM-translation table walk
  3. EXTJS教程(2)
  4. Adobe Acrobat DC 设置保存上次浏览位置
  5. mysql计算折纸_折纸飞机实验报告.doc
  6. 一文读懂Android View事件分发机制
  7. LaTex “too many unprocessed floats” (过多未处理的浮动)错误的解决方法
  8. 浮点数floats的的整数除法和运算结果不精确
  9. 霸王之业服务器未响应,三国群英传霸王之业常见问题解答_三国群英传霸业之业新人必看知识_3DM手游...
  10. Python爬虫爬取百度贴吧的帖子