良心博主整理的合集:ocr合集 <https://blog.csdn.net/peaceinmind/article/details/51387367>

1. Synthetic Data for Text Localisation in Natural Images     CVPR2016 
特点是使用synthetic data and FCRN.   实现了img内文本行的识别。

论文笔记链接:synthetic data for...论文学习
<http://blog.csdn.net/u010167269/article/details/52389676>   、   synthetic data
for... <http://blog.csdn.net/bvl10101111/article/details/76851281>

感觉这篇paper的核心在于生成synthetic data 的算法部分,后续的FCRN没有很惊艳吧...

我自己写了一篇关于FCRN结构的学习笔记,欢迎大家指正:text spotting之FCRN
<http://blog.csdn.net/jiachen0212/article/details/79512032>

github: Synthetic Data for Text... <https://github.com/ankush-me/SynthText>




2. Detecting Oriented Text in Natural Images by Linking Segments     CVPR2017 
特点是改进了ssd,即一种新的SegLink结构,使得box+angle信息 and link 信息同时被学习。但只实现img内文本行的检测。

论文笔记链接:Detecting Oriented Text in Natural...论文学习
<https://www.cnblogs.com/lillylin/p/6596731.html>      、     Detecting Oriented
Text in Natural...
<http://fromwiz.com/share/s/34GeEW1RFx7x2iIM0z1ZXVvc2yLl5t2fTkEg2ZVhJR2n50xg>

github: Detecting Oriented Text in Natural...
<https://github.com/dengdan/seglink#installationrequirements>




3. Towards End-to-end Text Spotting with Convolutional Recurrent Neural
Networks  ICCV2017      特点是:用了 Text Proposal Network(TPN) + Region Feature
Encoder(RFE) + Text Detection Network(TDN) + Text Recognition Network(TRN). 
在TPN中使用 multiple scale sliding windows 并进行
concatenated。这种操作更有利于文本行的proposals检测(因为文本行,是长条长条的可能性比较大...)。RFE之前的Region of
Interest pooling(RoI)利用1:2的 pooling size,再通过RFE中的LSTM使最末层输出fixed length
representations。另外在TRN中使用:LSTMs with attention mechanism to decode the
sequential features into words. 这也是一大创新点。。

论文笔记链接:Towards end-to-end...
<http://blog.csdn.net/u010238520/article/details/77386939>




4.  WeText: Scene Text Detection underWeak Supervision    ICCV2017 
特点是使用弱监督和半监督思想去解决 labeled data 少的问题。就像之前许多 paper 用 synthetic data 去训model,也是因为
labeled data 太少了。

论文笔记链接:WeText Scene Text De... <http://www.cnblogs.com/lillylin/p/8495166.html>




5. Deep TextSpotter: An End-to-End Trainable Scene Text Localization and 
Recognition Framework   ICCV2017 

论文笔记链接:Deep TextSpotter: An End-to-End...
<http://www.cnblogs.com/lillylin/p/8495278.html>

代码链接:github <https://github.com/MichalBusta/DeepTextSpotter>




6. An End-to-End Trainable Neural Network for Image-based Sequence Recognition
and Its Application to Scene Text Recognition      PAMI2017   crnn结构   
 CNN+LSTM+CTC

论文笔记链接:crnn <http://www.cnblogs.com/lillylin/p/6035815.html>

代码链接:crnn <https://github.com/bgshih/crnn>

中文翻译链接:crnn <https://www.jianshu.com/p/14141f8b94e5>




7. CTC :  Connectionist Temporal Classification: Labelling Unsegmented 
Sequence Data with Recurrent Neural Networks

论文笔记链接:CTC <https://www.jianshu.com/p/8406618e940f>


8. Detecting Text in Natural Image with Connectionist Text Proposal Network   
ECCV2016   这就是传说中的CTPN结构了:使用固定宽度(16)的anchor去检测小框们,再利用文本线构造算法把小框们连接成文本行。

作者github链接:CTPN-caffe <https://github.com/tianzhi0549/CTPN>

tf版链接: CTPN-tf <https://github.com/eragonruan/text-detection-ctpn>

论文笔记链接:CTPN1 <http://slade-ruan.me/2017/10/22/text-detection-ctpn/>     、   
CTPN2 <https://www.cnblogs.com/lillylin/p/6277061.html>

知乎解说:知乎-ctpn <https://zhuanlan.zhihu.com/p/34757009>

中文翻译链接:CTPN <https://blog.csdn.net/Quincuntial/article/details/79475354>




9. PixelLink: Detecting Scene Text via Instance Segmentation      AAAI2018 
 特点是把检测问题用分割的途径去处理解决。文章的总体思路也蛮轻简的:segment + 8邻域links    不过没有开源......

论文笔记链接:Pixellink <https://blog.csdn.net/peaceinmind/article/details/79079686>




10. R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection 
  2017arXiv    首先是RPN生成轴对称的 proposal boxes,然后使用 ROI pooling
进行又一次的特征提取,得到轴对称的bbox、倾斜bbox。另一亮点是使用倾斜非最大拟制,减少漏检。对于各个方向(包含竖直)文本均有不错的检测效果。

开源链接:tf-r2cnn
<https://github.com/yangxue0827/R2CNN_FPN_Tensorflow?spm=5176.9876270.0.0.dfc12ef15IIkPy>

caffe版:caffe-r2cnn <https://github.com/beacandler/R2CNN>




<https://github.com/dengdan/seglink#installationrequirements>

友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:ixiaoyang8@qq.com
QQ群:637538335
关注微信