1.中文数据集

CTW data(Chinese Text in the Wild)

清华大学与腾讯共同推出了中文自然文本数据集(Chinese Text in the
Wild,CTW)——一个超大的街景图片中文文本数据集,为训练先进的深度学习模型奠定了基础。目前,该数据集包含 32,285 张图像和 1,018,402
个中文字符,规模远超此前的同类数据集。研究人员表示,未来还将在此数据集之上推出基于业内最先进模型的评测基准。

资源链接:https://ctwdataset.github.io/ <https://ctwdataset.github.io/>

在相关论文《Chinese Text in the
Wild》中,清华大学的研究人员以该数据集为基础训练了多种目前业内最先进的深度模型进行字符识别和字符检测。这些模型将作为基线算法为人们提供测试标准。
这些图像源于腾讯街景,从中国的几十个不同城市中捕捉得到,不带任何特定目的的偏好。由于其多样性和复杂性,使得该数据集的收集很困难。它包含了平面文本、凸出文本、城市街景文本、乡镇街景文本、弱照明条件下的文本、远距离文本、部分显示文本等。对于每张图像,数据集中都标注了所有中文字符。对每个中文字符,数据集都标注了其真实字符、边界框和
6 个属性以指出其是否被遮挡、有复杂的背景、被扭曲、3D 凸出、艺术化,和手写体等。

参考:http://www.sohu.com/a/224777048_129720
<http://www.sohu.com/a/224777048_129720>

华中科技大学中文数据集链接

http://www.icdar2017chinese.site:5080/dataset/
<http://www.icdar2017chinese.site:5080/dataset/>


icdar2017比赛结果分析

https://blog.csdn.net/rabbithui/article/details/79107208
<https://blog.csdn.net/rabbithui/article/details/79107208>


2.其它非中文数据集

参考:https://www.cnblogs.com/lillylin/p/6893500.html
<https://www.cnblogs.com/lillylin/p/6893500.html>

3.手写数据集

 国内研究机构发布的数据集
1. HCL2000脱机手写汉字库 http://www.datatang.com/data/13885

北京邮电大学模式识别实验室发布的数据。HCL2000是目前最大的脱机手写汉字库,共有1000个人书写,除了汉字样本库外,还有一个对应的书写者信息库,记录了书写者的年龄、职业、文化程度等信息,用于研究相关影响因素。目前此数据库免费向研究者公开。
这是一份非常优秀的数据,是汉字识别的首选测试数据库。
2. CASIA中文手写数据集 http://www.datatang.com/data/13227
中科院自动化所发布的中文手写数据。包括187个人通过Walcom笔在线输入的手写文本。
3. CASIA英文手写数据集 http://www.datatang.com/data/13226
中科院自动化所发布的英文手写数据。包括134个人通过Walcom笔在线输入的手写文本。
4. 基于Wacom笔的用户手写Text数据 http://www.datatang.com/data/16613
中国科学院软件研究所笔式和多通道人机交互研究组发布的数据。包含12用户在执行手写Text任务时Stroke层数据和Point层数据两部分。
5. 留学生手写汉字 http://www.datatang.com/data/10089
北京语言大学采用数字墨水技术采集的留学生手写汉字库(样例)
国外研究机构发布的数据集
6. USPS美国邮政服务手写数字识别库 http://www.datatang.com/data/11927
用于数字的手写识别。库中共有9298个手写数字图像(均为16*16像素的灰度图像的值,灰度值已被归一化),其中7291个用于训练,2007个用于测试。
7. 手写数字MNIST数据集 http://www.datatang.com/data/3082
用于数字的手写识别。库中共有6万个训练集和1万个测试集。
8. 用于笔交互的手写数字识别(UCI) http://www.datatang.com/data/578
用于数字的手写识别。库中共有44个人的250个手写数据例子
9. 用于处理和理解手写阿拉伯语的数据集 http://www.datatang.com/data/2188


用于阿拉伯语的手写识别。包括51个人的2万个手写数据。

4.其它数据集

https://zhuanlan.zhihu.com/p/35455475 <https://zhuanlan.zhihu.com/p/35455475>


5.别人总结的资源

https://blog.csdn.net/peaceinmind/article/details/51387367
<https://blog.csdn.net/peaceinmind/article/details/51387367>