抗扭斜旋转不与扫描仪夹板垂直的页面,来使 PDF 页面垂直对齐。选择 “自动 ”或 “关闭 ”。
背景去除将灰度和彩色输入(不是黑白输入)的近似白色的区域加白。 为了取得最好的效果,校正您扫描仪的对比度和亮度设置以便于扫描的黑白页面有深灰色或者黑色文本和白色背景。然后,使用 “关闭 ”或者 “低 ”应该产生好的效果。如果扫描白纸或者新闻纸,使用 “中 ”或者 “高 ”来使页面清洁。边缘阴影去除消除在扫描页面边缘(页边遮挡扫描仪亮光的位置)出现的黑色条纹。请选择 “关闭 ”、 “细致 ”或者 “粗略 ”。 去斑在黑白页面内容中移除隔离的黑色标记。 “低 ”使用基本的窥视孔滤镜。 “中 ”和 “高 ”都使用可以删除远离功能的较大斑点的窥视孔滤镜和大面积滤镜。 去网去除半色调网点结构,它会降低 JPEG 压缩率,导致龟纹并且使文本难以识别。适合 200 至 400 dpi 灰度或 RGB 输入;或者,对于 “自适应压缩 ”,适合 400 至 600 dpi 的黑白输入。“自动 ”设置(建议)适用于 300 dpi 或更高灰度以及 RGB 输入的滤镜。当扫描没有图片或者填充区域页面时,或者扫描分辨率高于有效分辨率时,请选择 “关闭 ”。 光晕去除 “打开 ”(建议)删除高对比边缘的多余颜色。这些颜色可能在打印或扫描时被引入。该筛选器仅用于彩色输入页面。 扫描提示
• Acrobat 扫描接受 10 dpi 至 3000 dpi 之间图像。如果选择的 “PDF 输出样式 ”为 “可搜索的图像 ”或 “ClearScan”,则输入分辨率要达到 72 dpi 或更高,并且高于 600 dpi 的输入分辨率将被缩减像素采样至 600 dpi 或更低。 • 要对扫描图像应用无损压缩,请在 “优化选项 ”对话框的 “压缩 ”部分下选择以下选项之一: “CCITT 组 4”(单色图像)或 “无损 ”(彩色或灰度图像)。如果本图像是追加到 PDF 文档,并且文件通过 “保存 ”保存,扫描的图像会保持未压缩。如果 PDF 文档通过 “另存为 ”保存,扫描的图像可能被压缩。 • 对于大多数页面, 300 dpi 分辨率的黑白扫描就能产生最适合转换的文本。在 150 dpi 时, OCR 精度略微有些低,会产生较多的字体识别错误;在 400 dpi 和更高分辨率下,处理速度会变慢,而且压缩页面会较大。如果页面有太多未识别的词或很小的文本( 9 点或更小),尝试以更高的分辨率扫描。尽可能采用黑白扫描。 • 如果禁用了 “使用 OCR 识别文本 ”,则将使用整个 10 至 3000 dpi 分辨率范围;但是,推荐使用 72 dpi 和更高分辨率。对于 “自适应压缩 ”,建议灰度或 RGB 输入采用 300 dpi,黑白输入采用 600 dpi。 • 以 24 位颜色、 300 dpi 和 8-1/2 x 11 英寸( 21.59 x 27.94 厘米)扫描的页面将生成大图像 (25 MB)(压缩前)。您的系统可能需要 50 MB 虚拟内容或更多来扫描图像。在 600 dpi 时,扫描和处理的速度通常是 300 dpi 时的四分之一。 • 避免仿色或半色调扫描设置。这些设置可以改善照片的外观,但会使文本难以识别。 • 对于在彩色纸张上打印的文本,请尝试提高亮度和对比度约 10%。如果您的扫描仪具有色彩筛选功能,请考虑使用可减弱背景颜色的筛选器或灯光。或者,如果文本并未支离破碎,请尝试调整扫描仪对比度和亮度,使扫描变清晰。 • 如果您的扫描仪有手动亮度控制,调整它以便于字符清晰和更好的成形。如果字符连结在一起,请使用较高的(较亮的)设置。如果字符被分隔,请使用较低的(较暗的)设置。 识别扫描文档中的文本
您可使用 Acrobat 识别以前已转换成 PDF 扫描文档的文本。光学字符识别( OCR)软件允许您搜索、更正和复制扫描的 PDF 中的文本。要将 OCR 应用于 PDF,必须已经将原始扫描仪分辨率设置为 72 dpi 或更高。 注:以 300 dpi 扫描会生成最适合转换的文本。以 150 dpi 扫描时, OCR 精度会略有降低。 另请参阅 “添加统一的页面元素 ” 识别单个文档中的文本 1打开扫描的 PDF。 2选择 “文档 ”>“OCR 文本识别 ”>“使用 OCR 识别文本 ”。 3在 “识别文本 ”对话框中,选择 “页面 ”下的一个选项。 4(可选)单击 “编辑 ”打开 “识别文本 -设置 ”对话框,然后按需要指定选项。 识别多个文档中的文本 1、在 Acrobat 中,选择 “文档 ”>“OCR 文本识别 ”>“使用 OCR 识别多个文件中的文本 ”。 2、在“页面捕捉多个文件”对话框中,单击 “添加文件”,选择 “添加文件”,“添加文件夹”或“添加打开的文件”。然后选择相应的文件或文件夹。 3、在 “输出选项 ”对话框中,指定输出文件的目标文件夹、文件名首选项以及输出格式。 4在 “识别文本 -设置 ”对话框中,指定选项,然后单击 “确定 ”。 识别 PDF 包中组件 PDF 中的文本 1、在 PDF 包中选择一个或多个扫描的 PDF。
2、选择 “文档 ”>“OCR 文本识别 ”>“使用 OCR 识别文本 ”。
3、在 “识别文本 -设置 ”对话框中指定选项。
识别文本 -设置对话框 主要 OCR语言为 OCR 引擎指定语言来识别字符。
PDF 输出样式确定要生成的 PDF 的类型。所有选项都需要 72 dpi 或更高(建议)的输入分辨率。所有的格式应用 OCR 和字体和页面识别于文本图像并将其转换成正常文本。 •可检索的图像确认文本是可检索和可选择的。本选项保持原始图像,根据需要抗扭斜和将不可见文本层放在其上方。在这同一个对话框中的 “对图像缩减像素采样 ”的选项可以决定是否对图像缩减像素采样以及缩减的程度。 •可搜索的图像(精确)确认文本是可检索和可选择的。本选项保持原始图像,根据需要抗扭斜和将不可见文本层放在其上方。建议用于要求原始图像最大保真度的情况。 • ClearScan 合成一个与原始字体非常接近的新的 Type 3 字体,并使用低分辨率副本保留页面背景。 对图像缩减像素采样在 OCR 完成后减少彩色、灰度和单色图像的像素数。选择要应用的缩减像素采样的程度。更高的选项使用较少的缩减像素采样,产生更高分辨率的 PDF。
启用 PDF 中的快速 Web 查看 “快速 Web 查看 ”为从网络服务器一次下载一页(字节级服务)重新结构化 PDF 文档。使用 “快速 Web 查看 ”,网络服务器只将用户请求的信息页面发送给用户,而不是整个 PDF。对于那些要花费很长时间从服务器下载的大文档,此选项特别重要。 请向您的网络管理员咨询,确保您使用的网络服务器软件支持 “一次一页 ”(page-at-a-time) 下载。要确保您网站上的 PDF 文档在较旧的浏览器中显示,也可以创建到 PDF 文档的 HTML 链接(相对于 ASP 脚本或 POST 方法),并使用相对较短的路径名称( 256 个字符或更少)。 请验证现有的 PDF 启用了快速 Web 查看 ❖请执行以下任一操作: • 在 Acrobat 中打开 PDF,然后选择“文件”>“属性”。查看 “说明”面板的右下区域来查看“快速 Web 查看”设置( “是”或“否 ”)。 • (仅 Windows)鼠标右键单击 PDF 文件图标,然后选取 “属性 ”。单击 PDF 标签并查看靠近面板底部的 “快速 Web 查看 ”设置( “是 ”或 “否 ”)。 验证 “快速 Web 查看首选项 ”设置 |