问题

其他话题:

如何使用拼写检查生成一个“错误文件”

发布的telemoxie 500点
我记得读到过,你可以通过运行拼写检查程序和查看“错误文件”,从文档中提取出包含技术术语和不常见单词的列表。

例如,在创建术语表时,这样的列表可能很有用。

有人知道如何生成这样的文件吗?提前谢谢。
要继续阅读这个问题和解决方案,请注册…它是免费的!
订阅
或者,登录

反应

  • 发布的Jay Hamilton-Roth 接受
  • 发布的telemoxie 作者
    杰:谢谢,这些帖子的方向是对的,但我想找一个更简单的方法。

    当我想得更多的时候,我记得这个过程(使用上个世纪的文字处理程序)是这样的:你运行拼写检查,把单词放到你个人认可的拼写列表中,然后打印出这个列表。

    我在处理一个文本文件已经超过12万行了。我在想我可能需要学习Python或类似的东西。我计划继续寻找,一旦找到就会发布更新。谢谢你的帮助。
  • 发布的steven.alker 接受
    你用的是什么文字处理软件?或者更确切地说,哪个拼写检查器现在可以独立了?例如,Grammarly在一个单独的文件中生成一个异常文件,其中包含其字典的异常,但您必须首先接受这些异常。同样,Word生成您自己的字典,但您首先必须接受每个无法识别的术语。

    如果您正在考虑识别第一次呈现给原始字处理器的原始文档中的每一个未识别的术语(捕获下面有红线的所有内容??),那么这就是编程的问题。你可以在Word中这样做,但你需要进化一个宏来识别代码{我下面有一条弯弯曲曲的红线}(信不信由你,这是有代码的!!)

    所以,你是在要求拼写检查程序放弃它的所有你不得不接受的术语的文件(真的很容易,它在字典?.doc。(我记不起名字了)

    或者你想把一个文本文件扔给拼写检查器,希望它能拒绝你所有的行话?

    如果你告诉我是哪一个,或者你有别的想法,我就能弄清这个问题了。
  • 发布的telemoxie 作者
    谢谢你提供的信息。是的,自动完成似乎需要一些编程。

    我一直在为一本书做一些研究,把注释、注释和参考放在一个文本文件中,文本文件已经增长到远远超过10万行。有很多基本的操作我想做,但他们似乎要么需要编程,要么购买软件,看起来既昂贵又复杂的我。

    我正在考虑学习更多关于Python的知识,或者可能是批处理编程。

    至于我的文字处理器,我用的是我非常喜欢的聚dit。我真的不知道这家伙是否还在做生意,但我发现它是一个非常强大的软件。

    幸运的是,我所寻找的信息都是大写字母,所以我能够使用一系列的搜索和替换,以及聚dit的排序和选择功能创建一个列表。

    再次感谢您的帮助。当心
  • 发布的steven.alker 成员
    你好,Telemoxie:谢谢你提供的细节,非常有用。这个任务似乎比我想象的要简单,这取决于用于polydit的字典保存在哪里以及以什么形式保存。如果是文本形式,那么你就有了一个简单的编程工作,你可以以低廉的成本将其外包出去。

    根据行长度的不同,120,000行相当于1,200,000个单词或字符串。
    接下来的任务是将120万个单词中的每一个都与一本最多可能有3万个单词的词典进行比较。10000更像。谷歌是没有希望的,因为它有一个和谷歌搜索一样大的字典,或大约64万字!

    然后你用字典里的3万个单词来测试第一个单词,如果没有,就把它标记出来。
    然后查找它的文本字符串的其他实例并删除它们。
    然后测试下一个单词。
    相同的程序
    随着你的进步它会变得更快,所以整个工作可能只需要大约30分钟。

    现在您所需要的就是该字典的文本版本,以及一个有一个小时空闲时间的人来编写字符串/异常和列表例程。

    除了找到一个有技术和时间的编码员,你几乎是家和干燥。

    对我来说,使用文本形式的字典似乎是最大的障碍,但你可以为其他节目免费下载文本形式的字典。

    我曾经向一个编程伙伴运行过这个程序,他说它是可靠的,但他已经被预订满了。

    史蒂夫

发布评论