spaCy是一款专业的句法解析器。编程人员都在使用的句法解析器spaCy。目前支持60多种语言的标记化和培训。它可用于诸如标签,解析,命名实体识别和文本分类之类的操作。它具有像BERT这样的预训练变压器的多任务学习功能,并且可以用于生产训练系统和简单模型。包装非常方便实用; spaCy是一种商业开源软件,是目前最快的语法解析器。根据独立的基准测试,它具有快速有效的测试速度。同时,该软件是绿色,安全,完全免费的,并且内置详细的安装程序。该教程使用户可以轻松便捷地安装该软件。它非常易于使用,可以由有需要的用户下载和使用。
软件功能:
训练有素的管道可以处理不同的语言和任务
使用像BERT这样的预训练变压器进行多任务学习
支持预训练的单词向量和嵌入
语言驱动的标记化
用命名实体识别,语音标记的一部分,相关性分析,句子分割,文本分类,词义,形态分析,实体链接等的组件。
使用自定义组件和属性可以轻松扩展
在PyTorch,TensorFlow和其他框架中支持自定义模型
内置的语法和NER可视化工具
官方教程:
SpaCy与64位CPython 3.6+兼容,并且可以在Unix / Linux,macOS / OS X和Windows上运行。 “画中画”和“无限”中提供了最新的spaCy版本。
井出
使用pi,可以将spaCy版本作为源包和二进制文件提供。在安装spaCy及其依赖项之前,请确保您的pip,setuptools和wheel是最新的。
使用pip时,通常建议在虚拟环境中安装软件包,以避免修改系统状态:
SpaCy还允许您通过在方括号中指定以下关键字来安装其他依赖项,例如spacy [ja]或spacy [lookups,transformers](多个附加项用逗号分隔)。请参阅[options.extras_require] spaCy部分setup.cfg,以了解所包含内容的详细信息。
康达
由于我们强大的社区,我们得以重新添加conda支持。您还可以通过以下方式通过conda-forge安装spaCy:
有关成分(包括构建配方和配置)的信息,请签出该存储库。请注意,我们尚未在conda上发布任何预发行版本。
升级空间
从V2升级到V3尽管我们试图最大程度地减少更改的影响,但从spaCy v2.x升级到v3.x仍可能需要对代码库进行一些更改。有关更多信息,请参见“向后不兼容和迁移”部分。还记得下载一个训练有素的新管道,然后重新训练自己的管道。当更新到较新版本的spaCy时,通常建议从干净的虚拟环境开始。如果要升级到新的主要版本,请确保已安装了最新的经过培训的兼容管道,并且环境中没有遗留任何旧的不兼容软件包,因为这通常会导致意外的结果和错误。如果您已经训练了自己的模型,请记住训练和运行时输入必须匹配。这意味着您必须使用新版本重新训练管道。
SpaCy还提供validate命令,该命令使您可以验证所有已安装的管道软件包与您的spaCy版本兼容。如果发现不兼容的软件包,将打印提示和安装说明。建议使用python -m运行该命令,以确保您正在执行正确版本的spaCy。
使用GPU运行spaCy
从v2.0开始,spaCy带有在我们的机器学习库Thinc中实现的神经网络模型。对于GPU支持,我们非常感谢使用Chainer的CuPy模块所做的工作,该模块为GPU阵列提供了与numpy兼容的接口。
通过指定spacy [cuda],spacy [cuda90],spacy [cuda91],spacy [cuda92],spacy [cuda100],spacy [cuda101],spacy [cuda102],spacy [cuda110]或spacy,可以将spaCy安装在GPU上[cuda111]。如果您知道cuda的版本,则可以使用更清晰的说明符通过轮安装cupy,从而节省了一些编译时间。指定者应安装cupy。
启用GPU的安装后,激活它的最佳方法是调用spacy.prefer_gpu或spacy.require_g
在加载任何管道之前,在脚本中的某个位置添加pu()。如果没有可用的GPU,则require_gpu将导致错误。
从源编译
安装spaCy的另一种方法是克隆其GitHub存储库并从源代码构建它。如果要更改代码库,这是常用方法。您需要确保您拥有一个包含Python发行版(包括头文件,编译器,pip和git)的开发环境。编译器部分最棘手。如何执行此操作取决于您的系统。有关详细信息,请参见有关Ubuntu,macOS / OS X和Windows的说明。
要安装其他功能:
如何安装编译器和相关的构建工具:
Ubuntu:通过apt-get安装系统级依赖项,如下所示:sudo apt-get install build-essential python-dev git
MacOS / OS X:安装最新版本的XCode,包括所谓的“命令行工具”。 macOS和OS X附带了预安装的Python和Git。
Windows:安装与用于编译Python解释器的版本匹配的Visual C ++ Build Tools或Visual Studio Express版本。
开发人员的其他选择
对于正在编辑源代码并经常重新编译的spaCy开发人员,某些其他选项可能会有用。
以可编辑模式安装。保存.py文件后,对该文件的更改将立即反映出来,但是对Cython文件(.pxd,.pyx)的编辑将要求以下pip installorpython setup.py build_ext命令再次运行。在以可编辑模式安装之前,请确保已使用pip uninstall spacy删除了所有以前的安装。您可能需要多次运行它才能删除早期安装的所有痕迹。
使用NCPU并行构建以加快编译速度,然后以可编辑模式安装:
生成可执行文件
SpaCy存储库包含一个Makefile。使用以下命令生成可执行的zip文件pex(P ython示例可执行)。可执行文件包括spaCy及其所有程序包依赖性,并且仅在运行时需要系统Python。构建可执行的.pex文件通常是部署spaCy的最简单方法,因为它允许您将构建和部署过程分开。
用法要使用.pex文件,只需在python执行code或CLI命令时将其替换为文件的路径即可。这等效于在安装了spaCy的虚拟环境中运行Python。
您可以使用以下环境变量配置构建过程:
运行测试
SpaCy带有广泛的测试套件。为了运行测试,通常必须克隆存储库并从源代码构建spaCy。这还将安装所需的开发依赖项以及在requirements.txt中定义的测试实用程序。
或者,您可以找到spaCy的安装位置,然后在该目录上运行pytest。别忘了还要通过spaCy的安装测试实用程序的requirements.txt:
调用pytestspaCy目录将仅运行基本测试。标志--slow是可选的,并且可以启用花费更长时间的其他测试。
软件特色:
1.支持60多种语言
2.最先进的速度
3.生产就绪培训系统
4.轻松的模型打包,部署和工作流管理
5.经过严格评估的坚固性,准确性