laravel/php安装使用结巴分词进行中文分词

Song4388 次浏览2个评论2018年06月06日

安装php版本结巴分词

git clone https://github.com/jonnywang/phpjieba.git
cd phpjieba/cjieba
make

cd ..
phpize
./configure
make
make install

如果你要安装其他版本的结巴分词,比如java,c++,python版本参考:https://github.com/yanyiwu/cppjieba

在php.ini配置结巴分词

需要在php.ini中配置结巴分词,ubuntu中位于/usr/local/etc/php/7.0/php.ini,你可以自己查找自己的文件位置,同时你要找到自己下载的phpjieba.git的位置:

extension=jieba.so
jieba.enable=1
jieba.dict_path=/private/var/www/phpjieba/cjieba/dict
*jieba.dict_path指向字典所在对应目录,请根据自己编译目录替换更改

测试

$result = jieba('小明硕士毕业于中国科学院计算所,后在日本京都大学深造');
echo implode('/', $result) . PHP_EOL;
//计算所/小明/京都大学/深造/硕士/中国科学院/毕业/日本

$result = jieba('小明硕士毕业于中国科学院计算所,后在日本京都大学深造', 1, 50);
echo implode('/', $result) . PHP_EOL;
//小明/硕士/毕业/于/中国/科学/学院/科学院/中国科学院/计算/计算所/,/后/在/日本/京都/大学/京都大学/深造

$result = jieba('他心理健康', 1);
echo implode('/', $result) . PHP_EOL;
//他/心理/健康/心理健康

$result = jieba('this is a demo, my name is jony', 1, 10);
echo implode('/', $result) . PHP_EOL;
//demo/jony

$result = jieba('this is a demo, my name is jony');
echo implode('/', $result) . PHP_EOL;
//this/ /is/ /a/ /demo/,/ /my/ /name/ /is/ /jony

$result = jieba('小明硕士毕业于中国科学院计算所,后在日本京都大学深造', 2);
print_r($result);

Array
(
    [小明] => x
    [硕士] => n
    [毕业] => n
    [于] => p
    [中国科学院] => nt
    [计算所] => n
    [,] => x
    [后] => f
    [在] => p
    [日本] => ns
    [京都大学] => nz
    [深造] => v
)
  • 更新请参考example目录
  • 词性可参考HanLP词性标注集解释
  • 项目地址:jonnywang/phpjieba

修改字典

上面我们配置了/private/var/www/phpjieba/cjieba/dict为存放目录,接下来我们要定义自己的字典库,一般情况下在user.dict.utf8中修改即可,可以把值设置高点防止其它权值太高导致你设置的无效:

不处理 999999999 nz

提交评论

请登录后评论

用户评论

  • Song Song 2017-07-16 04:00:58
    jieba还可以进行模式切换,可以根据相应的需求进行改变,它的模式三种 精确模式,全模式,搜索引擎模式,由于也是满足需求,下面介绍了解的两种: 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义 $result1 = jieba("可以今天我吃饭了",true); //输出array:5 [▼ // 0 => "可以" // 1 => "今天" // 2 => "我" // 3
    0 赞 0 条评论 回复
    评论
    查看更多评论!
  • Song Song 2017-07-16 04:00:58
    相比之下[fukuball/jieba-php](https://github.com/fukuball/jieba-php)性能低下 ``` "Fukuball执行时间:1.2189619541168 s" "jonnywang执行时间:0.00017881393432617 s" ```
    0 赞 0 条评论 回复
    评论
    查看更多评论!

更多相关好文

    当前暂无更多相关好文推荐...