搞定MySQL数据库中文模糊检索问题

搞定MySQL数据库中文模糊检索问题,第1张

在MySQL下,在进行中文模糊检索时,经常会返回一些与之不相关的记录,如查找“%a%”时,返回的可能有中文字符,却没有a字符存在。本人以前也曾遇到过类似问题,经详细阅读MySQL的Manual,发现可以有一种方法很方便的解决并得到满意的结果

例子:

希望通过“标题”对新闻库进行检索,关键字可能包含是中英文,如下SQL语句:

QUOTE:

select

id,title,name

from

achech_com.news

where

title

like

'%a%'

返回的结果,某些title字段确定带了“a”关键字,而有些则只有中文,但也随之返回在检索结果中。

解决方法,使用BINARY属性进行检索,如:

QUOTE:

select

id,title,name

from

achech_com.news

where

binary

title

like

'%a%'

返回的结果较之前正确,但英文字母区分大小写,故有时在检索如“Achech”及“achech”的结果是不一样的。知道了使用BINARY属性可以解

决前面这个问题,再看看MySQL支持的UCASE及CONCAT函数,其中UCASE是将英文全部转成大写,而CONCAT函数的作用是对字符进行连

接,以下是我们完全解决后的SQL语句:

QUOTE:

select

id,title,name

from

achech_com.news

where

binary

ucase(title)

like

concat('%',ucase('a'),'%')

检索的步骤是先将属性指定为BINARY,以精确检索结果,而被like的title内容存在大小写字母的可能,故先使用ucase函数将字段内容全部

转换成大写字母,然后再进行like *** 作,而like的 *** 作使用模糊方法,使用concat的好处是传进来的可以是直接的关键字,不需要带“%”万用符,

将“'a'”直接换成你的变量,在任何语言下都万事无忧了。当然你也可以这么写:

QUOTE:

select

id,title,name

from

achech_com.news

where

binary

ucase(title)

like

ucase('%a%')

检索的结果还算满意吧,不过速度可能会因此而慢N毫秒。

1,%:表示任意0个或多个字符。可匹配任意类型和长度的字符,有些情况下若是中文,请使用两个百分号(%%)表示。 比如 SELECT * FROM [user] WHERE u_name LIKE '%三%' 将会把u_name为“张三”,“张猫三”、“三脚猫”,“唐三藏”等等有“三”的记录全找出来。 另外,如果需要找出u_name中既有“三”又有“猫”的记录,请使用and条件 SELECT * FROM [user] WHERE u_name LIKE '%三%' AND u_name LIKE '%猫%' 若使用 SELECT * FROM [user] WHERE u_name LIKE '%三%猫%' 虽然能搜索出“三脚猫”,但不能搜索出符合条件的“张猫三”。 2,_: 表示任意单个字符。匹配单个任意字符,它常用来限制表达式的字符长度语句: 比如 SELECT * FROM [user] WHERE u_name LIKE '_三_' 只找出“唐三藏”这样u_name为三个字且中间一个字是“三”的; 再比如 SELECT * FROM [user] WHERE u_name LIKE '三__'只找出“三脚猫”这样name为三个字且第一个字是“三”的; 3,[ ]:表示括号内所列字符中的一个(类似正则表达式)。指定一个字符、字符串或范围,要求所匹配对象为它们中的任一个。 比如 SELECT * FROM [user] WHERE u_name LIKE '[张李王]三' 将找出“张三”、“李三”、“王三”(而不是“张李王三”); 如 [ ] 内有一系列字符(01234、abcde之类的)则可略写为“0-4”、“a-e” SELECT * FROM [user] WHERE u_name LIKE '老[1-9]' 将找出“老1”、“老2”、……、“老9”; 4,[^ ] :表示不在括号所列之内的单个字符。其取值和 [] 相同,但它要求所匹配对象为指定字符以外的任一个字符。 比如 SELECT * FROM [user] WHERE u_name LIKE '[^张李王]三' 将找出不姓“张”、“李”、“王”的“赵三”、“孙三”等; SELECT * FROM [user] WHERE u_name LIKE '老[^1-4]'将排除“老1”到“老4”,寻找“老5”、“老6”、…… 5,查询内容包含通配符时 由于通配符的缘故,导致我们查询特殊字符“%”、“_”、“[”的语句无法正常实现,而把特殊字符用“[ ]”括起便可正常查询。据此我们写出以下函数: function sqlencode(str) str=replace(str,"'","''") str=replace(str,"[","[[]") '此句一定要在最先 str=replace(str,"_","[_]") str=replace(str,"%","[%]") sqlencode=str end function

在使用mysql进行中文模糊查找时需要注意一些方面:

(如select * from mytable where mysqlname like "%中文%"),就象我现在一样,找到不应找到的行!

有一些朋友提出了解决办法,大致有两种:

其一,加字段属性binary(),

其二,改my.cfg启动参数为default-character-set =gbk(或gb2312).

我从问题的根本原因分析,

其一,字母大小不区分问题(通过方法一可以解决)

其二,这是大多数人没有想到的,我以前也没有想到,

例:

汉字“不”的第1、2字节ascii值分别为:178与187

汉字“安”的第1、2字节ascii值分别为:176与178

汉字“花”的第1、2字节ascii值分别为:187与168

聪明的人已经看出来了:在字符串“安花”中模糊查找字符“不”字时,mysql系统也会认为两者区配!

另外:

my.ini 文件中加入 default-character-set =gb2312 ,字段不要加 Binary 属性 ,执行 select * from mytable where mysqlname like "%不%"


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zaji/8710263.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-20
下一篇2023-04-20

发表评论

登录后才能评论

评论列表(0条)

    保存