详细介绍基于MySQL的搜索引擎MySQL-Fullltext

本文涵盖了一个简单的c实现的搜索引擎的搭建始末。
我通常使用sql server和c #，但我教c/c++的朋友要远离微软。在过去，mysql不是我想要的数据库，因为标准安装版不支持事务，但它变得越来越成熟。我使用64位innodb引擎的mysql 5.6，使用unicode（utf8）编码，这是我新数据库的默认设置。
freetext是innodb的新特征，它在mysql5.6版中被首次推出。
与c相比我通常更喜欢c++，即使在小项目中：不用知道所有的函数名，而且有一些内置的常用操作和漂亮的intellisense支持。在c++中，还有有stl及集合和字符串助手。
c++的mysql接口比较弱，而c的接口很成熟，所以我决定使用c接口。
c的dll文件是和wcf一起发布的，以便完成ajax请求，在visual studio ultimate 2012中我使用c#的wcf service application模板，我搜索了使用c++搭建webservice的方法，但只找到一些使用c++处理webservices调用的例子。
用户界面是一个使用jquery和jquery-ui自动提示的html界面，页面被增加到wcf服务应用，项目被命名为visionweb
网页看起来是这样的：
我在.net框架4.0，64位系统上配置这个项目，如果你使用32位的mysql服务器，你必需随之做些更改。记得设置unicode选项为默认值。
配置mysql
你有可能会从visionsmall中打开这个visiondal项目, 假定你必须修改连接mysql的c程序接口. 在这儿,我介绍了如何在新项目中安装mysql接口: 检查那些设置是否符合你的要求,尤其是mysql.lib文件和visiondal.dll的路径.
在visual studio中,添加一个visiondal工程, 通过这个流程other languages/visual c++/empty project. 在这之中, 你只需要改变应用类型为dll. 把visiondal.cpp改名为visiondal.c, 这就清楚的告诉visual studio把编译器从c++改为c. 给这个工程添加一个头文件命名为visiondal.h.
在窗口中, 右击visiondal工程并选择属性. 然后在配置属性/linker/input, 选择 additional dependencies 并且添加libmysql.lib 到这个路径, 不要忘记了分隔符 ;.
在配置属性/linker/general这个菜单下, 选择添加库目录 ,对我来说就是添加 c:\program files\mysql\mysql server 5.6\lib>这个目录. 现在我们已经连接到c接口, 但是在libmysql.lib中调用执行的dll必须是系统的可执行路径: 从控制面板, 选择系统, 点击高级系统设置, 点出环境变量在系统变量下面,选择路径, 并添加这个 libmysql.lib 的路径 (dll和这个lib文件在相同的文件夹里): c:\program files\mysql\mysql server 5.6\lib.
我们也需要把这个visiondal.dll放到我们的path路径里, iis 并不能从这个网站的bin目录中取到dll文件. 添加 /x64/debug 到路径变量path里. 重启后生效. 当网站得到一个request请求时将会加载visiondal.dll; 如果你现在重建项目, 你会得到一个visiondal.dll的写入错误: 为了解决它, 重启该网站或是用unlocker之类的解锁.
如果需要指定visondal的包含属性. 在配置属性/c/c++ 菜单下添加mysql的头文件路径, 例如像这样: c:\program files\mysql\mysql server 5.6\include.
下面我们在“c/c++”/预编译头菜单栏中，从“预编译头”切换到“不使用预编译头”，设置preproccessor定义防止使用strcpy和fopen时产生的错误消息：在c/c++/预编译器/预编译器定义中设定se_standard_file_functions和_crt_secure_no_warnings。
当你现在连接，mysqllib引用的问题并没有解决，因为它们是64位处理器。通过在visiondal中打开工程属性，选择“配置管理”，然后设置为x64平台。
现在我们来创建名为 vision 的样本数据库
打开sql development 中的 mysql 工作台，打开你的实例。将会出现一个新窗口 sql file 1 。双击visiondal项目中的 sql.txt 文件。复制所有内容到剪贴板，粘贴到工作台中的sql file 1窗口。点击螺栓图标（左边第三个图标），创建样本数据库。
接下来我们需要用来数据库登录的通用信息。
我们有一个关于此的配置文件： visionsmall\x64\debug\visionconfiguration.txt, 看起来像这样:
代码如下:
host: localhost
user: root
password: frob4frob
database: vision
port: 3306
修改这些数值以匹配你的sql-configuration。
vision 数据库
数据库中只有一张表
create table 'document' ( 'documentid' int(11) not null auto_increment, 'title' varchar(255) default null, 'text' text, primary key ('documentid'), fulltext key 'ft' ('title','text'), fulltext key 'fttitle' ('title')) engine=innodb auto_increment=5 default charset=utf8;
搜索的时候我们使用名为'ft'的全文索引，查找自动完成单词的时候我们使用名为'fttitle'的全文索引。
如果你拥有一个很多字段的全文索引，你可以在microsoft sql server中选择，查询的时候，哪个字段被包含进搜索。在mysql中，通常全文索引的所有字段都被搜索，所以我们必须指定额外的全文索引'fttitle'。
通过c接口进行mysql查询
首先呢，为了执行查询我们需要连接到数据库并取得一个mysql的指针:
mysql *connect(){ mysql *conn; // connection // 连接到mysql conn = mysql_init(null); if(mysql_real_connect( conn, configuration.host, configuration.user, configuration.password, configuration.database, configuration.port, null, 0) == null) { fprintf(stderr, sorry, no database connection ...\n); return null; } return conn;}
在启动的时候我们把visionconfiguration.txt文件里的变量赋值到全局变量, 这个文件应该和我们的程序在同一目录. 这是一个例行操作.获取当前运行程序目录是通过win32 api的getmodulefilename函数,如下:
tchar *getexecutablepath(){ tchar *pbuf = (tchar *)malloc(512); int bytes = getmodulefilename(null, pbuf, 255); if(bytes == 0) return null; else return pbuf;}
这里只有一个程序我们想要说明:getdocuments. 在头文件定义:
#define format_text 0#define format_json 1
__declspec(dllexport) tchar* __cdecl getdocuments(tchar *search, int format, int forautocomplete);
在资源文件中定义:
__declspec(dllexport) tchar* getdocuments(tchar *search, int format, int forautocomplete)
__declspec(dllexport)的声明和定义实现是通过添加到visiondal.lib文件并通过visiondal.dll文件输出.__cdecl定义如何调用这个过程, 这里我们使用c风格的调用约定.当unicode定义被设置时,tchar和wchar是一样的,否则tchar就是一个简单的char, 假定我们这里的unicode 已经设置好了.
注意这里有一些不同的 unicode格式: 在c语言里我们使用两个字节来表示一个char值在mysql和.net 框架的utf-8格式, 它意味着一个字节对应一个字符并且仅在超过一个字节被使用时在终端程序中通过用一个字符对应一个字符并且当值大于127时使用codepage 850.参数格式是 format_text 和 format_json,来保证输出在text和 json之间.
如果forautocomplete是true,那么只有标题被搜索并返回.
visiondalclientconsole
visiondalclientconsole是一个很小的windows console应用程序。测试我们的getdocuments程序将会涉及到visiondal工程集合，它将文件从visiondal输出到 visionsmall\x64\debug 。
visiondalclientconsole 发出搜索字串请求，包括通配符“*”，它将会搜索title列和text列，并通过调用getdocuments将字符输出。
一个简单的例子：
main 入口：
int _tmain(int argc,tchar* argv[]){ char c; tchar *result; tchar *search = (tchar *)malloc(1000*2); char *searcha = (char *)malloc(1000); int retval = 1; char buffer[32000]; buffer[0]=0; printf(search for: ); /* wscanf doesn't get umlauts */ if(scanf(%[^\n], searcha) 0.001 order by score desc limit 20, search, search); widechartomultibyte(cp_utf8,0,lbuffer,-1,sql,1000,null,null); }}else if(search == null || wcslen(search) ==0){ widechartomultibyte(cp_utf8,0,lselect documentid, title, text from document,-1,sql,1000,null,null);}else{ wsprintf(lbuffer, lselect documentid, title, text, match(title, text) against('%ls' in boolean mode) as score from document where match(title, text) against('%ls' in boolean mode) > 0.001 order by score desc, search, search); widechartomultibyte(cp_utf8,0,lbuffer,-1,sql,1000,null,null);}
查询match(title, text) against('%ls' in boolean mode)在列title和text中查询要搜索的字符串，并返回一个反馈查询匹配情况的值。只有分数大于0.001的文档将显示，输出结果按评分排序。
in boolean mode时多个单词的搜索分别进行。
在搜索字符串中，你可以使用“*”作为通配符，它匹配0到n个字符。例如“as*”会匹配asp。搜索不区分大小写。在sql server中有些例外，“as**”不匹配任何内容，“*sp”也不匹配，你可以在字符串的开头匹配通配符。
获得数据
if(mysql_query(conn, sql)) { fprintf(stderr, %s\n, mysql_error(conn)); fprintf(stderr, %s\n, sql); return null;} // process resultsresult = mysql_store_result(conn); ... while((row = mysql_fetch_row(result)) != null) { if(format == format_text){ multibytetowidechar(cp_utf8,0,row[0], -1,buffer, 255); wsprintf(resultbufferp,l%s\t, buffer); resultbufferp+=wcslen(buffer)+1; multibytetowidechar(cp_utf8,0,row[1], -1,buffer, 255); wsprintf(resultbufferp,l%s\t, buffer); resultbufferp+=wcslen(buffer)+1; multibytetowidechar(cp_utf8,0,row[2], -1,buffer, 32000); wsprintf(resultbufferp,l%s\n, buffer); resultbufferp+=wcslen(buffer)+1; }else if(format == format_json){ if(!forautocomplete){ multibytetowidechar(cp_utf8,0,row[0], -1,buffer, 255); wsprintf(resultbufferp,l{\documentid\: %s, , buffer); resultbufferp+=wcslen(buffer)+wcslen(l{\documentid\: , ); multibytetowidechar(cp_utf8,0,row[1], -1,buffer, 255); wsprintf(resultbufferp,l\title\: \%s\, , buffer); resultbufferp+=wcslen(buffer)+wcslen(l\title\: \\, ); multibytetowidechar(cp_utf8,0,row[2], -1,buffer, 32000); wsprintf(resultbufferp,l\text\: \%s\},, buffer); resultbufferp+=wcslen(buffer)+wcslen(l\text\: \\},); }else{ multibytetowidechar(cp_utf8,0,row[0], -1,buffer, 255); wsprintf(resultbufferp,l\%s\,, buffer); resultbufferp+=wcslen(buffer)+wcslen(l\\,); } }}
mysql_query 将查询发送到服务器。mysql_store_result将结果准备为一个集合，你可用mysql_fetch_row(result)进行迭代。无论列具有什么数据类型，每行都是一个字符串数组。我更喜欢ado.net中的具有类型的列。在.net中，我们可能使用stringbuilder来聚集结果字符串，这里我们通过malloc和增长resultbufferp指针来定位char[]。我们使用multibytetowidechar来转换到wchar。
json 格式
我决定不采用xml格式，而使用轻量级的 json-格式，以此来从web页面通过ajax与webservice通讯。
json-输出看起来像这样
[{documentid: 1, title: asp mvc 4, text: was für profis},{documentid: 2, title: jquery, text: hat ajax support},{documentid: 3, title: webservices, text: visual c++ kanns nicht},{documentid: 4, title: boost, text: muss extra installiert werden}] 在参数自动完成为真的时候，json-看起来像这样：?1 [asp mvc 4,jquery,webservices,boost]
[] 符号表明了一个数组的开始与结束， {} 标明了一个对象的开始与结束。在一个对象中，:前面的部分是属性名称，在它后面的部分是属性值。与之类似的，在你用javascript编码的时候也差不多一样。通过javascript-命令json.parse，你得到一个完整的对象，这个对象的属性可以通过通常的. 符号访问。
为 getdocuments 方法搭建 webservice
我使用visual c#/wcf/wcf service application模板创建了 visionweb项目，需要添加必要的system.servicemodel引用。
下一步我们使用 nuget 来添加必要的 javascript 库。选择 tools/library packet manager/package manager console 并执行如下命令：
install-package jqueryinstall-package jquery.ui.combined
下一步我们在 “ app-code/ivisionservice.cs” 文件中定义 service contract ：
namespace visionservices{ [servicecontract(sessionmode = sessionmode.allowed)] public interface ivisionservice { [operationcontract] [webinvoke( method = post, bodystyle = webmessagebodystyle.wrappedrequest, requestformat = webmessageformat.json, responseformat = webmessageformat.json)] string getdocuments(string search, int format, int forautocomplete); } }
webinvoke 属性是保证 service 能够被ajax调用。我选择post作为在http请求中传递参数的方式。这个可选择的 get 方式, 会加密并且暴露在url中的参数。
我们指定以json格式发送请求和响应。当传递一个或多个参数时必须使用
bodystyle = webmessagebodystyle.wrappedrequest。
你可以使用 webmessagebodystyle.bareif ，这样你会得到零或者一个参数。
webservice的实现
我们将实现定义在 app-code/ivisionservice.cs中：
namespace visionservices{ public class pinvoke { [dllimport(visiondal.dll, charset = charset.unicode)] public static extern string getdocuments(string search, int format, int forautocomplete); } public class visionservice : ivisionservice { public string getdocuments(string search, int format, int forautocomplete) { string result = pinvoke.getdocuments(search, format, forautocomplete).tostring(); return result; } }}
visionservice.svc的实现

这里定义了调用http://:visionservice.svc时的服务端点，调用getdocuments函数的url地址是 http://:visionservice.svc/getdocuments。
web.config 文件

这是允许ajax请求的配置。你可以使用很多选项来配置wcf。你可以到safari上查看更多类似于[2]的文档。
配置了一个提供元数据交换的端点，通过元数据你可以自动生成代码来获得webservice代理，比如使用svcutil。选择programs/microsoft visual studio 2012/visual studio tools/developer command prompt for vs2012. 输入svcutil http://localhost:8001/visionservice.svc.一个名为visionservice.cs 的文件就生成了, 在其他情况下也会生成一个包含了webservice配置信息的文件。
托管网站
启动“设置/控制面板/管理工具/ internet信息服务（iis）管理器”。当没有安装iis的时候，导航到“应用程序池”，找到正在运行.net framework 4.0版本应用程序池的名称，或者添加一个新的应用程序池。导航到“网站”节点，右击它，然后选择“添加网站...”，使用vision作为网站的名称，为这个应用选择一个正在运行的 .net framework 4.0版本应用池。使用 /visionweb作为物理路径，设置端口为8001.选择属性上visionweb项目，选择“网络”，选中“使用自定义的web服务器”，输入服务器url http://localhost:8001。你可以使用其他的选项来托管网站，例如在iis express中，但是如果你不想改变default.html文件，你必须将端口设置为8001。
html/jquery 页面
在visionweb中有个名为default.html的单一html页面，它包含了html与javascript的内容，它被标为起始页。
同样这里是这个页面的样子：
search
html代码说明了这是一个html 5的文档类型。接着我们包含进了必须的javascript文件。在jquery-ui中我们只用到了自动完成插件，为此我们还包含了它的css文件。
对于自动完成对象，包含了类[__em all=[object htmlcollection]__] .ui-menu-item，我们将背景设置为白色，不然的话它的透明背景会使表格的内容穿透出来。
[__em all=[object htmlcollection]__].ui-helper-hidden-accessible { display:none; }将一个烦人的帮助信息从自动完成插件移走。
search:

表单中的元素被赋以了id，因此你可以类似$('#result')用jquery获得它们。你还可以用jquery代替缩写的$，例如[__em all=[object htmlcollection]__] jquery('#result')。javascript的函数调用document.getelementbyid('result')具有同样的效果，但是jquery支持所有类型的css选择符。
我使用无侵入的javascript，也就是说html代码没有混在javascript代码中。事件处理器是在function$(document).ready(function ()方法中绑定的，这个方法会在页面加载后执行。
$(document).ready(function () { $('#update').bind('click', getdocuments); $('#search').bind(keydown, getinput); $(#search).autocomplete({ source: function (request, callback) { getautocomplete(); callback(documents); }, open: function (event) { var $ul = $(this).autocomplete(widget); } });});
当你点击update按钮的时候会执行getdocuments方法。它会进行一次全文检索然后将结果显示到一个html表格中：
function getdocuments(e) {var searchstring = $('#search').val();if (searchstring.length > 0) { if (searchstring[searchstring.length - 1] != *) { searchstring += *; }}$.ajax({ type: 'post', url: 'http://localhost:8001/visionservice.svc/getdocuments', datatype: 'json', crossdomain: true, data: json.stringify({ search: searchstring, format: 1, forautocomplete: 0 }), processdata: true, contenttype: application/json ; charset=utf-8, success: function (json, textstatus) { var result = json.parse(json); var display; display = ; display += 变量是一个javascript对象数组。jquery的$.each方法遍历整个数组，当方法执行的时候，使用当前数组元素的索引和处于当前索引位置的元素作为参数。我们通过调用$('#result').html(display)来显示html代码，从而生成我们的结果div。底层数据:我们使用json.stringify方法将用来传输的数据转化为javascript对象并将其作为参数。当发生错误的时候，在error:后面的代码将会执行。
自动完成是如何工作的
在我们的 javascript 代码开头，我们描述了一个全局变量，用来将用于自动完成的单词保存在一个数组中：var documents = [];。函数getautocomplete填充了documents数组。 autocomplete函数：
function getautocomplete(e) { var searchstring = $('#search').val(); if (searchstring.length > 0) { if (searchstring[searchstring.length - 1] != *) { searchstring += *; } } $.ajax({ type: 'post', url: 'http://localhost:8001/visionservice.svc/getdocuments', datatype: 'json', data: json.stringify({ search: searchstring, format: 1, forautocomplete: 1}), processdata: true, async: false, contenttype: application/json ; charset=utf-8, success: function (json, textstatus) { documents = json.parse(json); }, error: function (xhr, textstatus, errorthrown) { alert('an error occurred! ' + (errorthrown ? errorthrown : xhr.status) + xhr: + xhr + textstatus: + textstatus); } });}
这看起来非常像getdocuments函数。success 函数只是更新了documents变量，通过json.parse来将webservice的输出进行转换。注意async: false，这使得调用是异步的。这个自动完成插件会调用getautocomplete函数，并立即显示documents。
在 $(document).ready(function () 中初始化自动完成插件:
$(#search).autocomplete({ source: function (request, callback) { getautocomplete(); callback(documents); }, open: function (event) { var $ul = $(this).autocomplete(widget); }});
你可以在这里找到关于自动完成的信息：自动完成。
在搜索框中处理 [return] 键：
$('#search').bind(keydown, getinput); function getinput(e) { if (e.keycode == 13) { e.preventdefault(); getdocuments(e); $('#search').autocomplete(close); }}
e.preventdefault();停止了对当前事件的处理。
调试
你可以在web浏览器中输入 url http://localhost:8001/visionservice.svc。如果服务激活失败，将会有一条信息提示，例如 visiondal.dll 无法加载。你可以用像fiddler 之类的工具检测其间的http通信。

详细介绍基于MySQL的搜索引擎MySQL-Fullltext_MySQL

推荐信息