From
https://forums.e-hentai.org/index.php?s=&am...t&p=6201225New Search Engine, Deployment Status: Not on EH
QUOTE(Tenboro @ Nov 2 2022, 04:09)

This update will be deployed in stages. If you still see the old search navigation with the page selector instead of the First/Prev/Next/Last links, you are still using the old version of the site. The update is expected to be fully deployed either today or tomorrow, unless any major issues are discovered.
简单地翻译一下更新的内容。
这次更新将分阶段部署。如果你仍然看到旧的搜索导航与页面选择器,而不是第一/前/后/最后链接,你仍然在使用旧版本的网站。除非发现任何重大问题,否则更新预计将在今天或明天全面部署。--
这次更新是对画廊搜索引擎的彻底重写,意味着搜索的用法和行为在一些或多或少的方面发生了变化。
最重要的和可见的基本变化是,现在搜索结果的内部分割是由画廊ID(GID)范围而不是 "页面 "完成的。
虽然这意味着不再支持跳转到结果中的任意 "页面",但这可以说是一种改进,因为你现在可以跳转到一个任意的GID。
这也意味着每一页的结果将固定在同一组图库上,即使它在新的图库加入后被刷新。页面导航已被重新设计以反映
这一点。
这也从根本上解决了一个长期存在的问题,即——如果你使用任何形式的过滤选项,
通过页面导航(而不是浏览器的返回按钮)向后看结果,往往会包括下一个页面的结果。
总的来说,这些变化允许大规模的性能改进(在一些常见的情况下是三个数量级),以及重要的新功能(持续阅读
),
并且对搜索结果的大小不再有任何限制。
以前它被限制在10万个搜索结果(比如说——被贴在超35万个画廊上的f:bb(巨乳标签))现在可以被完整地浏览。
“或”标签搜索现在支持标签的“或”搜索。(可能是有史以来要求最多的功能)。
在关键词之前加入 ~ 以进行"或"搜索。
比如:~yuri ~"females only" ~f:sole_females
具体来说,如果您有至少两个带有“或”运算符的项,搜索将返回所有至少包含一个相关标签的画廊。
使用“或”运算符将意味着运用标签的限定词。如果您将其与任何其他不属于标签命名空间的限定词一起使用,
“或”操作符将被忽略,关键词将作为一个标准的“与”搜索运行。
使用“或”搜索将 "消耗 "一个允许包含的搜索词。如果你只指定一个词条用于“或”搜索,它将被视为等同于“与”搜索。
指定“或”搜索的词条数量没有具体限制,尽管它实际上仍然受到搜索字符串长度上限的限制。
如果整个“或”搜索的内部匹配超过1000个标签,它会移除溢出的部分。
在这种情况下请考虑使用精确标签以允许更多的项。
通配词不适用于“或”搜索的项。
排除性搜索你现在可以进行仅排除式搜索。(这可能是所有时间中另一个要求最多的功能)。
例如: -yaoi -m:footjob -"glory hole" -sole_male$ -title:"novel ai" -comment:pixiv -uploader:BigDickDave69
在一次搜索中,你最多可以使用10个评论+最爱笔记的排除项和10个标签(或混合标签+名称)的排除项。
gid、uploader、uploaduid和标题限定词对排除词没有特别限制,尽管它们实际上仍将受到搜索字符串长度上限的限制。
关注的标签(Tag Watching)关注的标签页面的时间截止点已大大增加。
- 对于非捐赠者,截止时间从一个星期增加到至少一个月。确切的截止时间取决于内部细分,新画廊的添加速度,
以及你所关注的标签的总索引数。一般来说,它将介于1到6个月之间。
- 对于捐赠者(金星以上),不再有任何截止日期。换句话说,如果你愿意,
你可以浏览和搜索直到到网站开服时所有的关注的标签的画廊。
然而,请注意,搜索在你的关注的标签中匹配度较低的标签,每页产生的结果可能低于预期。
UI => 搜索语法变化搜索画廊标题"、"搜索画廊标签"和 "搜索画廊描述"复选框以及我的最爱页面上相应的搜索复选框都已被删除;
该功能现在是搜索语法的一部分。
默认情况下,每个搜索词将被解释为混合标签+标题搜索,并将匹配画廊名称(包括英文/罗马字和日文)以及画廊标签。
要想只匹配画廊名称,请在项前加上title:{关键词}
* 比如: title:keyword -title:"string of keywords"
要想只匹配画廊标签,请在项前加上标签的命名空间,
或标签:用于所有命名空间,
或使用精确的标签操作符$,或使用“或”搜索操作符~。
* 比如: f:"big breasts" tag:group -futanari$ ~twintails
要搜索上传者画廊的评论,请在项前加上comment:{关键词}
* 比如: comment:"insightful uploader musings" -comment:"less insightful ones"
仅限收藏搜索。要搜索喜爱的笔记,请在项前加上favnote:{关键词}
* 比如: favnote:"this is my favorite gallery" -favnote:"on the citadel"
请注意,这意味着不再支持标签+姓名+评论/收藏的组合搜索词。
搜索解析的变化- 当用不合格的短语和/或不可索引的词(a, an, ai, to, the, and, so, on, 等等)
以及一些常见的形容词(small, big, huge, gigantic)进行无引号搜索时,它们现在将被自动添加或与以下优先级合并。
* 如果紧随短语之后有一个不合格的搜索词,它将与该词合并。
例如,搜索 "a dick in a box "时不加引号,将被搜索为 "a dick" "in a box"。
每个人的新宠 "ai generated "没有引号,将被搜索为有引号。
* 如果在短语前面有一个非限定的搜索词,它将与该词合并。
例如,搜索 "novel ai "时不加引号,会像有引号一样被搜索到。
* 如果只有短语,如果有多个短语,它们将被合并为一个引号。
例如,搜索没有引号的 "ex on the ox "将被当作有引号的搜索。
* 如果只有一个短词,或者短词在限定的搜索词之间,将作为精确标签进行搜索。在这种情况下会显示一个警告。
例如,搜索 "9s artist:a 2b "而不加引号,将被搜索为 "tag:9s$" "artist:a$" "tag:2b$"
要将不同优先级的短语组合起来,请使用引号或下划线。("word1 word2 word3 "和word1_word2_word3是等同的。)
请注意,有一个单一的两字词 "3d "被特别列入标题搜索的白名单,但它不是评论搜索的可索引词,因而它不能用于此。
- 取消了对单字符通配词的支持,*通配词现在只能在关键词的末尾使用。
出于索引的原因,标题、评论和最爱笔记的搜索是隐含通配符的,所以添加通配符只会影响标签搜索。
搜索项的限制排除项和包含项现在有单独的限制。
一个查询最多可以有5个名字+标签的包含项,10个名字+标签的排除项,以及10个评论+最爱笔记的包含+排除项。
对于包含和排除,uploader:、uploadid:和gid:术语没有具体限制,但仍会受到搜索字符串最大长度(200字符)的限制。
对于排除项,标题:{名称} 也不受限制。
GID 搜索你现在可以使用gid:{关键词} 来按画廊ID搜索(公共可见的)画廊。如果你搜索一个已经被替换的GID,它将列出当前的画廊。
你现在可以使用gid:关键词来按画廊ID搜索(公开可见的)画廊。如果你搜索一个已经被替换的GID,它将列出当前的
画廊。
包含gid:{关键词} 不能与关键词搜索结合,也不能在观察模式下使用。
这不适用于排除项。如果用于排除,它将不会排除任何替换了所提供的GID的画廊。
您可以在同一次搜索中指定多个gid:{关键词},进行隐式“或”搜索。
这种搜索模式将同时显示正常的和被剔除的图库。默认的标签、语言和上传者过滤器在这些搜索中被自动禁用。
搜索结果统计出于性能方面的考虑,搜索引擎将不再计算大型结果集的确切数量;
相反,结果计数通常是基于各种指标的近似值。如果计数是一个估计值,它就会说 "大约"。
对于具有大型结果集的复杂多词搜索,它可能没有足够的信息来给出一个合理的估计。
在这些情况下,与其显示一个可能非常不准确的数字,不如直接显示 "许多"。
这只影响到计数的读出,对这些搜索结果的导航与对较小的搜索结果的导航是一样的。
较小的结果集(即那些适合在一个页面上的结果)在任何情况下都应该返回准确的计数。
经过筛选的画廊也包括在这个计数中,以配合估算的行为。
页面范围过滤器、排除性搜索条件和默认的语言/上传者/标签过滤器一般不会反映在近似的结果计数估计中。
如果你使用分类、评分或torrent筛选,它将使用预先计算的调整因素来修正估计值。
对于某些搜索,这种估计可能相当不准确。例如,如果你搜索主要适用于特定分类的某项,并且不选择其他分类。
结果计数不会显示在收藏搜索或目前正火(popular)页上。
在前一种情况下,它只能为小的结果集显示一个,而在后一种情况下,无论如何总是一页的结果。
你当然可以看到每个收藏类别的总数。
标签搜索的表现- 标签搜索现在默认为根据单词边界进行匹配,以减少不必要的匹配。
换句话说,搜索 "tag:mana "仍然会匹配所有将 "mana "作为其中一个词的标签
(如 "secret of mana" [=>seiken densetsu]或 "mana inuyama"),
但它不会匹配 "manabe"、"manatsu"、"manami "等等。
搜索 "tag:mana*"将恢复以前的行为。
- 如果一个词有太多的标签匹配,它现在会自动重新运行该词作为精确搜索,而不是出错。
- 选择 "搜索低愿力标签 "现在将只搜索低愿力标签(tag power < 10)。
这种模式也不会进行混合标题/标签搜索,所以如果一个项没有被限定(例如 巨乳"big breasts"),
它将只搜索标签。你仍然可以通过使用title: {关键词} 来搜索标题。
- 删除了 "搜索被降权的标签 "选项。
评论搜索的表现上传者的评论和最爱笔记现在使用comment: 和 favnote: {关键词} 进行搜索。
favnote: {关键词}只在收藏搜索中可用。
评论被编入索引的方式已经发生了根本性的变化,
在正常的文本搜索和仅有收藏夹+排除法的文本搜索之间会有一些微妙的区别,
因为前者通常会使用索引,而后者则不会。
最值得注意的是,一些其他可搜索的常用词(如 "this "和 "with")在使用索引时不能进行评论搜索,
但在不使用索引时将可搜索。另外,当索引被使用时,以这些短语开始的词将不会被匹配,
除非你确切地搜索这个词(如 "with "和 "withhold")。
此外,当使用索引时,它只会找到以该字符串开始的单词匹配,但当它不使用时,它也会找到以该字符串作为单词
一部分的匹配。
索引只用于正常的包含性评论搜索,但即使是那些搜索,它也可能不用于某些词和搜索,这取决于各种内部因素和
门槛,所以你不应该依赖这种行为。
其他变化- 关于收藏搜索的各种问题和限制已经得到解决。在“我的最爱”中的搜索现在应该和正常的搜索一样,除了标注的
评论/最爱笔记搜索行为。
- 对标题、标签(除了精确的标签)、评论和最爱笔记的排除性搜索现在将匹配一个词的任何部分;例如,-"laughter "将排除 "slaughter"。
- 现在,当上游数据发生变化时,索引通常会立即更新,这应该会减少在搜索中反映变化的延迟。
(由于缓存的原因,仍然会有一些延迟)。
- 每当一个画廊的标题是由没有任何空格或其他可破译字符的unicode和拉丁字符组成的混合字符串,
比如:romaji漢字moreromaji,
它以前只能用以 "rom..."、"漢字..."和"字mo.."开头的项来搜索。现在也可以被 "mor..."搜索到。
- 现在,"您的默认过滤器已移除...... "的信息更加准确,并且具体计算了所有由您的默认上传者、标签和语言搜索筛选器器设置过滤掉的画廊。
(当同时使用过滤器和排除法时,如果一个图库同时被删除,它将算作被排除)。
- 选择 "搜索被剔除的画廊 "现在将只在正常搜索中只搜索被剔除的画廊。
(文件搜索、GID搜索和收藏搜索将始终显示正常和被删除的图库)。
- 文件搜索不能再与关键词搜索或其他筛选器相结合。这种搜索模式将同时显示正常的和被剔除的图库。
默认的标签、语言和上传者筛选器现在会自动禁用这些搜索。
- 过于狭窄的页面范围过滤器(最小>1000,最大<10,最小/最大>0.8,最小-最大<20)不再被允许。
- 每页的最大结果数现在是100。版面扩张III hath 能力已被删除,并将很快退款™。
已知的问题/怪事/抱怨/理想工作主义- 当你从一个页面转到下一个页面时,你可能会看到画廊出现失序的情况--换句话说,
根据发布日期,你会认为画廊在另一个页面上。这主要适用于在最新的上传程序更新之前的旧画廊。
这是因为,在上述更新之前,画廊可能在实际发布之前已经被分配了一个GID。
在未来重新设计图库元数据表之后,这个问题可能会被解决,即对明显不符合顺序的图库重新编号。
- 如果你从搜索结果的末尾(逆向浏览模式)一直浏览到开头,
结果中的 "最后 "一页(有最古老结果的那一页)会有一整页的结果,
而结果中的 "第一 "页(有最近的结果)会有剩余的结果。这是按原计划进行的。
- 如果你在搜索结果中向后走,并到达 "第一 "页(有最新的结果),
"<<首页" 链接将被点亮,以便在前向浏览模式下翻回第一页,
即使没有进一步的页面,并且"<<上一页 "被禁用。这是在按计划中的情况。
- 如果你搜索几个“与”搜索包含的标签词(或混合标题+标签词),每个词都有很多结果(~10K+),
有些有很多结果(~100K+),而且标签之间的重叠程度很低,你可能看到每页的结果比预期的少。
你通常可以使用精确的标签来避免这种情况。
- 一般来说,"每页结果 "应被视为一个目标,而不是一个保证。
例如,作为一个内部优化,如果一个结果页在一个搜索周期后至少有95%的内容,
它可能会返回几个 "缺失 "的结果,而不是开始另一个搜索周期(这可能很昂贵)。
这并不意味着它对你扣留了结果,你会在下一页找到它们。
- "但是$tool/$script需要在搜索结果中访问任意页面和/或准确的搜索结果计数的能力 "已经超出它的概念(我不会修复这个问题)。
更新它以使用新的基于gid的导航。不,旧的搜索引擎并不是 "以原来的方式工作得很好",
它在建立搜索结果时由于内存耗尽而在越来越多的搜索中失效,并且迫切需要一个基本的重新设计以应对不断增加
的索引大小。
这可能是E站历史上最复杂的一次更新,因此可能会有一些错误和其他细微的行为变化。
如果这些补丁说明中没有指出,请不要客气,直接询问它是不是被这么设计的。
This post has been edited by dongmian: Nov 2 2022, 21:17